新建CrawSpider:

编写爬虫:

Wxapp_spider.py:

items.py:

piplines.py:

关于CrawSpider的重点总结:

需要使用LinkExtractor和Rule。这两个东西决定爬虫的具体走向。

  1. allow设置规则方法:要能够限制在我们想要的URL上面,不要和其他的URL产生相同的正则表达式即可
  2. 什么情况下使用follow:如果在爬取页面的时候,需要将满足条件的URL再进行跟进,那么就设置为True
  3. 什么情况下制定callback:如果这个URL对应的页面只是为了获取更多的URL,并不需要里面的数据,那么就可以不指定callback。如果URL里面有想要的数据,就需要指定一个callback