设置settings.py的配置项

从True改为False,如果设为True,爬取的时候Scrapy会先去找rebotstext文件(爬虫协议文件,是否允许进行爬取),如果没有找到就直接返回了,不会爬取任何数据

在默认的请求头添加UA信息

让引擎去执行pipelines文件,用来去存储数据

爬虫文件:spiders文件夹下的qsbk.py文件配置:

配置items.py文件,用于定义存储数据的数据结构:

配置pipelines.py文件,用于存储送爬虫那里得到的数据:

注意类中的3个方法,也是这个类最常用的方法,爬虫开始执行的时候运行的代码,处理数据和爬虫运行结束的时候运行的代码

配置start.py文件,用于执行爬虫程序,不需要到cmd里面去运行了:

文件放置位置在爬虫的根目录下面