安装Scrapy:

通过pip install scrapy即可安装。

注意:

在ubuntu上安装scrapy之前,需要先安装以下依赖:

sudo apt-get install python3-dev build-essential python3-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev,然后再通过pip install scrapy安装

如果在windows系统下,提示这个错误ModuleNotFoundError: No module named ‘win32api’,那么使用以下命令可以解决:pip install pypiwin32

创建项目:

要使用Scrapy框架创建项目,需要通过命令建立项目,首先进入项目存放路径,然后通过命令进行创建

项目结构(初始文件)

Scrapy.cfg:

项目的配置文件

Spiders:

所有的爬虫目录

Items.py:

存储所有爬取数据的模型

Middlewares.py:

中间件

Pipelines.py:

用于处理爬虫爬取下来的数据的

Settings.py:

设置爬虫,有默认的请求头,是否开启cookie,是否下载前需要延迟等等

利用命令生成爬虫:

进入spider文件夹后

Scrapy genspider qsbk(爬虫名称) “qiushibaike.com”(限定爬取的域名)

Spider文件夹下就会自动生成爬虫文件