Spider中的start_urls交给谁去处理:

从源码中可以看出start_urls=[]是默认交给start_requests()处理,必要时重写start_requests()方法

直接携带Cookie登录:

适用于Cookie过期时间很长的网站

登录人人网之后,直接从浏览器F12中拿到Cookie用于登录

如果在parse函数中再次构造一个请求,就不需要再去写cookies参数,原因就是scrapy默认会开启cookies默认携带cookies,如果想要看Cookie怎么传递,可以在settings文件中添加COOKIES_DEBUG = True,终端中可以看到Sending cookies to

发送post请求,带上Cookie信息:

登录github

可以先输入一次错误密码,抓包查看一下需要的POST请求的参数,参数可以去网页中试着找一下如果可以找到直接使用xpath提取

FormRequest还有一种方法可以自动在网页中寻找form表单并且帮助我们直接填写用户名和密码进行登录,情况只有在输入用户名密码的html标签是form的情况下,且form的action有对应的地址