223 篇
Python
7.1 设置XHR断点
XHR断点用处 一般用于暂停网页在发送Ajax请求的时候会发送XHR类型数据 设置XHR断点 打开Chrome浏…
3.72 正则表达式前瞻后瞻
1、正则表达式匹配顺序 正则表达式都是从文本的头部往尾部进行匹配,文本尾部的方向称为前 2、前瞻 …
5.8 数据清洗–替换值
replace方法: [crayon-610c1f9d44296998089585/] Replace方法有两种方式,一种传递2个列表,需…
5.7 数据清洗–利用映射或者函数转换数据
利用字典映射新增列: [crayon-610c1f9d44400289985723/] 这样很麻烦,比如Apple和apple这种数…
5.6 数据清洗–移除重复数据
检查重复数据行: duplicated()方法 [crayon-610c1f9d44570126491743/] 删除重复数据行: …
5.5 数据清洗–处理缺失数据
[crayon-610c1f9d44725420143942/] 发现数据会有NaN的这个缺失值 监测缺失值的方法: isnull…
3.71 selenium操作无头浏览器
无头浏览器: 即没有图形页面的浏览器,这样可以一定程度提升selenium操作浏览器的效率,不需要进行图…
4.25 Scrapy-redis和scrapy的一些源码解析
Scrapy-redis: requests对象什么时候会入队: dont_filter = True,构造请求的时候,把dont_filter…
4.23 scrapy携带Cookie登录
Spider中的start_urls交给谁去处理: 从源码中可以看出start_urls=[]是默认交给start_requests()处理,…
4.22 异步执行的时候item的影响
在爬虫有多个解析函数,并且使用meta参数传递item字典的时候会出现一个现象,因为字典的缘故,下一个解析…