222 篇
Python
3.72 正则表达式前瞻后瞻
1、正则表达式匹配顺序 正则表达式都是从文本的头部往尾部进行匹配,文本尾部的方向称为前 2、前瞻 …
5.8 数据清洗–替换值
replace方法: [crayon-60743a0a18be4385355157/] Replace方法有两种方式,一种传递2个列表,需…
5.7 数据清洗–利用映射或者函数转换数据
利用字典映射新增列: [crayon-60743a0a18d32987438424/] 这样很麻烦,比如Apple和apple这种数…
5.6 数据清洗–移除重复数据
检查重复数据行: duplicated()方法 [crayon-60743a0a18ea2042541472/] 删除重复数据行: …
5.5 数据清洗–处理缺失数据
[crayon-60743a0a19060361061686/] 发现数据会有NaN的这个缺失值 监测缺失值的方法: isnull…
3.71 selenium操作无头浏览器
无头浏览器: 即没有图形页面的浏览器,这样可以一定程度提升selenium操作浏览器的效率,不需要进行图…
4.25 Scrapy-redis和scrapy的一些源码解析
Scrapy-redis: requests对象什么时候会入队: dont_filter = True,构造请求的时候,把dont_filter…
4.23 scrapy携带Cookie登录
Spider中的start_urls交给谁去处理: 从源码中可以看出start_urls=[]是默认交给start_requests()处理,…
4.22 异步执行的时候item的影响
在爬虫有多个解析函数,并且使用meta参数传递item字典的时候会出现一个现象,因为字典的缘故,下一个解析…
4.21 settings和管道的深入
Settings文件: 可以用于存储公告信息,比如数据库连接等等 最大并发请求: 下载延迟: …