19 篇
3.爬虫
3.20 lxml解析html代码和文件
lxml库: lxml是一个HTML/XML解析器,主要的功能是如何解析和提取 HTML/XML 数据。 lxml和正则一样…
3.19 xpath语法
选取节点: 1、Nodename(选取此节点的所有子节点): 例:获取一个网页中所有的div元素 2、…
3.18 xpath介绍和工具安装
关于XPath: xpath是在XML和HTML文档中查询信息的一种语言,可以用来在XML和HTML文档中对元素和属性进…
3.17 requests库处理不信任SSL证书
对于正常受信任的SSL证书的网站在Chrome上可以看到连接是安全的,有些网站其实是https协议但是可以看到网…
3.16 requests库处理Cookie
得到Cookie信息: [crayon-5e821dcfa00d9760021968/] 这样得到的是一个CookieJar的数据,如果需…
3.15 requests库使用代理IP
未代理之前: [crayon-5e821dcfa0297129437063/] 代理之后: [crayon-5e821dcfa029f00603433…
3.14 requests库处理POST请求
基本POST请求处理: [crayon-5e821dcfa0476801733278/] 利用POST请求爬取拉勾网的职位信息: […
3.13 requests库的基本使用
在Python标准库中,urllib已经包含了大部分功能,但是API使用起来不是很友好,所以衍生出了requests库 …
3.12 cookie信息的加载和保存
把Cookie保存到本地: 使用http.cookiejar的MozillaCookieJar子类进行操作 [crayon-5e821dcfa089c15…
3.10 爬虫使用Cookie模拟登陆
以人人网为例,利用Cookie模拟登陆,爬取主页信息,只需要在爬取的代码中找到秋白两字就说明爬取成功 …