BeautifulSoup就像是一个外壳,底层还是需要依赖第三方的解析器,通过解析器在内存中建立结构树来进行数据筛选

四个常用解析器:

Python标准库:html.parser,执行速度适中,文档容错能力强,2.7.3,3.2.2之前的版本容错较差

lxml HTML解析器:lxml,速度快,文档容错能力强

lxml XML解析器:xml,速度快,唯一支持XML的解析器

html5lib解析器:html5lib,最好的容错性,以浏览器的方式解析文档,生成HTML5格式的文档,但是速度慢