和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器。

lxml只是局部遍历,而Beautiful Soup 是基于HTML DOM(Document Object Model)的,会载入整个html文档,解析整个DOM树(树如下图所示),因此时间和内存开销都会大很多,所以性能要低于lxml

BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器和正则表达式

安装和文档

安装:pip install bs4。

中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html