Beautiful Soup 是一个用于解析 HTML 和 XML 文档的 Python 包(包括格式错误的标记,即未闭合的标签,因此以标签汤命名)。 它为解析的页面创建一个解析树,可用于从 HTML 中提取数据,[3] 这对网络爬虫很有用。
Beautiful Soup 提供对 HTML 内容的细粒度控制,支持特定标签提取、删除和内容清理。
它适用于您想要提取特定信息并根据需要清理 HTML 内容的情况。
例如,我们可以从 HTML 内容中抓取 <p>、<li>、<div> 和 <a> 标签内的文本内容:
-
<p>:段落标签。它在 HTML 中定义一个段落,用于将相关的句子和/或短语组合在一起。 -
<li>:列表项标签。它在有序(<ol>)和无序(<ul>)列表中使用,用于定义列表中的各个项目。 -
<div>:分区标签。它是一个块级元素,用于组合其他内联或块级元素。 -
<a>:锚点标签。它用于定义超链接。