如何使用 BeautifulSoup 解析 HTML 标签内的 HTML 标签内容？答案

【问题标题】：How to Parse contents of HTML tag which is inside an HTML tag with BeautifulSoup?如何使用 BeautifulSoup 解析 HTML 标签内的 HTML 标签内容？
【发布时间】：2017-06-05 07:02:28
【问题描述】：

在网络上发现的一个独特的 html 案例中，有一个 html 文档，它在父 HTML 标记中具有多个 html 标记。我想解析html标签的内容。谁能指出我这样做的方向？

提前致谢。

编辑 1：使用 BeautifulSoup

soup = BeautifulSoup(html, "lxml")

只给出父 html 和其中存在的标签。

但是我假设浏览器是否能够呈现 html BS 应该能够解析它。这个假设正确吗？

编辑 2：实际上，html 是格式错误的 html（我在这里假设），这是我用 beautifulsoup 解析的 html，我只得到了第一个（最外层）html 的表格和和。如果我手动删除多个 HTML 标签并只保留 1 个 html 标签，我可以解析 BS 中的表格。所以问题是“有没有办法解析下面的html并从文件的最里面或所有表中获取数据？

<!DOCTYPE html>
<html>
<head>
    <title>Some Title</title>
</head>
<body>
    some html to display the tables.
    <html>
        <head></head>
        <title>Some other title</title>
        <body>
            some html to display even more tables.
        </body>
    </html>
</body>
</html>

【问题讨论】：

如果您提供 URL 并解释您要从中提取的内容会有所帮助。

标签： python html parsing beautifulsoup

【解决方案1】：

这是一个示例代码，您可以使用它来查找特定类型的 html 标记中的特定文本

soup2 = BeautifulSoup(x, 'html.parser')
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}):
         for j in i.find_all('li'):

【讨论】：

我已更新问题以包含更多详细信息，您能否对此发表评论？提前致谢。

【解决方案2】：

这里有一些与您的问题相关的网站，我认为您可以找到一个很好的答案。

【讨论】：

能否添加一些代码示例，如何解决问题？