【问题标题】:How to Parse contents of HTML tag which is inside an HTML tag with BeautifulSoup?如何使用 BeautifulSoup 解析 HTML 标签内的 HTML 标签内容?
【发布时间】:2017-06-05 07:02:28
【问题描述】:

在网络上发现的一个独特的 html 案例中,有一个 html 文档,它在父 HTML 标记中具有多个 html 标记。我想解析html标签的内容。谁能指出我这样做的方向?

提前致谢。

编辑 1: 使用 BeautifulSoup

soup = BeautifulSoup(html, "lxml")

只给出父 html 和其中存在的标签。

但是我假设浏览器是否能够呈现 html BS 应该能够解析它。这个假设正确吗?

编辑 2: 实际上,html 是格式错误的 html(我在这里假设),这是我用 beautifulsoup 解析的 html,我只得到了第一个(最外层)html 的表格和和。如果我手动删除多个 HTML 标签并只保留 1 个 html 标签,我可以解析 BS 中的表格。所以问题是“有没有办法解析下面的html并从文件的最里面或所有表中获取数据?

<!DOCTYPE html>
<html>
<head>
    <title>Some Title</title>
</head>
<body>
    some html to display the tables.
    <html>
        <head></head>
        <title>Some other title</title>
        <body>
            some html to display even more tables.
        </body>
    </html>
</body>
</html>

【问题讨论】:

  • 如果您提供 URL 并解释您要从中提取的内容会有所帮助。

标签: python html parsing beautifulsoup


【解决方案1】:

这是一个示例代码,您可以使用它来查找特定类型的 html 标记中的特定文本

soup2 = BeautifulSoup(x, 'html.parser')
    for i in soup2.find_all('ul', attrs={'class': 'results-base'}):
         for j in i.find_all('li'):

【讨论】:

  • 我已更新问题以包含更多详细信息,您能否对此发表评论?提前致谢。
【解决方案2】:

【讨论】:

  • 能否添加一些代码示例,如何解决问题?
猜你喜欢
  • 2011-02-09
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-11-11
  • 2015-09-17
  • 1970-01-01
  • 1970-01-01
  • 2017-10-30
相关资源
最近更新 更多