【发布时间】:2017-06-05 07:02:28
【问题描述】:
在网络上发现的一个独特的 html 案例中,有一个 html 文档,它在父 HTML 标记中具有多个 html 标记。我想解析html标签的内容。谁能指出我这样做的方向?
提前致谢。
编辑 1: 使用 BeautifulSoup
soup = BeautifulSoup(html, "lxml")
只给出父 html 和其中存在的标签。
但是我假设浏览器是否能够呈现 html BS 应该能够解析它。这个假设正确吗?
编辑 2: 实际上,html 是格式错误的 html(我在这里假设),这是我用 beautifulsoup 解析的 html,我只得到了第一个(最外层)html 的表格和和。如果我手动删除多个 HTML 标签并只保留 1 个 html 标签,我可以解析 BS 中的表格。所以问题是“有没有办法解析下面的html并从文件的最里面或所有表中获取数据?
<!DOCTYPE html>
<html>
<head>
<title>Some Title</title>
</head>
<body>
some html to display the tables.
<html>
<head></head>
<title>Some other title</title>
<body>
some html to display even more tables.
</body>
</html>
</body>
</html>
【问题讨论】:
-
如果您提供 URL 并解释您要从中提取的内容会有所帮助。
标签: python html parsing beautifulsoup