【发布时间】:2015-03-12 02:11:55
【问题描述】:
我在 Anaconda 的发行版下使用 BeautifulSoup 4 作为 bs4。如果我错了,请纠正我 - 我理解 BeautifulSoup 是用于将格式错误的 HTML 转换为格式正确的 HTML 的库。但是,当我将 HTML 分配给它的构造函数时,我会丢失一半以上的字符。不应该只修复 HTML 而不是清理它吗?在docs 中没有很好地描述。
这是代码:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
html 是 Google 主页的 HTML。
编辑:
可能是因为我通过 str(soup) 检索 HTML 字符串的方式吗?
【问题讨论】:
-
你能再添加一点代码来展示你是如何获取 html 的吗?此外,根据您的编辑,与 str(soup) 相比,soup.prettify() 看起来是否更符合您的预期。最后,您可以尝试使用更简单的网页并发布前后(假设您可以找到符合 SO 推荐的最小、完整、验证示例的内容)
-
我正在从发送到我的 MongoDB 数据库的 DOM 中检索 HTML。我只是提取 JSON,在 python 中读取它并将其转换为字符串。是的,我会用更简单的网站来做,谢谢你的建议。
标签: python html beautifulsoup html-parsing