【发布时间】:2016-11-25 07:39:03
【问题描述】:
我使用 BS4 (python3) 从 html 文件中提取文本。我的文件如下所示:
<BODY>
<P>Hello World!</P>
</BODY>
</HTML>
当我调用get_text() 方法时,输出为Hello World!。因为它是 HTML,所以预计我会得到 Hello World!(两个或多个空格在 HTML 中被替换为一个空格)。
这也与这种情况有关:
<BODY>
<P>Hello
World!</P>
</BODY>
</HTML>
预计我会找到“Hello World!”但它是“Hello \n World!”。
我怎样才能实现我的目标?
【问题讨论】:
-
听起来你想要的是呈现 HTML 并获得结果文本输出。在某处(可能不在 BS 中)必须有一个函数来执行这种类型的转换。
标签: python python-3.x beautifulsoup