【发布时间】:2022-01-18 10:15:33
【问题描述】:
如何使用 Python 将 HTML 超链接转换为纯文本,如下所示:
<p>Hello world, it's <a href="https://google.com">foo bar time</a></p>
我当前的代码看起来像这样,但是这个包本身似乎并没有完成这项工作,因为它们只是将主要的 HTML 文本元素转换为没有链接的纯文本:
from html2text import html2text
text = html2text("<p>Hello world, it's <a href="https://google.com">foo bar time</a></p>")
print(text)
# Result I wanted: "Hello world, it's foo bar time - https://google.com/"
# Result I got: "Hello world, it's foo bar time"
如果找到解决方案真的会提供帮助。
【问题讨论】:
-
Aizak,这看起来像是一个有趣的 Python 小谜题:您是否考虑过自己实现该解决方案?仅使用 Python 内置程序和 stdlib 有许多可能的方法。例如,您可以遍历 HTML 字符串中的所有字符,当您点击标记“url 的单独变量中。对于不同的方法,您可以使用
re包以与上述类似的方式从输入字符串中捕获和转换。 -
我确实尝试了一堆包含多种类型元素的正则表达式,但我对如何将两件事放在中心位置一无所知:文本和链接。
标签: python html string format pypi