【发布时间】:2019-05-03 10:36:11
【问题描述】:
我正在尝试从下面的 HTML 代码中提取文本内容作为一个完整的句子,但我无法做到。我尝试同时使用Beautifulsoup.prettify() 和Beautifulsoup.get_text(),但它们给了我 3 个句子。我想把下面的 HTML 当作一个正确的句子来阅读,比如
获得 Microsoft 和 Google, Inc. 办事处的认可。
<li>Recognized by
<em>Microsoft</em> &
<em>Google, Inc.</em>, offices.</li>
【问题讨论】:
-
你的代码是什么?
-
有源网址吗?我假设源中还有其他带有子 em 的 li。这应该只发生一次吗?对于重复的模式?
标签: html python-3.x web-scraping