【发布时间】:2016-10-10 15:40:45
【问题描述】:
我正在尝试从新闻网站下载文本。 HTML 是:
<div class="pane-content">
<div class="field field-type-text field-field-noticia-bajada">
<div class="field-items">
<div class="field-item odd">
<p>"My Text" target="_blank">www.injuv.cl</a></strong></p> </div>
输出应该是:我的文本 我正在使用以下 python 代码:
try:
from BeautifulSoup import BeautifulSoup
except ImportError:
from bs4 import BeautifulSoup
html = "My URL"
parsed_html = BeautifulSoup(html)
p = parsed_html.find("div", attrs={'class':'pane-content'})
print(p)
但代码的输出是:“无”。你知道我的代码有什么问题吗?
【问题讨论】:
-
即使您解析的是 HTML 而不是 URL,HTML 也是无效的。你无法用 BeautifulSoup 解析它。
-
@tobltobs
BeautifulSoup尝试修复损坏的 HTML;它可以很好地解析该 HTML。
标签: python beautifulsoup html-parser