【发布时间】:2013-04-28 22:55:47
【问题描述】:
我对 Python 还是很陌生,但是这到底是怎么回事......这是一个奇怪的问题,所以我会尽我所能地解释它:
我正忙着尝试用 Python 编写一个脚本来检查网页的特定更改(基本上是从 0 翻转到 1 的数字)。当该更改发生时,脚本将继续执行其他操作。不幸的是,我还没有达到这一点,因为我什至无法解析 HTML,因为当BeautifulSoup 获取它时,很多 HTML 都丢失了! (至少,这是我声称的。)
让我们逐步完成:我为此使用BeautifulSoup 和Mechanize。首先,我在网页上找到一个表单并选择它,根据需要更改表单中的控件。 (我已验证所有控件都按预期更改。)在此之后,我提交表单,然后调用我编写的名为 process_results() 的辅助函数:
...
form = list(client.forms())[1]
client.select_form('ttform');
...
# Modify controls
...
client.submit()
process_results(client)
process_results() 只检查客户端返回的内容。首先,根据表单中输入的内容,您可能会得到无效的搜索结果,所以我想搜索网页上显示的错误消息,看看它是否存在。我使用BeautifulSoup 来做到这一点:
# Processes search results.
def process_serach_results(cli):
html = cli.response().read()
soup = BeautifulSoup(html)
...
评估相关代码是否出现在页面上的语句如下所示:
...
if (soup.find('td', attr = {'class' : 'msgarea'}) != None):
# Do something...
...
这永远不会评估为真,因为它找不到我描述的标签。我决定直接打印来自Mechanize 和BeautifulSoup 的回复,这就是我得到的(缩短的):
Mechanize 打印出我要查找的代码,这意味着响应正确返回:
...
<TD class=msgarea>
<B class=important_msg>There was a problem with your request:</B>
<BR>
<BR>
<li class=red_msg>...</li>
...
</TD></TR></TABLE><P></DIV>
...
这是从BeautifulSoup 显示的最后一段 HTML:
...
<span class="pageheaderlinks">
<a ... > MENU </a>
|
<a ... > SITE MAP </a>
|
</span></td></tr></table></div></body></html>
事实上,这是来自 Mechanize 的相同 HTML:
...
<SPAN class="pageheaderlinks">
<A ... >MENU</A>
|
<A ... >SITE MAP</A>
|
<--! Notice how this continues -->
<A ... >HELP</A>
|
<A ... >EXIT</A>
</span>
...
问题是BeautifulSoup 似乎在Mechanize 的浏览器报告的内容末尾省略了一大段HTML。这可能是我做事方式的问题,但在这一点上,我非常迷茫。
有谁知道导致这种情况发生的原因是什么?谢谢! :)
【问题讨论】:
-
如果您将 HTML(包装在
<html><body>标签中)作为字符串显式传递给 BeautifulSoup,会发生什么? -
安装
html5lib看看这是否有助于 BeautifulSoup 更宽松地解析它。 -
@Blender,哇。做到了。我从来没有想过......你能做出这样的答案,我会接受吗?
标签: python html-parsing beautifulsoup