【发布时间】:2010-12-11 09:16:06
【问题描述】:
我是 Python 新手,也是 Beatiful Soup 的新手!我听说过BS。它被告知是解析和提取内容的好工具。所以我在这里......:
我想在 html 中获取表格的第一个 td 的内容 文档。比如我有这张表
<table class="bp_ergebnis_tab_info">
<tr>
<td>
This is a sample text
</td>
<td>
This is the second sample text
</td>
</tr>
</table>
如何使用 beautifulsoup 获取文本“这是示例文本”? 我用 soup.findAll('table' ,attrs={'class':'bp_ergebnis_tab_info'}) 得到 整张桌子。
谢谢...或者我应该尝试使用 Perl 来获取全部内容...我不太熟悉。另一个解决方案是 PHP 中的正则表达式。
查看目标[1]:http://www.schulministerium.nrw.de/BP/SchuleSuchen?action=799.601437941842&SchulAdresseMapDO=142323
注意;由于 html 有点无效 - 我认为我们必须进行一些清理。这会导致大量的 PHP 代码——因为我们想用 PHP 来解决这个工作。 Perl 也是一个很好的解决方案。
非常感谢您提供的一些提示和想法作为起点 零
【问题讨论】:
-
嗯,很明显,你没有从你的 Perl 问题中得到很多,所以我什至不确定为什么这个问题被标记为 Perl。此外,不要每隔几周创建一个新帐户:创建一个并坚持下去。 @zero 知道我在说什么。其他人可以查看stackoverflow.com/users/477580/thebutcher 和stackoverflow.com/q/3991571/100754 以及从那里链接的问题。