【发布时间】:2012-01-27 23:38:33
【问题描述】:
我是编码初学者,我的一个朋友告诉我使用 BeautifulSoup 而不是 htmlparser。在遇到一些问题后,我得到了使用 lxml 而不是 BeaytifulSoup 的提示,因为它要好 10 倍。
我希望有人能给我提示如何抓取我要查找的文本。
我想要的是找到一个包含以下行和数据的表:
<tr>
<td><a href="website1.com">website1</a></td>
<td>info1</td>
<td>info2</td>
<td><a href="spam1.com">spam1</a></td>
</tr>
<tr>
<td><a href="website2.com">website2</a></td>
<td>info1</td>
<td>info2</td>
<td><a href="spam2.com">spam2</a></td>
</tr>
我如何使用lxml 抓取包含信息 1 和 2 的网站,没有垃圾邮件,并获得以下结果?
[['url' 'info1', 'info2'], ['url', 'info1', 'info2']]
【问题讨论】:
标签: python html-parsing lxml