【问题标题】:Why is my parser not working为什么我的解析器不工作
【发布时间】:2015-10-11 13:42:54
【问题描述】:

我正在尝试从该网站上抓取目录信息。 'http://www.virginiaequestrian.com/main.cfm?action=greenpages&sub=view&ID=10478'

但我不知道如何选择不同的文本行,因为它们唯一的标签是换行元素(
)。有没有办法可以通过文本而不是标签进行搜索?

r=requests.get('http://www.virginiaequestrian.com/main.cfm?action=greenpages&sub=view&ID=10478')
soup=BeautifulSoup(r.content,'lxml')
tbl=soup.findAll('table')[2]
print tbl.br

【问题讨论】:

  • 好吧,print tbl.br 专门用于打印包含在表格中的 <br> 标记,所以我不太明白您的预期。
  • 您期望print tbl.br 的输出是什么?
  • 伙计们,我真的很陌生,所以请归咎于无知而不是愚蠢。我希望我能得到每个单元的文本值。例如地址的第一部分。

标签: python web-scraping beautifulsoup python-requests


【解决方案1】:

您要查找的文本位于表格内的第二个 TR 中。所以,

print tbl.findAll('tr')[2]

但是,该文本中确实没有任何良好的结构,因此您需要自己获取联系人姓名等。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2014-08-18
    • 1970-01-01
    • 2021-01-15
    • 1970-01-01
    • 1970-01-01
    • 2016-02-12
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多