使用 lxml 抓取网站时获取空白数据

【问题标题】：getting blank data while scraping website using lxml使用 lxml 抓取网站时获取空白数据
【发布时间】：2014-11-10 01:52:54
【问题描述】：

我正在尝试抓取一个简单的网站并编写了一些代码。但我得到空白结果（没有数据）。请帮助我/告诉我哪里做错了。我尝试使用 lxml 抓取它，然后我也尝试了 selenium，但没有成功。

from selenium import webdriver
import lxml.html as lh
import time

browser = webdriver.Firefox()

browser.get('http://usa.kyoceradocumentsolutions.com/americas/jsp/Kyocera/wheretobuy_result.jsp?cat=2&zipcode=98413&city=&state=NJ')   

time.sleep(5.0)

content = browser.page_source

tree = lh.fromstring(content)

for d in (tree.xpath('//table/tr/td[@class="bodytxt"]/b/text()')):
    print(d)

【问题讨论】：

标签： python selenium web-scraping lxml

【解决方案1】：

默认情况下它不处理帧，我同意 Key 最好使用该特定帧的直接 url，这里是 name 和 address 的 xpath 名称：

    //td[@class="bodytxt" and @align="left" and (b)]//b//text()

地址：

    //td[@class="bodytxt" and @align="left" and (b)]/text()

对于两者：

    //td[@class="bodytxt" and @align="left" and (b)]//text()

【讨论】：

它真的很有效。谢谢队友。你是天才。再次感谢
嗨，我又遇到了麻烦。我想抓取hosted.where2getit.com/sharpsiica/…，但我得到了太多错误的数据。直到现在我已经尝试过 //td[@align="left" 和 (br )] 但我没有得到正确的数据。我只需要姓名和地址。提前致谢
对于名称：(//td[@align="left"])[4]/a/text() 对于地址：(//td[@align="left"])[ 4]/text()