【问题标题】:getting blank data while scraping website using lxml使用 lxml 抓取网站时获取空白数据
【发布时间】:2014-11-10 01:52:54
【问题描述】:

我正在尝试抓取一个简单的网站并编写了一些代码。 但我得到空白结果(没有数据)。请帮助我/告诉我哪里做错了。我尝试使用 lxml 抓取它,然后我也尝试了 selenium,但没有成功。

from selenium import webdriver
import lxml.html as lh
import time

browser = webdriver.Firefox()

browser.get('http://usa.kyoceradocumentsolutions.com/americas/jsp/Kyocera/wheretobuy_result.jsp?cat=2&zipcode=98413&city=&state=NJ')   

time.sleep(5.0)

content = browser.page_source

tree = lh.fromstring(content)

for d in (tree.xpath('//table/tr/td[@class="bodytxt"]/b/text()')):
    print(d)

【问题讨论】:

    标签: python selenium web-scraping lxml


    【解决方案1】:

    默认情况下它不处理帧,我同意 Key 最好使用该特定帧的直接 url,这里是 nameaddress 的 xpath 名称:

        //td[@class="bodytxt" and @align="left" and (b)]//b//text()
    

    地址:

        //td[@class="bodytxt" and @align="left" and (b)]/text()
    

    对于两者:

        //td[@class="bodytxt" and @align="left" and (b)]//text()
    

    【讨论】:

    • 它真的很有效。谢谢队友。你是天才。再次感谢
    • 嗨,我又遇到了麻烦。我想抓取hosted.where2getit.com/sharpsiica/…,但我得到了太多错误的数据。直到现在我已经尝试过 //td[@align="left" 和 (br )] 但我没有得到正确的数据。我只需要姓名和地址。提前致谢
    • 对于名称:(//td[@align="left"])[4]/a/text() 对于地址:(//td[@align="left"])[ 4]/text()
    猜你喜欢
    • 2013-04-25
    • 2013-10-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多