【问题标题】:Some parts of a webpage is empty when try to scrape尝试抓取时网页的某些部分是空的
【发布时间】:2015-07-18 08:31:56
【问题描述】:

我正在尝试抓取一个网页:http://www.rrk.ir/News/ShowNews.aspx?Code=12099110,如您所见,它包含一些波斯字符。我尝试使用 Python 的 urllib2 和 requests 模块来做到这一点。但问题是结果中 html 代码的主要部分是空的。这部分正好在波斯语的<div class="Jus" style="font-family: Tahoma !important;"> 之后。是因为网站安全吗?以及如何解决?我这样做的代码是:

r = requests.get('http://www.rrk.ir/News/ShowNews.aspx?Code=12099110')
result = r.text.encode("utf-8")
print result

【问题讨论】:

    标签: python-2.7 security web-scraping python-requests urllib2


    【解决方案1】:

    确实,它似乎是安全的。试试这个:

    from selenium import webdriver  # to scrape
    import lxml                     # to parse/query
    
    driver = webdriver.Firefox()
    driver.get('http://www.rrk.ir/News/ShowNews.aspx?Code=12099110')
    
    tree=lxml.html.fromstring(driver.page_source)
    
    tree.xpath('//div[@class="Jus"]')[0].text_content()
    
    driver.close()
    

    您必须安装:

    pip install lxml
    pip install selenium
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-06-12
      • 2011-04-12
      • 1970-01-01
      • 1970-01-01
      • 2010-12-13
      • 1970-01-01
      相关资源
      最近更新 更多