尝试抓取时网页的某些部分是空的答案

【问题标题】：Some parts of a webpage is empty when try to scrape尝试抓取时网页的某些部分是空的
【发布时间】：2015-07-18 08:31:56
【问题描述】：

我正在尝试抓取一个网页：http://www.rrk.ir/News/ShowNews.aspx?Code=12099110，如您所见，它包含一些波斯字符。我尝试使用 Python 的 urllib2 和 requests 模块来做到这一点。但问题是结果中 html 代码的主要部分是空的。这部分正好在波斯语的<div class="Jus" style="font-family: Tahoma !important;"> 之后。是因为网站安全吗？以及如何解决？我这样做的代码是：

r = requests.get('http://www.rrk.ir/News/ShowNews.aspx?Code=12099110')
result = r.text.encode("utf-8")
print result

【问题讨论】：

标签： python-2.7 security web-scraping python-requests urllib2

【解决方案1】：

确实，它似乎是安全的。试试这个：

from selenium import webdriver  # to scrape
import lxml                     # to parse/query

driver = webdriver.Firefox()
driver.get('http://www.rrk.ir/News/ShowNews.aspx?Code=12099110')

tree=lxml.html.fromstring(driver.page_source)

tree.xpath('//div[@class="Jus"]')[0].text_content()

driver.close()

您必须安装：

pip install lxml
pip install selenium

【讨论】：