【发布时间】:2015-06-24 20:27:56
【问题描述】:
我正在尝试使用 Python 中的请求从网页(下面的链接)获取一些信息;但是,当我通过 python 的请求库连接时,我在浏览器中看到的 HTML 数据似乎不存在。没有任何 xpath 查询返回任何信息。我可以使用对其他网站的请求,例如亚马逊(下面的网站实际上归亚马逊所有,但我似乎无法从中获取任何信息)。
url = 'http://www.myhabit.com/#page=d&dept=men&asin=B00R5TK3SS&cAsin=B00DNNZIIK&qid=aps-0QRWKNQG094M3PZKX5ST-1429238272673&sindex=0&discovery=search&ref=qd_men_sr_1_0'
user_agent = {'User-agent': 'Mozilla/5.0'}
page = requests.get(url, headers=user_agent)
tree = html.fromstring(page.text)
query = tree.xpath("//span[@id=ourPrice]/text()")
【问题讨论】:
-
您的
url不在引号中,因此它不是字符串。 -
它似乎正在使用 javascript 和 ajax 加载产品描述。
-
事实上,几乎网站内容都是在 javascript XHR 调用下构建的。