【发布时间】:2013-10-31 02:34:27
【问题描述】:
我正在尝试从 Yahoo 解析 this page 可以尝试获取所有问题的 url。
我用的是jsoup,但是这些选择器什么都不选,为什么?
doc.select("#yan-questions h3 a")
doc.select(".question-title a")
【问题讨论】:
标签: jsoup web-crawler
我正在尝试从 Yahoo 解析 this page 可以尝试获取所有问题的 url。
我用的是jsoup,但是这些选择器什么都不选,为什么?
doc.select("#yan-questions h3 a")
doc.select(".question-title a")
【问题讨论】:
标签: jsoup web-crawler
我现在找到原因了。这是因为该站点可能会根据不同的用户代理发送不同的网页,而当我没有包含User-Agent HTTP 标头时,响应将不会有一些ids。
当我将这一行添加到 HTTP 请求时,这个问题就解决了:
User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101
【讨论】: