【发布时间】:2017-06-27 00:01:40
【问题描述】:
我正在尝试制作一个网络爬虫来收集新闻文章,但是我无法获取网页的完整 html 内容。 Here is the url 我最初需要抓取的文章搜索结果:
然后,我抓取每篇文章 (example)。
我尝试使用 WebRequest、HTTPWebRequest 和 WebClient 发出请求,但是每次返回的结果仅包含侧边栏的 html 内容等。我使用了 Chrome 开发人员工具,返回的 html 紧随其后页面的主要内容,因此没有帮助。我还查找了内容的 ajax 调用,但没有找到。
我已经成功地使用 Selenium Webdriver 抓取了所需的内容,但这并不理想,因为它访问每个 url 的速度要慢得多,而且加载页面经常会挂起。任何有关请求页面完整 html 内容的帮助将不胜感激。
【问题讨论】:
-
添加正在运行的代码会有所帮助
-
如果您没有获得初始请求时需要抓取的 HTML,则很可能是使用 JavaScript 加载的。在这种情况下,您需要复制这些请求以获得所需的内容。
-
您正在获取文章链接的原始 html。据我所知,如果查询参数为空,则必须发送查询参数fa-mag.com/search.php?query=u&offset=0,它不会返回任何内容。
-
我已经发送了查询参数。网址正确
-
你试过NSoup吗?
标签: c# html ajax selenium web-scraping