【发布时间】:2010-09-06 06:02:54
【问题描述】:
我需要抓取一个远程 html 页面来查找图像和链接。我需要在页面上找到“最有可能”产品图像的图像以及“靠近”该图像的链接。我目前使用 javascript 小书签执行此操作,以便我能够获取图像和链接的渲染 x/y 坐标,以帮助我确定这些是否是我想要的。
我想要的是能够通过仅使用 url 而不是小书签来获取此信息。问题在于,通过使用 url 并尝试类似 httpwebrequest 并在服务器上获取 html,我将没有位置值,因为它没有在浏览器中呈现。我需要图像和链接的位置来帮助我确定我想要的图像和链接。
那么如何从服务器上的远程站点获取 html 并使用 dom 元素的呈现位置值来帮助我定位图像和链接?
【问题讨论】:
-
请小心执行此操作。如果您消耗过多的服务器资源或做一些不愉快的事情(例如忽略
robots.txt),网站可能会将您列入黑名单。
标签: c# asp.net web-scraping