使用网络爬虫进行价格比较答案

【问题标题】：Using Web crawler for price comparison使用网络爬虫进行价格比较
【发布时间】：2010-02-16 00:07:47
【问题描述】：

我需要一个基于 Java 的开源网络 crwaler，我可以扩展它以进行价格比较？如何进行价格比较？有没有开源代码？

【问题讨论】：

【解决方案1】：

看看web Harvest，你将不得不使用它有点奇怪和特殊的语法来处理网页，但应该公平地扩展它来做一些价格比较：

【讨论】：

【解决方案2】：

无论您是从商店本身还是从现有的比较网站上抓取，构建从大量不同网站抓取价格信息的东西都需要大量工作。

一些网站所有者会将相关页面放入他们的robots.txt 文件中，以告诉您远离。如果你忽略了这一点，他们会做很多事情让你的生活变得困难。

未经许可抓取很多人的网站可能会使您不受欢迎。它可能会招致诉讼威胁，或来自认为您正在损害他们的商业模式的人的实际诉讼。或其他回应...

您确定要这样做吗？真的吗？？

【讨论】：

【解决方案3】：

您有什么理由不能只从现有的数百个价格比较网站之一获取数据？似乎抓取 nextag 或 froogle 或其他任何东西会更简单，而不是编写爬虫来抓取数十亿个商店网站。

【讨论】：

感谢您的回复。是的，我已经回顾了网络收获。是的，我也有关于只抓取价格比较网站的想法？所以应该是爬虫吧？接下来价格比较网站是否允许您浏览他们的网站？我在这里错过了什么吗？如果它很简单，您只需要浏览 10-20 个网站，对吗？

【解决方案4】：

没有人希望他们的网站在没有任何好处的情况下超载。我认为您应该根据需要创建一个爬虫。但是，请注意，它们中的大多数可能会阻止您或使您的响应速度变慢。你需要表现得像你不是一个人并且吃掉他们的带宽......

【讨论】：

【解决方案5】：

这里有人写过有关法律问题的文章。法律问题并不简单。 Stephen C 写过关于诉讼的文章，但这是双向的。有大量与反竞争行为相关的法律。如果有人因为参与定价或做出虚假声明而希望不报告他们的价格，那么网站本身将面临严厉的处罚。法律不是随便引用的。你可以通过谷歌定价，看到已经对无数公司施加的巨额罚款。

【讨论】：