【问题标题】:Using Web crawler for price comparison使用网络爬虫进行价格比较
【发布时间】:2010-02-16 00:07:47
【问题描述】:

我需要一个基于 Java 的开源网络 crwaler,我可以扩展它以进行价格比较? 如何进行价格比较? 有没有开源代码?

【问题讨论】:

  • 不要自己抓取网页。它只会导致痛苦和麻烦(在代码和法律方面)。您应该联系价目表供应商以获取有关其公共网络服务的更多信息,然后使用它。
  • @BalusC 麻烦(法律条款)?如何以及为什么?

标签: java web-crawler


【解决方案1】:

看看web Harvest,你将不得不使用它有点奇怪和特殊的语法来处理网页,但应该公平地扩展它来做一些价格比较:

http://web-harvest.sourceforge.net/samples.php?num=2

【讨论】:

  • 这个应用程序看起来很酷且易于使用,但不幸的是实际上性能(以我的衡量)非常糟糕。
【解决方案2】:

无论您是从商店本身还是从现有的比较网站上抓取,构建从大量不同网站抓取价格信息的东西都需要大量工作。

  • 每个人的网站布局都会不同,需要你为每个人单独配置你的爬虫。

  • 某些网站可能会以难以抓取的方式呈现价格信息;例如使用 AJAX。

一些网站所有者会将相关页面放入他们的robots.txt 文件中,以告诉您远离。如果你忽略了这一点,他们会做很多事情让你的生活变得困难。

未经许可抓取很多人的网站可能会使您不受欢迎。它可能会招致诉讼威胁,或来自认为您正在损害他们的商业模式的人的实际诉讼。或其他回应...

您确定要这样做吗?真的吗??

【讨论】:

    【解决方案3】:

    您有什么理由不能只从现有的数百个价格比较网站之一获取数据?似乎抓取 nextag 或 froogle 或其他任何东西会更简单,而不是编写爬虫来抓取数十亿个商店网站。

    【讨论】:

    • 感谢您的回复。是的,我已经回顾了网络收获。是的,我也有关于只抓取价格比较网站的想法?所以应该是爬虫吧?接下来价格比较网站是否允许您浏览他们的网站?我在这里错过了什么吗?如果它很简单,您只需要浏览 10-20 个网站,对吗?
    【解决方案4】:

    没有人希望他们的网站在没有任何好处的情况下超载。我认为您应该根据需要创建一个爬虫。但是,请注意,它们中的大多数可能会阻止您或使您的响应速度变慢。你需要表现得像你不是一个人并且吃掉他们的带宽......

    【讨论】:

      【解决方案5】:

      这里有人写过有关法律问题的文章。法律问题并不简单。 Stephen C 写过关于诉讼的文章,但这是双向的。有大量与反竞争行为相关的法律。如果有人因为参与定价或做出虚假声明而希望不报告他们的价格,那么网站本身将面临严厉的处罚。法律不是随便引用的。你可以通过谷歌定价,看到已经对无数公司施加的巨额罚款。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多