网络爬取和链接评估答案

【问题标题】：Web Crawling and Link Evaluation网络爬取和链接评估
【发布时间】：2010-10-20 09:59:14
【问题描述】：

我知道 cURL 会下载一个完整的文件。

我真正想要的是获取页面上的所有链接，并根据我的具体标准、链接位置等进行评估，然后决定是否应该抓取该页面并解析它以获取信息。

更具体地说，我想找到与娱乐活动相关的链接，并解析数据并将其存储在我的 MySQL 数据库中，以便为我所在地区的活动填充网站。

有人对如何完成有想法吗？

-杰森

【问题讨论】：

【解决方案1】：

如上所述，您没有提到语言。如果您使用 Ruby，则可以使用蜘蛛网 gem。您将手动告诉它不要找到任何链接（默认情况下它会自动抓取所有链接）并在每个页面上自己执行此操作，因为您说您需要评估它们，然后如果您希望它们可以手动放入队列中被抓取。

Godaddy 共享主机似乎支持 Ruby on Rails，如果您就是这样的话。

（刚刚看到这是 3 年前的，不过可能对其他人有帮助！）

【讨论】：

【解决方案2】：

其他答案中的那些解决方案听起来很有趣，但我只是用C#/Mono 和HTML Agility Pack 做了一些类似而简单的事情。

【讨论】：

【解决方案3】：

您没有指定编程语言。 Apache Droids 可能适合您，如果您愿意使用 Java 自定义它。它被计划为一个最小的爬虫，您可以根据您的特定需求进行自定义。

【讨论】：

【解决方案4】：

如果你想要的只是一个页面上的链接枚举，你可以使用 .NET WebBrowser 和 DOM 来做到这一点。正在为此挖掘我的代码......我会回复你。

【讨论】：

【解决方案5】：

我建议您将工作基于现有的网络爬虫/索引器解决方案，而不是自己在代码中或使用 CURL 等工具实现它。

例如，参见Lucene。

【讨论】：