【问题标题】:.Net based web crawler sample基于 .Net 的网络爬虫示例
【发布时间】:2010-11-29 05:24:05
【问题描述】:

我正在使用 VSTS 2008 + C# + .Net 3.5。我想找到一个工具(开源)来抓取一个网站的所有网页,对于这个网站链接的任何其他域页面,我想跳过抓取它们(我只需要这个特定域的页面只要)。对于抓取的网页,我想将它们存储到本地文件目录中。

任何示例或准备使用的开源工具?

【问题讨论】:

    标签: c# .net visual-studio-2008 web-crawler search-engine


    【解决方案1】:

    Arachnode.net 可能就是您要找的。​​p>

    【讨论】:

    • 好东西,有没有网页界面可以查询全文分析结果?
    • 嗨史蒂夫,Arachnode.net 对于非英语语言有多好?对非 en-us 语言(如法国、日语)进行索引/搜索的任何经验?这种语言需要任何插件吗? (我认为不同语言的关键字提取、索引和解析可能不同?)
    • 感谢您的所有帮助,史蒂夫!我已将您的回复标记为已回答。
    • 我很害怕我还没有使用它(还),当我看到你的问题时我只是在阅读它:)
    • @Steve Haigh:请注意您的链接已损坏,显然 wiki 不认为 Arachnode.net 上的文章是“值得注意的”哈哈。猜SO不算数。
    【解决方案2】:

    我是AN的作者。

    默认情况下,AN 索引所有语言。无需配置。

    • 迈克

    【讨论】:

    • 有一个网页和一个服务界面来检查你的结果。删除 AN 的 Wiki 页面真的很令人失望。该页面存在了将近一年,直到有人标记它。尽管 AN 有成千上万的用户,但许多用户确实将 AN 用于商业目的。由于 AN 是许多企业的基础,我们的用户在公开他们如何获取数据时有些犹豫。当然,这种链接是 Wikipedia 寻找的“值得注意”的东西。而且,我怀疑商业应用的知名度标准要高一些。
    • 此外,维基百科版主的个人选择也会影响文章的收录,因为 Web_Crawler 类别 (en.wikipedia.org/wiki/Web_crawler#Open-source_crawlers) 中的其他爬虫(例如 en.wikipedia.org/wiki/Aspseek)与 AN 一样“引人注目”。 ::麦克
    猜你喜欢
    • 1970-01-01
    • 2010-10-30
    • 2023-04-01
    • 2021-08-20
    • 1970-01-01
    • 1970-01-01
    • 2011-12-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多