【问题标题】:where the crawled files are stored in Heritrix web crawler爬取的文件存储在 Heritrix 网络爬虫中的位置
【发布时间】:2010-05-20 03:44:11
【问题描述】:

我想知道爬取的文件在Heritrix网络爬虫中的存储位置...

感谢并提前

【问题讨论】:

  • 是的,我想看看爬取文件...该文件的格式是什么...我将如何解析?

标签: parsing filesystems web-crawler


【解决方案1】:

来自developer manual

默认情况下,heritrix 使用ARCWriterProcessor 将所有爬取的内容写入磁盘。此处理器将找到的爬网内容写入 Internet Archive ARC 文件。此处描述了 ARC 文件格式:Arc File Format。 Heritrix 写入版本 1 ARC 文件1

ARC 文件位于您的爬网实例的 arcs/ 文件夹中。您可以在 heritrix 的 web-GUI 设置中更改位置。

您可以将其设置为 WARCWriterProcessor(WARC 文件)、MirrorWriterProcessor(根本没有容器)或 Kw3WriterProcessor,而不是默认的 ARCWriterProcessor。 AFAIK,你甚至可以设置多个作家。请注意,在选择 MirrorWriterProcessor 时,并非所有文件都可以写入磁盘,具体取决于您用于写入文件的文件系统。

[1]Internet Archive ARC files

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-08-08
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多