【发布时间】:2010-05-20 03:44:11
【问题描述】:
我想知道爬取的文件在Heritrix网络爬虫中的存储位置...
感谢并提前
【问题讨论】:
-
是的,我想看看爬取文件...该文件的格式是什么...我将如何解析?
标签: parsing filesystems web-crawler
我想知道爬取的文件在Heritrix网络爬虫中的存储位置...
感谢并提前
【问题讨论】:
标签: parsing filesystems web-crawler
默认情况下,heritrix 使用ARCWriterProcessor 将所有爬取的内容写入磁盘。此处理器将找到的爬网内容写入 Internet Archive ARC 文件。此处描述了 ARC 文件格式:Arc File Format。 Heritrix 写入版本 1 ARC 文件1。
ARC 文件位于您的爬网实例的 arcs/ 文件夹中。您可以在 heritrix 的 web-GUI 设置中更改位置。
您可以将其设置为 WARCWriterProcessor(WARC 文件)、MirrorWriterProcessor(根本没有容器)或 Kw3WriterProcessor,而不是默认的 ARCWriterProcessor。 AFAIK,你甚至可以设置多个作家。请注意,在选择 MirrorWriterProcessor 时,并非所有文件都可以写入磁盘,具体取决于您用于写入文件的文件系统。
【讨论】: