【发布时间】:2012-12-26 06:50:42
【问题描述】:
我正在尝试使用 edu.uci.ics.crawler4j lib 从本地目录中的 html 文件中抓取页面。 C:/work/temp/test.html 是它的路径。
我发现 crawler4j 正在建立 Http 连接。但是对于这种情况,不需要 Http 连接。我还在文件路径前面加上了file://,比如"file:///C:/work/temp/test.html" (which is accessible)
来自PageFetcher类的代码:
SchemeRegistry schemeRegistry = new SchemeRegistry();
schemeRegistry.register(new Scheme("http", 80, PlainSocketFactory.getSocketFactory()));
if (config.isIncludeHttpsPages()) {
schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));
}
有没有办法在 crawler4j 的 PageFetcher 中的 SchemeRegistry 中注册 file:// 协议或
crawler4j 总是用于服务器上的托管文件?
【问题讨论】:
标签: java web-crawler