Java 和 Heritrix 3.1.x：Web 内容解析？

【问题标题】：Java & Heritrix 3.1.x: Web Content parsing?Java 和 Heritrix 3.1.x：Web 内容解析？
【发布时间】：2013-07-18 23:54:12
【问题描述】：

由于 Heritrix 3.x 的开发人员文档基本上已经过时（其中大部分与 Heritrix 1.x 有关，因为大多数类已更改或代码已显着重写/重构），谁能指出我到处理实际网页内容提取的系统的相关类（或多个类）？

我想要做的是获取Heritrix即将抓取的网页内容，然后将分类器应用于网页内容？（分析结构特征等）我认为这个功能可能分布在 ContentExtractor 类及其许多子类中，但我想做的是找到我拥有整个网页内容或在一个可读/可解析的流。 Heritrix 应用正则表达式的内容（html）在哪里（以查找链接、某些文件类型等）？

【问题讨论】：

标签： java web-crawler webpage document-classification heritrix

【解决方案1】：

我建议研究一个自定义 WriterProcessor 我编写了一个自定义 MirrorWriter 来查看传入的数据，并将文件写入不同的位置，以便以后进行后期处理。 MirrorWriter 类的代码相当直接并且注释很好。文档在这里：http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/writer/MirrorWriterProcessor.html

如果您在预处理方面死心塌地，您可以使用扩展 org.archive.modules.extractor.ExtractorHTML 并执行即时版本。 http://builds.archive.org:8080/javadoc/heritrix-3.1.0/org/archive/modules/extractor/ExtractorHTML.html

【讨论】：

猜你喜欢

2015-11-08
1970-01-01
2010-10-02
2014-02-05
1970-01-01
1970-01-01
1970-01-01
2019-03-04
1970-01-01

相关资源

下载 2022-12-26
下载 2023-03-12
下载 2022-12-28

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode