【发布时间】:2012-01-20 12:31:16
【问题描述】:
我想从 HTML 页面中提取文本块,我正在使用锅炉管道来执行此操作。它适用于页面中的一个文本,但某些页面(如博客)页面中有多个文本。
我想提取所有文本,但将每个文本标识为单独的文本,而不仅仅是一个。
有一些图书馆可以做到这一点吗?
编辑:我正在使用 Jsoup 来解析 HTML,但我不想做解析,而是像样板管道那样在页面中提取信息。我想测试其他类似的工具。
【问题讨论】:
-
请提供更多详细信息,您使用的是什么提取器?您是否尝试过使用 ArticleExtractor?我尝试使用 ArticleExtractor 来获取 stackoverflow 帖子的内容,它为我提取了所有文本?如果您提供一些示例代码,我们会更好地调试。
-
@rao_555 全部文字为一文还是多文?
标签: java html text information-extraction