【发布时间】:2012-02-01 09:44:43
【问题描述】:
我有一堆网络文档,想从中删除 html 标签。我在 StackOverflow 上看到了一些关于如何在 java 中执行的帖子,从 regex 到 HtmlCleaner 和 Jsoup。
我有兴趣找到最快的方法。我有数百万份文档,所以性能对我来说至关重要。我什至可以用一些质量来换取性能。
提前感谢您的任何回答。
【问题讨论】:
-
你必须测量它
-
谢谢,我知道。我想知道是否有人以前这样做过并且可以分享结果。
-
您究竟需要什么。这只是屏幕抓取吗?
-
@frankmoss:“我在 StackOverflow 上看到了一些关于如何在 Java 中执行此操作的帖子,从正则表达式到...” 我认为这不是这个答案有 4435 个赞(当我输入这个时):stackoverflow.com/questions/1732348/… :)
-
如果您的 Html 是严格的或 XHTML。使用XSLT,这里有一种-[xhtml和XSLT][1]相关的[1]:stackoverflow.com/questions/1639625/…
标签: java html-parsing jsoup html htmlcleaner