【发布时间】:2011-07-14 02:49:18
【问题描述】:
我需要为特定内容(几行几乎相同的文本)解析/读取大量 HTML 网页(100 多个)。
我将扫描仪对象与 reg 一起使用。表达式和 jsoup 及其 html 解析器。
这两种方法都很慢,使用 jsoup 我得到以下错误: java.net.SocketTimeoutException: 读取超时(不同连接的多台计算机)
还有什么更好的吗?
编辑:
现在我已经让 jsoup 工作了,我认为一个更好的问题是如何加快它的速度?
【问题讨论】:
-
Jsoup 支持 DOM 遍历和 [CSS] 选择器,不是吗? (为什么要使用正则表达式?:-/)