【发布时间】:2009-08-05 14:48:14
【问题描述】:
我正在抓取页面以获取信息,并且在使用 Groovy 解析页面时遇到了许多问题。我制作了半解决方案,大部分时间都使用juniversal chardet并仅扫描页面以查找头部的标签,但有时会在一个页面上找到其中两个标签,例如:
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
...
<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1" />
是否有一个使用标准(第一个,最后一个,两者都......?)或更简单的方法来做到这一点?谢谢。
【问题讨论】:
标签: java html parsing groovy web-crawler