【发布时间】:2011-10-01 14:13:43
【问题描述】:
将使用Apache Nutch v1.3 仅从网页中提取一些特定内容。检查 parse-html 插件。似乎它使用 tagsoup 或 nekohtml 规范化每个 html 页面。这很好。我只需要提取网页上<span class='xxx'> 和<span class='yyy'> elemetns 中的文本。如果将提取的文本保存到不同的字段中(例如content_xxx、content_yyy),那就太好了。
我的问题是:我应该编写自己的插件还是可以使用某种标准方式来完成?
最好的方法是在标准化网页上应用 XSLT 并获得结果。这可能吗?
【问题讨论】: