【发布时间】:2012-09-09 03:02:16
【问题描述】:
我正在编写一些 Java 代码,以便使用 Wikipedia 在文本上实现 NLP 任务。如何使用 JSoup 提取维基百科文章的所有文本(例如 http://en.wikipedia.org/wiki/Boston 中的所有文本)?
【问题讨论】:
-
用
jsoup解析文本是有趣问题的一部分吗?因为如果没有,您应该只使用action=raw参数来获取每个页面的来源。例如en.wikipedia.org/w/index.php?title=Elephant&action=raw -
返回 Wiki 标记。
-
使用它,它在维基百科服务器上也更加强大和 esier:trulymadlywordly.blogspot.com/2011/03/…
标签: java parsing jsoup wikipedia