【发布时间】:2015-07-23 23:18:47
【问题描述】:
我很难弄清楚哪些库和数据集是一起使用的。
我找到的工具包/库:
在所有这些中,有些功能缺失。例如 OpenNLP 没有依赖解析。
我需要找到一个快速的库,它还可以进行依赖项解析和词性标记。
下一个障碍是我们从哪里获得数据集。我发现了很多东西,但没有一个完整和全面的。
我找到的数据:
- NLTK Corpora
- English Web Treebank(看起来是最好的,但要付费)
- OpenNLP
- Penn Treebank
我对哪些数据集需要哪些功能以及哪些实际公开可用感到困惑。根据我的研究,ClearNLP 似乎最适合但数据很少。
谢谢
【问题讨论】:
-
STDIN 和 STDOUT 是你的朋友。
-
如果您选择 Java,请考虑查看 GATE:gate.ac.uk
标签: nlp nltk stanford-nlp opennlp