【发布时间】:2013-10-05 22:47:13
【问题描述】:
我有一个如下所示的数据集:
featureDict = {identifier1: [[first 3-gram], [second 3-gram], ... [last 3-gram]],
...
identifierN: [[first 3-gram], [second 3-gram], ... [last 3-gram]]}
另外,我对同一组文档有一个标签字典:
labelDict = {identifier1: label1,
...
identifierN: labelN}
我想找出最合适的 nltk 容器,我可以在其中将这些信息存储在一个地方并无缝应用 nltk 分类器。
此外,在我对这个数据集使用任何分类器之前,我还想在这个特征空间上使用一个 tf-idf 过滤器。
参考资料和文档会很有帮助。
【问题讨论】:
标签: python text python-3.x classification nltk