如何使用多个特征进行 NLTK 文本分类

【问题标题】：How to use more than one feature for NLTK classification of text如何使用多个特征进行 NLTK 文本分类
【发布时间】：2012-09-17 21:23:11
【问题描述】：

我正在尝试调整此代码：http://snipperize.todayclose.com/snippet/py/Use-NLTK-Toolkit-to-Classify-Documents--5671027/ 以接受一些附加功能。它似乎是根据为不同类别的信息拥有不同的文件来确定其类别，这很好。但我还希望能够添加一些额外的数据供它查找。需要修改什么？有什么好的资源吗？关于 NLTK/Python 的书没有解决这个问题。

【问题讨论】：

标签： python nlp nltk

【解决方案1】：

您所说的功能是什么意思？在我看来，您只想添加更多数据，而不是功能。

如果您想考虑新功能，您必须根据需要修改提取词。

如果您只需要更多可能存储在不同文件中的数据，则应编辑主代码以考虑文件名集而不是单个文件的功能。这当然意味着对第 74 行的循环进行修改。您必须添加另一个内部循环来迭代集合中的所有文件名

【讨论】：

是的，只是不确定我是否只是将更多功能附加到结果或什么
当您使用 NaiveBayesianClassifier 时，将更多功能附加到结果应该就足够了