【发布时间】:2016-05-06 18:14:45
【问题描述】:
我是文本挖掘的新手。我正在研究垃圾邮件过滤器。我做了文本清理,删除了停用词。 n-gram 是我的特点。所以我建立一个频率矩阵并使用朴素贝叶斯建立模型。我的训练数据集非常有限,所以我面临以下问题。
当一个句子来找我进行分类时,如果它的特征与训练中的现有特征都不匹配,那么我的频率向量只有零。
当我发送这个向量进行分类时,我显然得到了一个无用的结果。
什么是理想的训练数据大小才能获得更好的结果?
【问题讨论】:
-
获取更多垃圾邮件并不难。
-
获得更多垃圾邮件并不难,但获得相关帖子却很难。我正在处理网络表单帖子。我能知道训练数据的理想大小吗
-
那你的功能还不够丰富。手动或通过本体为相关词创建类别,例如“预付费用”、“资金”、“银行转帐”、“西联汇款”、“汇票”、“汇票”、“彩票”、“奖品”、“奖金”等。对所有垃圾邮件类别执行此操作(例如药品、在家工作等)。然后重新运行并重新检查仍然不匹配任何功能的任何内容。在此处发布几个示例以使事情具有可重复性。
标签: machine-learning nlp classification