【发布时间】:2017-02-22 01:13:56
【问题描述】:
为文本文档的特征空间建模非常容易。
例如,我可以将文本(训练数据)中的每个单词作为特征。
如果特定单词(例如“狗”)在(分类的)训练示例中遇到多次(例如分类为垃圾邮件),然后我可以用这个词对新数据进行分类。
如果我的特征不仅仅是单词,我该如何建模?
在我的具体情况下,我有姓名、年龄和家庭人数等特征。
我认为这不是正确的制作方法我的特征向量中每个可能年龄的条目。
如果我假设人类不迟于 100 岁死亡,那么我的年龄特征只有 100 个数字。
所以我想到了数据分箱:将特征“年龄”划分为 1-20 岁、21-40 岁、41-60 岁,...
要为 30 岁的人建模,我现在只需要 5 位数字 (01000)。
有没有更好的方法来模拟这些特征?
【问题讨论】:
标签: machine-learning bayesian feature-extraction feature-selection naivebayes