【问题标题】:Naive bayes classification for NO text-classification用于无文本分类的朴素贝叶斯分类
【发布时间】:2017-02-22 01:13:56
【问题描述】:

为文本文档的特征空间建模非常容易。
例如,我可以将文本(训练数据)中的每个单词作为特征。
如果特定单词(例如“狗”)在(分类的)训练示例中遇到多次(例如分类为垃圾邮件),然后我可以用这个词对新数据进行分类。

如果我的特征不仅仅是单词,我该如何建模?
在我的具体情况下,我有姓名、年龄和家庭人数等特征。
我认为这不是正确的制作方法我的特征向量中每个可能年龄的条目。
如果我假设人类不迟于 100 岁死亡,那么我的年龄特征只有 100 个数字。
所以我想到了数据分箱:将特征“年龄”划分为 1-20 岁、21-40 岁、41-60 岁,...
要为 30 岁的人建模,我现在只需要 5 位数字 (01000)。

有没有更好的方法来模拟这些特征?

【问题讨论】:

    标签: machine-learning bayesian feature-extraction feature-selection naivebayes


    【解决方案1】:

    我好像找到了answer1answer2。 因此,可以使用数据分箱或使用适合连续特征的(正态)分布对特征进行建模。

    【讨论】:

      猜你喜欢
      • 2016-08-02
      • 2018-07-29
      • 2013-12-24
      • 2014-04-14
      • 2015-07-17
      • 2015-08-27
      • 2015-03-06
      • 2012-07-02
      • 2017-01-10
      相关资源
      最近更新 更多