【发布时间】:2012-11-02 07:36:50
【问题描述】:
我对文档分类中使用的特定 Naive Bayse 算法有疑问。以下是我的理解:
- 为每个已知分类构建训练集中每个单词的一些概率
- 给定一个文档,我们删除它包含的所有单词
- 将单词出现在分类中的概率相乘
- 对每个分类执行 (3)
- 比较(4)的结果,选择后验最高的分类
我感到困惑的是,我们在给定训练集时计算每个单词的概率的部分。例如对于一个单词“banana”,它出现在分类 A 的 100 个文档中,总共有 200 个文档在 A 中,总共有 1000 个词出现在 A 中。要得到“香蕉”出现在分类 A 下的概率,我做使用 100/200=0.5 还是 100/1000=0.1?
【问题讨论】:
标签: machine-learning artificial-intelligence