【发布时间】:2016-08-18 12:29:47
【问题描述】:
我已经介绍了朴素贝叶斯分类方法(Multinomial NB),参考了 Michael Sipser 在他的《计算理论》一书中的描述。
我正在研究针对训练和应用多项式 NB 所描述的算法,如下所示:
但是,我在解释算法的某些方面时不知所措。例如,在第 6 行的 TRAINMULTINOMIALNB(C, D) 中:
- CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D, C)究竟是做什么的?
到目前为止,我的理解如下。假设我们在“movies”和“songs”类中有 3 - 3 - 个文档:
MOVIES
DOC1 = "big fish"
DOC2 = "big lebowski"
DOC3 = "mystic river"
SONGS
DOC1 = "purple rain"
DOC2 = "crying in the rain"
DOC3 = "anaconda"
在应用 CONCATENATE_TEXT_OF_ALL_DOCS_IN_CLASS(D, C) 之后,你会留下,比如说字符串:
String concatenatedMovies = "big fish big lebowski mystic river"
String concatenatedSongs = "purple rain crying in the rain anaconda"
这是对的吗? 任何帮助理解这一点都非常感谢。
【问题讨论】:
标签: java algorithm naivebayes