pmml中的朴素贝叶斯特征向量答案

【问题标题】：naive bayes feature vectors in pmmlpmml中的朴素贝叶斯特征向量
【发布时间】：2015-01-24 04:00:43
【问题描述】：

我正在尝试为我在 scikit learn 中构建的朴素贝叶斯模型构建自己的 pmml 导出器。在阅读 PMML 文档时，似乎对于每个特征向量，如果它是离散的，您可以根据计数数据输出模型，如果它是连续的，则可以输出为高斯/泊松分布。但是我的 scikit 学习模型的系数是根据特征的经验对数概率，即 p(y|x_i)。是否可以根据这些概率而不是计数来指定贝叶斯输入参数？

【问题讨论】：

标签： python machine-learning scikit-learn pmml

【解决方案1】：

由于朴素贝叶斯模型的 PMML 表示通过“PairCounts”元素实现表示联合概率，因此可以简单地将该比率替换为概率输出（而不是对数概率）。由于最终概率是标准化的，因此差异并不重要。如果需求涉及大量概率，且大多为0，则可以通过模型的“threshold”属性来设置这些概率的默认值。

【讨论】：