【发布时间】:2016-05-23 17:59:52
【问题描述】:
奇怪的是,fit 和 partial_fit 的代码似乎完全相同。
您可以在以下链接查看代码:
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478
【问题讨论】:
标签: python scikit-learn
奇怪的是,fit 和 partial_fit 的代码似乎完全相同。
您可以在以下链接查看代码:
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L478
【问题讨论】:
标签: python scikit-learn
不完全相同的代码; partial_fit 使用total_samples:
" total_samples :int,可选(默认= 1e6) 文档总数。仅在 partial_fit 方法中使用。”
https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L184
(部分拟合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L472
(适合)https://github.com/scikit-learn/scikit-learn/blob/c957249/sklearn/decomposition/online_lda.py#L510
以防万一您感兴趣:partial_fit 是一个很好的候选者,可以在您的数据集非常大时使用。因此,您不必遇到可能的内存问题,而是以较小的批次进行拟合,这称为增量学习。
因此,在您的情况下,您应该考虑total_samples 默认值是1000000.0。因此,如果您不更改此数字并且您的实际样本数更大,那么您将从fit 方法和fit_partial 获得不同的结果。或者可能是您在fit_partial 中使用小批量,而不是涵盖您提供给fit 方法的所有样本。即使你做对了,你也可能得到不同的结果,如文档中所述:
sklearn 文档:https://scikit-learn.org/0.15/modules/scaling_strategies.html#incremental-learning
【讨论】: