【问题标题】:Computing Gaussian Mixture Model with Expectation Maximization using Mapreduce使用 Mapreduce 计算期望最大化的高斯混合模型
【发布时间】:2014-05-25 20:23:45
【问题描述】:
在哪里可以找到使用 EM 计算 GMM 的 Mapreduce 实现(或教程)?
另外使用mapreduce框架真的可行吗?
我找到了这个讲座link,但它不包含详细描述,如果我的数据(均值和方差)很大,那么我如何将它从映射器传递到减速器?
【问题讨论】:
标签:
hadoop
machine-learning
mapreduce
mixture-model
expectation-maximization
【解决方案1】:
好的,你说,你有实施 EM 算法的经验。很容易解释。
EM算法
如您所知,EM 算法是一种寻找最大似然的迭代方法。一次迭代由期望(E-step)和最大化步骤(M-step)两个步骤组成。
在E-step中,样本的可能性是根据之前的模型计算的。让n 为样本数,我们可以得到n 可能性。
这里,似然计算是独立进行的。所以这可以使用多处理器环境来执行。
假设我们在单台机器上有 4 个 CPU,n/4 可能性可以由每个 CPU 计算。快 4 倍(忽略 IO 时间)
在M-step中,新模型由可能性推导出来。
映射减少
计算 EM
- E-step 可以扩展到 mapreduce 上的
mapper 任务,因为彼此独立的样本。
- M-step 可以扩展到
reducer 任务(这可以是多个reducer,但我只是推荐一个reducer)。
数据表示
- 训练样本位于
HDFS 上的某个目录中
- 之前的模型也位于
HDFS,但与训练样本不同的目录
迭代
一个 mapreduce 任务类似于 EM 算法的一次迭代。所以需要迭代下一个mapreduce任务直到收敛
我已经简单解释了。在实施过程中,您将面临许多问题。
我希望这会有所帮助。