【发布时间】:2011-03-13 15:25:36
【问题描述】:
我需要在大型数据集(10-1000 亿条记录)上运行各种机器学习技术 问题主要围绕文本挖掘/信息提取,包括各种内核技术,但不限于它们(我们使用一些贝叶斯方法、自举、梯度提升、回归树——许多不同的问题和解决方法)
最好的实现是什么?我在 ML 方面经验丰富,但没有太多经验如何处理大型数据集 是否有任何使用 MapReduce 基础设施的可扩展和可定制的机器学习库 强烈偏爱c++,但是Java和python都可以 Amazon Azure 还是自己的数据中心(我们负担得起)?
【问题讨论】:
标签: java c++ machine-learning mapreduce text-mining