【发布时间】:2012-01-27 06:50:27
【问题描述】:
我目前正在试验一项涉及分类模型监督训练的机器学习任务。 迄今为止,我有大约 500 万个训练示例和大约 500 万个用于交叉验证的示例。目前,每个示例都有 46 个特征,但我可能希望在不久的将来再生成 10 个特征,因此任何解决方案都应该留有改进的空间。
我的问题如下:我用什么工具来解决这个问题?我想使用随机森林或 SVM,但我担心后者在我的情况下可能太慢了。我考虑过 Mahout,但拒绝了,因为它似乎需要一定数量的配置以及与命令行脚本混淆。我宁愿直接针对一些(有据可查的!)库编写代码,或者使用 GUI 定义我的模型。
我还应该说明我正在寻找可以在 Windows 上运行的东西(没有 cygwin 之类的东西),并且非常感谢与 .NET 配合使用的解决方案。
您可以想象,当时机成熟时,代码将在Amazon EC2 上的 Cluster Compute Eight Extra Large Instance 上运行,因此任何广泛使用 RAM 和多核 CPU 的东西很受欢迎。
最后但同样重要的是,我将指定我的数据集是密集的(因为没有缺失值/所有列都有每个向量的值)
【问题讨论】:
-
有无数可用的工具(首先,请参阅 KDnuggets 上的软件列表:kdnuggets.com/software/index.html)。尽管您的问题描述消除了其中一些问题,但仍有一些可能就足够了。我不确定您所说的“与 .NET 兼容”到底是什么意思,但任何有价值的工具都应该提供模型的报告或源代码,这些代码可以很容易地转换为 .NET 代码。
-
感谢您的链接,写完后会立即查看。至于与 .NET 一起玩得好,这意味着具有可编程接口来启动工作的东西,或者甚至是 .NET 库(或可用的包装器)比没有的东西更可取。
标签: amazon-ec2 cloud machine-learning classification