【发布时间】:2012-06-11 14:28:06
【问题描述】:
我一直在寻找一个最大熵分类实现,它可以处理 500 个类和 1000 个特征的输出大小。我的训练数据大约有 30,000,000 行。 我曾尝试使用 MegaM,64 位 R maxent 包,爱丁堡大学的 maxent 工具,但正如预期的那样,它们都不能处理数据的大小。但是,对于这种性质的 nlp 任务,数据集的大小似乎并不过分。 有什么我应该采用的技术吗?或者对我可以使用的工具包有什么建议? 我正在尝试在具有 8GB RAM 的 64 位 Windows 机器上运行它,在需要时使用 Cygwin。
【问题讨论】:
标签: nlp machine-learning classification