【发布时间】:2012-08-18 12:52:33
【问题描述】:
对于个人项目,我需要针对不同的文本运行多种机器学习算法,以便对它们进行分类。
我曾经使用 RapidMiner 来完成这项工作,但我决定将我的所有开发转移到 R,因为我觉得我对它有更多的控制权。
我现在看到的问题(我在 RapidMiner 中没有注意到)是加载模型需要很长时间。
例如:
我有一个模型可以检查文本是否涉及运动。
模型是37.7 MB,它需要8:34和我的2.2 GH i7 Mac with 4GB of RAM
我调用模型的方式如下:
fileNameMatrix = paste(query,query1,"-matrix.Rd", sep ="")
fileNameModel= paste(query,query1,"-model.Rd", sep ="")
load(fileNameMatrix)
load(fileNameModel)
模型是使用RTextTools生成的
您阅读的那些查询变量是因为我需要调用近 20 个模型并将它们与不同的数据集进行比较。这就是为什么虽然 8 分钟不算多,但当我阅读所有这些内容时,仅加载就将近 3 小时,考虑到它几乎是实时任务,这让我的任务几乎毫无用处。
如果不能减小模型的大小,我应该考虑哪些因素来减少加载时间?
我认为可疑的另一件事是,虽然矩阵文件相当小64KB,但模型仍然是37.7MB。模型文件是否可能比需要的大?有没有人使用 RTextTools 遇到过类似的事情?
这是我在 R 中使用模型的第一个任务,如果我正在做一些明显错误的事情,请原谅。
非常感谢您抽出宝贵时间,我们将不胜感激任何正确方向的提示!
【问题讨论】:
标签: r machine-learning text-mining