【发布时间】:2017-10-10 06:38:23
【问题描述】:
我正在尝试在大约 40000 行的 R 中的数据集(通过 data.table 包上传)上运行词干分析器功能,但它需要永远运行。我的代码如下所示:
data[, Description := map(Description, function(k) stemmer(k))]
如果手动停止进程,它会显示超过 50 个警告: Image Link
是否有更快的运行它的替代方法。我的电脑有 8Gb 内存。
【问题讨论】:
-
stemmer一般来说需要很长时间,你检查了运行10条记录的时间差吗?
-
是的,在 10 行上运行它会更快,但有什么替代方案,我该如何处理整个数据??
-
尝试批量运行它,当你使用大型数据集时,词干分析器确实需要很多时间。你试过 lapply 吗?
-
是的,使用 lapply 工作,更快。谢谢
-
如果它解决了您的问题,请您接受我的回答
标签: r machine-learning nlp sentiment-analysis snowball