【发布时间】:2024-05-03 04:55:02
【问题描述】:
我正在从数据库中加载文本文档,然后从它们创建语料库,最后我设置了文档的前缀 id(我需要使用前缀,因为我有几种类型的文档)。
rs <- dbSendQuery(con,"SELECT id::TEXT, content FROM entry")
entry.d = data.table(fetch(rs,n=-1))
entry.vs = VectorSource(entry.d$content)
entry.vc = VCorpus(entry.vs, readerControl = list(language = "pl"))
meta(entry.vc, tag = 'id', type = 'local') = paste0("e:",entry.d$id)
这工作很慢。需要6分钟,当
tm_map(entry.vc, tm_reduce, tmFuns = funs, mc.cores=1)
funs 是 6 个函数的列表,只需要多花 2 分钟。
有什么方法可以更快?
【问题讨论】:
标签: r metadata text-mining tm corpus