【发布时间】:2014-02-10 21:13:09
【问题描述】:
我从 R 中的 tm 库创建了一个 TermDocumentMatrix。它看起来像这样:
> inspect(freq.terms)
A document-term matrix (19 documents, 214 terms)
Non-/sparse entries: 256/3810
Sparsity : 94%
Maximal term length: 19
Weighting : term frequency (tf)
Terms
Docs abundant acid active adhesion aeropyrum alternative
1 0 0 1 0 0 0
2 0 0 0 0 0 0
3 0 0 0 1 0 0
4 0 0 0 0 0 0
5 0 0 0 0 0 0
6 0 1 0 0 0 0
7 0 0 0 0 0 0
8 0 0 0 0 0 0
9 0 0 0 0 0 0
10 0 0 0 0 1 0
11 0 0 1 0 0 0
12 0 0 0 0 0 0
13 0 0 0 0 0 0
14 0 0 0 0 0 0
15 1 0 0 0 0 0
16 0 0 0 0 0 0
17 0 0 0 0 0 0
18 0 0 0 0 0 0
19 0 0 0 0 0 1
这只是矩阵的一个小样本;实际上,我正在使用 214 个术语。在小范围内,这很好。如果我想将我的TermDocumentMatrix 转换为普通矩阵,我会这样做:
data.matrix <- as.matrix(freq.terms)
但是,我上面显示的数据只是我的整体数据的一个子集。我的整体数据可能至少有 10,000 个术语。当我尝试从整体数据创建 TDM 时,出现错误:
> Error cannot allocate vector of size n Kb
因此,从这里开始,我正在寻找为我的 tdm 寻找有效内存分配的替代方法。
我尝试将我的 tdm 转换为来自 Matrix 库的稀疏矩阵,但遇到了同样的问题。
此时我有哪些替代方案?我觉得我应该调查以下之一:
我已经对这两个库中的函数进行了试验,但似乎没有得到任何实质性的结果。有谁知道最好的前进方式是什么?我花了很长时间摆弄这个问题,以至于我想在我浪费更多时间在错误的方向上之前,我会问那些比我更有经验的人处理大型数据集。
编辑:将 10,00 更改为 10,000。谢谢@nograpes。
【问题讨论】:
-
我想你的意思是 10,000 个术语。你在看多少文件?我认为在这里进行一些预处理是最容易的:在创建完整矩阵之前,删除一些非常罕见的术语。然后,您可以删除与您试图从数据中提取的任何内容相关性较低的术语。
-
@nograpes 是的 10,000 个术语,我现在将对其进行编辑。做了一些进一步的阅读(特别是here)我认为你是对的;唯一的方法是从我的矩阵中删除一些非必要的术语。我想我担心的是将来我可能会使用更大的数据集;当我的至少 10,000 个术语是必不可少的(不是稀疏的)时会发生什么?不管怎样,谢谢你的评论。
-
共现集中有多少个非零条目?我使用 N 约为 20Mil IIRC 的 Matrix(稀疏)包取得了很好的效果。不过,我计划下次尝试使用 data.table。
-
如果您编写一些代码来生成一些具有您所看到的特征的随机文档,这可能是最简单的(对我们而言)。然后,我们可以测试一些解决方案,您可以向我们展示您对稀疏矩阵解决方案的尝试。老实说,对于具有“典型”(即我在有限的经验中看到的)稀疏性的文档来说,一个 10,000 词的稀疏矩阵不应该那么大。
标签: r sparse-matrix tm term-document-matrix