【发布时间】:2016-02-03 02:15:23
【问题描述】:
在生成 TF-IDF 模块时,我遇到了这个矩阵向量计算。
A % b = C
[[1,2], [3,4]] % [1/2, 1/3] = [[1/2, 2/3], [3/2, 4/3]]
这里A 是Document x Words 的矩阵,其中A_ij 是文档j 中单词i 的词频计数。而b向量是为每个单词预先计算的IDF值,例如b_j是1/7,如果单词j在7个不同的文档中使用。
人们如何称呼这种逐列乘法? 是否有任何现有的库支持此操作? (Python)
- 由于大尺寸和稀疏性,我一直在
scipy中使用csr_matrix来保存矩阵。 - 我尝试将它们更改为 np.array 并执行
A*b操作,但是几分钟后它没有完成。
【问题讨论】: