【发布时间】:2015-11-11 01:28:52
【问题描述】:
在Introduction to Information Retrieval一书的示例18.4中。术语-文档矩阵使用 SVD 分解。我的问题是为什么 Σ 在示例中是 5*5 矩阵?不应该是5*6的矩阵吗?错了吗?
这里是link of the Chapter 18 of the book Introduction to Information Retrieval。谢谢!
【问题讨论】:
在Introduction to Information Retrieval一书的示例18.4中。术语-文档矩阵使用 SVD 分解。我的问题是为什么 Σ 在示例中是 5*5 矩阵?不应该是5*6的矩阵吗?错了吗?
这里是link of the Chapter 18 of the book Introduction to Information Retrieval。谢谢!
【问题讨论】:
这本书是正确的。一个术语文档矩阵(维度为 DxT)被分成三个矩阵的乘积。中间的矩阵(书中记为\Sigma)是维数为TxT(本例中T=5)的关键矩阵。
直观地说,您可以将此矩阵视为表示术语之间的关系。在最好的情况下,这个矩阵的所有列向量应该是线性独立的,这意味着这形成了术语空间中的基向量,并且术语之间没有依赖关系。然而,这在实践中是不正确的。你会发现这个矩阵的秩通常比 T 小几个数量级(比如 T'),这意味着这个矩阵中有 T-T' 线性相关的列向量。
然后可以通过仅考虑 T'xT' 项矩阵来对该矩阵进行低阶近似。实际上,您获取矩阵的主要特征值并使用旋转和缩放将向量投影到这些特征向量(视为新基)上。这正是频谱分解或 PCA(或 LSA)所做的。
【讨论】: