如何解释 sklearn 稀疏矩阵输出？答案

【问题标题】：How does one interpret sklearn sparse matrix outputs?如何解释 sklearn 稀疏矩阵输出？
【发布时间】：2018-03-01 16:17:32
【问题描述】：

我正在尝试生成一个二元词共现矩阵，指示语料库中一个词跟随另一个词的次数。

作为测试，我写了以下内容（我从其他 SE 问题中收集的）：

from sklearn.feature_extraction.text import CountVectorizer

test_sent = ['hello', 'i', 'am', 'hello', 'i', 'dont', 'want', 'to', 'i', 'dont']
bigram_vec = CountVectorizer(ngram_range=(1,2)) 
X = bigram_vec.fit_transform(test_sent)
Xc = (X.T * X)
print Xc

这应该会给出正确的输出。矩阵Xc 输出如下：

(0, 0)  1
(1, 1)  2
(2, 2)  2
(3, 3)  1
(4, 4)  1

我不知道如何解释。我尝试使用Xc.todense() 使其更密集以帮助我进行解释，结果如下：

[[1 0 0 0 0]
 [0 2 0 0 0]
 [0 0 2 0 0]
 [0 0 0 1 0]
 [0 0 0 0 1]]

这些都没有给出正确的单词共现矩阵，显示行跟随列的次数。

有人可以解释我如何解释/使用输出吗？为什么会这样？

问题补充

这是另一个使用ngram_range=(2,2) 的不同示例的可能输出：

from sklearn.feature_extraction.text import CountVectorizer

test_sent = ['hello biggest awesome biggest biggest awesome today lively splendid awesome today']

bigram_vec = CountVectorizer(ngram_range=(2,2)) 

X = bigram_vec.fit_transform(test_sent)
print bigram_vec.get_feature_names()

Xc = (X.T * X)

print Xc
print ' '
print Xc.todense()

(4, 0)  1
(2, 0)  2
(0, 0)  1
(3, 0)  1
(1, 0)  2
(7, 0)  1
(5, 0)  1
(6, 0)  1
(4, 1)  2
(2, 1)  4
(0, 1)  2
(3, 1)  2
(1, 1)  4
(7, 1)  2
(5, 1)  2
(6, 1)  2
(4, 2)  2
(2, 2)  4
(0, 2)  2
(3, 2)  2
(1, 2)  4
(7, 2)  2
(5, 2)  2
(6, 2)  2
(4, 3)  1
:   :
(6, 4)  1
(4, 5)  1
(2, 5)  2
(0, 5)  1
(3, 5)  1
(1, 5)  2
(7, 5)  1
(5, 5)  1
(6, 5)  1
(4, 6)  1
(2, 6)  2
(0, 6)  1
(3, 6)  1
(1, 6)  2
(7, 6)  1
(5, 6)  1
(6, 6)  1
(4, 7)  1
(2, 7)  2
(0, 7)  1
(3, 7)  1
(1, 7)  2
(7, 7)  1
(5, 7)  1
(6, 7)  1

[[1 2 2 1 1 1 1 1]
 [2 4 4 2 2 2 2 2]
 [2 4 4 2 2 2 2 2]
 [1 2 2 1 1 1 1 1]
 [1 2 2 1 1 1 1 1]
 [1 2 2 1 1 1 1 1]
 [1 2 2 1 1 1 1 1]
 [1 2 2 1 1 1 1 1]]

这似乎是用二元组标记的，因为调用bigram_vec.get_feature_names() 给出了

[u'awesome biggest', u'awesome today', u'biggest awesome', u'biggest biggest', u'hello biggest', u'lively splendid', u'splendid awesome', u'today lively']

一些帮助解释这一点会很棒。这是一个对称矩阵，所以我认为它可能只是出现次数？

【问题讨论】：

是的，你是对的。它显示了每个二元组的出现次数。

标签： python scikit-learn sparse-matrix

【解决方案1】：

首先您需要检查 CountVectorizer 正在使用的功能名称。

这样做：

bigram_vec.get_feature_names()
# Out:  [u'am', u'dont', u'hello', u'to', u'want']

您会看到单词"i" 不存在。那是因为默认的分词器使用了一个模式：

token_pattern : 字符串

Regular expression denoting what constitutes a “token”, only used if 
analyzer == 'word'. The default regexp select tokens of 2 or more
alphanumeric characters (punctuation is completely ignored and always
treated as a token separator).

而X的实际输出应该解释为：

            [u'am', u'dont', u'hello', u'to', u'want']
'hello'    [[ 0        0        1        0       0]
'i'         [ 0        0        0        0       0]
'am'        [ 1        0        0        0       0]
'hello'     [ 0        0        1        0       0]
'i'         [ 0        0        0        0       0]
'dont'      [ 0        1        0        0       0]
'want'      [ 0        0        0        0       1]
'to'        [ 0        0        0        1       0]
'i'         [ 0        0        0        0       0]
'dont'      [ 0        1        0        0       0]]

现在，当您执行 X.T * X 时，应将其解释为：

           u'am'  u'dont'  u'hello'  u'to'  u'want'
u'am'      [[1      0         0        0       0]
u'dont'     [0      2         0        0       0]
u'hello'    [0      0         2        0       0]
u'to'       [0      0         0        1       0]
u'want'     [0      0         0        0       1]]

如果您期待其他任何内容，那么您应该在问题中添加详细信息。

【讨论】：

好的，所以看起来 X.T*X 是我正在寻找的格式。但它只是告诉我每个单词出现了多少次（例如 2 在 dont,dont 中；1 在 to,to 中）。所以你的回答确实回答了我的问题。你知道我怎样才能把它变成我想要的格式吗？它在哪里显示一个单词在二元组中跟随另一个单词的次数？
我还添加了另一个示例，其 ngram_range 参数略有不同