X 是一个矩阵,其中行是标题,列是词汇。它是标题文本的一个词袋。
X
Out[8]:
array([[1, 0, 1, ..., 0, 0, 0],
[7, 0, 2, ..., 0, 0, 0],
[0, 0, 0, ..., 0, 0, 0],
...,
[1, 0, 1, ..., 0, 0, 0],
[1, 0, 1, ..., 0, 0, 0],
[1, 0, 1, ..., 0, 0, 0]], dtype=int32)
在上面的矩阵中,每一行都是单个标题的单词表示包。每列代表一个特定的单词示例。
vocab[:5]
Out[5]: ('church', 'pope', 'years', 'people', 'mother')
所以,X 矩阵中的每一行 i, col j 给出了特定单词在第 i 个标题中的频率。
titles[:1]
Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)
标题U:查尔斯王子......提到了教堂这个词一次,教皇0次,一年一次,等等。
In [13]: type(titles)
Out[13]: tuple
In [14]: type(vocab)
Out[14]: tuple
In [15]: type(X)
Out[15]: numpy.ndarray