【问题标题】:LDA with Python - input files带有 Python 的 LDA - 输入文件
【发布时间】:2015-05-19 11:42:10
【问题描述】:

我正在 Python 中运行 lda 库,并且正在运行这个示例。有谁知道X、词汇和标题的格式?我找不到文档。

import numpy as np
import lda
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()

【问题讨论】:

    标签: python scikit-learn lda


    【解决方案1】:

    X 是一个矩阵,其中行是标题,列是词汇。它是标题文本的一个词袋。

    X
    Out[8]: 
    array([[1, 0, 1, ..., 0, 0, 0],
           [7, 0, 2, ..., 0, 0, 0],
           [0, 0, 0, ..., 0, 0, 0],
           ..., 
           [1, 0, 1, ..., 0, 0, 0],
           [1, 0, 1, ..., 0, 0, 0],
           [1, 0, 1, ..., 0, 0, 0]], dtype=int32)    
    

    在上面的矩阵中,每一行都是单个标题的单词表示包。每列代表一个特定的单词示例。

    vocab[:5]
    Out[5]: ('church', 'pope', 'years', 'people', 'mother')  
    

    所以,X 矩阵中的每一行 i, col j 给出了特定单词在第 i 个标题中的频率。

    titles[:1]
    Out[11]: ('0 UK: Prince Charles spearheads British royal revolution. LONDON 1996-08-20',)  
    

    标题U:查尔斯王子......提到了教堂这个词一次,教皇0次,一年一次,等等。

    In [13]: type(titles)
    Out[13]: tuple
    
    In [14]: type(vocab)
    Out[14]: tuple
    
    In [15]: type(X)
    Out[15]: numpy.ndarray
    

    【讨论】:

      猜你喜欢
      • 2014-11-28
      • 2018-02-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-10-19
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多