【问题标题】:Vocabulary Processor function词汇处理器功能
【发布时间】:2017-02-11 00:15:27
【问题描述】:

我正在研究卷积神经网络的嵌入输入,我了解 Word2vec。但是,在CNN text classification。 dennybritz 使用了函数learn.preprocessing.VocabularyProcessor。在document。他们说它将文档映射到单词 ID 序列。我不太确定这个功能是如何工作的。它是创建一个 Id 列表然后将 Id 与单词映射,还是它有一个单词字典及其 Id,当运行函数时它只给出 ids ?

【问题讨论】:

    标签: python tensorflow text-classification


    【解决方案1】:

    假设您只有两个文档I like pizzaI like Pasta。您的整个词汇表由这些单词组成(I, like, pizza, pasta) 对于词汇表中的每个单词,都有一个关联的索引,如下所示 (1, 2, 3, 4)。现在给定一个像I like pasta 这样的文档,它可以被转换成一个向量[1, 2, 4]。这就是learn.preprocessing.VocabularyProcessor 所做的。参数max_document_length确保所有文档都由长度为max_document_length的向量表示

    【讨论】:

    • 感谢 Kashyap,所以它只将文档编码到向量空间中。它在自然语言处理中有名称吗?
    • @ngoduyvu 据我所知没有...这是在大多数自然语言处理系统中完成的预处理步骤之一。
    • max_document_length 应该是不同单词的数量
    猜你喜欢
    • 2017-04-01
    • 2017-06-23
    • 2021-08-02
    • 2022-11-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多