词汇处理器功能答案

【问题标题】：Vocabulary Processor function词汇处理器功能
【发布时间】：2017-02-11 00:15:27
【问题描述】：

我正在研究卷积神经网络的嵌入输入，我了解 Word2vec。但是，在CNN text classification。 dennybritz 使用了函数learn.preprocessing.VocabularyProcessor。在document。他们说它将文档映射到单词 ID 序列。我不太确定这个功能是如何工作的。它是创建一个 Id 列表然后将 Id 与单词映射，还是它有一个单词字典及其 Id，当运行函数时它只给出 ids ？

【问题讨论】：

标签： python tensorflow text-classification

【解决方案1】：

假设您只有两个文档I like pizza 和I like Pasta。您的整个词汇表由这些单词组成(I, like, pizza, pasta) 对于词汇表中的每个单词，都有一个关联的索引，如下所示 (1, 2, 3, 4)。现在给定一个像I like pasta 这样的文档，它可以被转换成一个向量[1, 2, 4]。这就是learn.preprocessing.VocabularyProcessor 所做的。参数max_document_length确保所有文档都由长度为max_document_length的向量表示

【讨论】：

感谢 Kashyap，所以它只将文档编码到向量空间中。它在自然语言处理中有名称吗？
@ngoduyvu 据我所知没有...这是在大多数自然语言处理系统中完成的预处理步骤之一。
max_document_length 应该是不同单词的数量