【发布时间】:2015-08-02 09:01:50
【问题描述】:
我是 Python 和 Scikit-learn 库的初学者。 我目前需要从事一个 NLP 项目,该项目首先需要通过 One-Hot Encoding 表示一个大型语料库。 我已经阅读了 Scikit-learn 关于预处理的文档。OneHotEncoder,但是,这似乎不是我对术语的理解。
基本上,思路类似如下:
- 1000000 周日; 0100000 星期一; 0010000 星期二; ... 0000001 星期六;
如果语料库只有 7 个不同的单词,那么我只需要一个 7 位向量来表示每个单词。然后,一个完整的句子可以用所有向量的合取来表示,它是一个句子矩阵。 但是,我在Python中尝试过,它似乎不起作用......
我该如何解决这个问题?我的语料库中有大量不同的词。
顺便说一句,如果向量大部分都是零,我们可以使用 Scipy.Sparse 来缩小存储空间,例如 CSR。
因此,我的整个问题将是:
语料库中的句子如何用 OneHotEncoder 表示,并存储在 SparseMatrix 中?
谢谢你们。
【问题讨论】:
标签: python machine-learning nlp scikit-learn one-hot-encoding