编码独特的功能答案

【问题标题】：Encoding unique features编码独特的功能
【发布时间】：2017-04-11 03:16:03
【问题描述】：

我有一个 2 列的 excel 表：

每一行只有一个单词，它直接链接到一种语言

我如何将这些单词和语言格式化为机器学习可接受的数据？

我正在使用 scikit-learn 并考虑过词袋，但在我看来，每个词的索引并不能传达每个词的特征。

【问题讨论】：

【解决方案1】：

根据您的问题，我认为您是在询问如何从单词中提取特征以用于训练分类器以确定单词的语言。我认为单词的长度和单词中的字符二元组是很好的开始。查看this post 以提取字符二元组。此外，也许使用 NLTK 分类器是合适的。例如，

from nltk.classify import NaiveBayesClassifier
nb = NaiveBayesClassifier.train(train_set)

其中train_set 应该是[(features, label)] 形式的元组列表，其中features 是dict 形式的{feature_name: feature_value}。

【讨论】：