【问题标题】:Encoding unique features编码独特的功能
【发布时间】:2017-04-11 03:16:03
【问题描述】:

我有一个 2 列的 excel 表:

  1. 单词 2. 语言

每一行只有一个单词,它直接链接到一种语言

我如何将这些单词和语言格式化为机器学习可接受的数据?

我正在使用 scikit-learn 并考虑过词袋,但在我看来,每个词的索引并不能传达每个词的特征。

【问题讨论】:

  • 你的分类任务是什么?你想成为训练好的系统的输入输出是什么?
  • @Hossein 任务是将给定的单词分类为英语或荷兰语。

标签: python machine-learning scikit-learn


【解决方案1】:

根据您的问题,我认为您是在询问如何从单词中提取特征以用于训练分类器以确定单词的语言。我认为单词的长度单词中的字符二元组是很好的开始。查看this post 以提取字符二元组。此外,也许使用 NLTK 分类器是合适的。例如,

from nltk.classify import NaiveBayesClassifier
nb = NaiveBayesClassifier.train(train_set)

其中train_set 应该是[(features, label)] 形式的元组列表,其中featuresdict 形式的{feature_name: feature_value}

【讨论】:

  • 这行得通,谢谢!你也知道如何在 scikit-learn 中实现它吗?还是这些类型的分类问题只能由 nltk 来完成?
  • @JesseVermeulen 你也可以使用 scikit-learn。看this link
  • 感谢您的帮助!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2013-12-22
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-09-03
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多