【发布时间】:2012-12-06 05:40:02
【问题描述】:
我正在尝试应用 Scikit learn 中的 SVM 对我收集的推文进行分类。 因此,将有两个类别,分别命名为 A 和 B。 目前,我将所有推文分类在两个文本文件中,“A.txt”和“B.txt”。 但是,我不确定 Scikit Learn SVM 要求什么类型的数据输入。 我有一个带有标签(A 和 B)作为键的字典和一个特征字典(一元组)和它们的频率作为值。 抱歉,我对机器学习真的很陌生,不知道应该怎么做才能让 SVM 工作。 我发现 SVM 使用 numpy.ndarray 作为其数据输入的类型。我需要根据自己的数据创建一个吗? 应该是这样的吗?
Labels features frequency
A 'book' 54
B 'movies' 32
感谢任何帮助。
【问题讨论】:
标签: python svm scikit-learn