【发布时间】:2016-02-23 23:41:18
【问题描述】:
我正在尝试为文档开发分类器。我对 python 比较陌生,我正在尝试找出创建存储结构的最佳/标准方法。我希望介绍带有机器学习算法的数据集。
我正在摄取 txt 文件,我正在考虑让一列保存整个文档内容,而第二列在我的情况下保存类 (0-1)。我最初尝试创建一个列表列表 - 例如列表["the skye is blue",1]["the sky is grey",1]["the sky is red",0]。
我还尝试创建一个 pandas Dataframe,因为我认为它的结构可能更适合数据操作。
【问题讨论】:
-
嵌套列表有什么问题?
-
@RouvenB 问题是我开发它的第一部分是内容,第二部分是类[“天空是蓝色的”,1]。我不可能按照我的理解训练这个数据集,因为无法选择第一个列表(类)的第二个对象。我错了吗?如果我希望监督学习这种结构,我认为这是有问题的。
标签: python pandas scipy scikit-learn