Python 分类 - 数据结构答案

【问题标题】：Python Classification - data structurePython 分类 - 数据结构
【发布时间】：2016-02-23 23:41:18
【问题描述】：

我正在尝试为文档开发分类器。我对 python 比较陌生，我正在尝试找出创建存储结构的最佳/标准方法。我希望介绍带有机器学习算法的数据集。

我正在摄取 txt 文件，我正在考虑让一列保存整个文档内容，而第二列在我的情况下保存类 (0-1)。我最初尝试创建一个列表列表 - 例如列表["the skye is blue",1]["the sky is grey",1]["the sky is red",0]。

我还尝试创建一个 pandas Dataframe，因为我认为它的结构可能更适合数据操作。

【问题讨论】：

嵌套列表有什么问题？
@RouvenB 问题是我开发它的第一部分是内容，第二部分是类[“天空是蓝色的”，1]。我不可能按照我的理解训练这个数据集，因为无法选择第一个列表（类）的第二个对象。我错了吗？如果我希望监督学习这种结构，我认为这是有问题的。

【解决方案1】：

我还尝试创建一个 pandas Dataframe，因为我认为它的结构可能更适合数据操作。

我会同意的。鉴于目标是构建和训练分类器，您将需要从文件文本中提取/计算一些特征。当您决定这样做时，轻松生成新变量并将其添加到 Dataframe 的功能将派上用场。

但是，这也取决于您要处理的数据的大小。如果你有海量数据，你应该研究不同的概念和框架（例如TensorFlow）

【讨论】：

我见过的大多数示例都提取了由“空白”分隔的 CSV 文件或 txt 文件。在我看来，在进行数据挖掘时用“空白”分隔 txt 文件不是可行的方法，因为您可能会丢失有价值的信息，因为单词和二元组的标记化不如您“打开file' 到一个变量中，然后标记化。
我不确定我是否收到您的评论，但关于您所说的 OP 中的上述评论 > 无法选择第一个列表（类）的第二个对象。嗯，有，这是你可以通过遵循一些初学者的python教程来学习的东西，如果你发现问题，请尝试并重新发布。无论如何，我发现使用 Pandas 操作和计算数据更容易，尽管您仍然需要了解有关 Python 中数据结构的相同基础知识。
我一直在阅读 Pandas 等的教程。我仍然在努力解决以下问题，我只是无法理解它。我正在使用 for 循环中的以下命令读取纯 txt 文件的目录：pd.read_csv('//filedirectory'+i ,sep="\t" , quoting=csv.QUOTE_NONE, header=None, names=['message', 'class') 进入“list_”。结果是列表的数量等于目录中的文件数量。每个列表由 X 行组成，将每个文件分解为多行。我想要一个数据框，其中一行包含整个消息。有任何想法吗？ `
这篇文章太笼统了，是关于某件事的看法，我已经给出了我的看法。为此，我建议创建一个新帖子，描述您尝试做的事情，并发布您迄今为止所做的代码。