【问题标题】:Python Classification - data structurePython 分类 - 数据结构
【发布时间】:2016-02-23 23:41:18
【问题描述】:

我正在尝试为文档开发分类器。我对 python 比较陌生,我正在尝试找出创建存储结构的最佳/标准方法。我希望介绍带有机器学习算法的数据集。

我正在摄取 txt 文件,我正在考虑让一列保存整个文档内容,而第二列在我的情况下保存类 (0-1)。我最初尝试创建一个列表列表 - 例如列表["the skye is blue",1]["the sky is grey",1]["the sky is red",0]

我还尝试创建一个 pandas Dataframe,因为我认为它的结构可能更适合数据操作。

【问题讨论】:

  • 嵌套列表有什么问题?
  • @RouvenB 问题是我开发它的第一部分是内容,第二部分是类[“天空是蓝色的”,1]。我不可能按照我的理解训练这个数据集,因为无法选择第一个列表(类)的第二个对象。我错了吗?如果我希望监督学习这种结构,我认为这是有问题的。

标签: python pandas scipy scikit-learn


【解决方案1】:

我还尝试创建一个 pandas Dataframe,因为我认为它的结构可能更适合数据操作。

我会同意的。鉴于目标是构建和训练分类器,您将需要从文件文本中提取/计算一些特征。当您决定这样做时,轻松生成新变量并将其添加到 Dataframe 的功能将派上用场。

但是,这也取决于您要处理的数据的大小。如果你有海量数据,你应该研究不同的概念和框架(例如TensorFlow

【讨论】:

  • 我见过的大多数示例都提取了由“空白”分隔的 CSV 文件或 txt 文件。在我看来,在进行数据挖掘时用“空白”分隔 txt 文件不是可行的方法,因为您可能会丢失有价值的信息,因为单词和二元组的标记化不如您“打开file' 到一个变量中,然后标记化。
  • 我不确定我是否收到您的评论,但关于您所说的 OP 中的上述评论 > 无法选择第一个列表(类)的第二个对象。嗯,有,这是你可以通过遵循一些初学者的python教程来学习的东西,如果你发现问题,请尝试并重新发布。无论如何,我发现使用 Pandas 操作和计算数据更容易,尽管您仍然需要了解有关 Python 中数据结构的相同基础知识。
  • 我一直在阅读 Pandas 等的教程。我仍然在努力解决以下问题,我只是无法理解它。我正在使用 for 循环中的以下命令读取纯 txt 文件的目录:pd.read_csv('//filedirectory'+i ,sep="\t" , quoting=csv.QUOTE_NONE, header=None, names=['message', 'class') 进入“list_”。结果是列表的数量等于目录中的文件数量。每个列表由 X 行组成,将每个文件分解为多行。我想要一个数据框,其中一行包含整个消息。有任何想法吗? `
  • 这篇文章太笼统了,是关于某件事的看法,我已经给出了我的看法。为此,我建议创建一个新帖子,描述您尝试做的事情,并发布您迄今为止所做的代码。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2012-08-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多