【问题标题】:defining proper separators with text in pandas csv_read在 pandas csv_read 中用文本定义适当的分隔符
【发布时间】:2017-09-02 02:12:51
【问题描述】:

我一直在阅读有关使用 python 和 sklearn 进行机器学习的文章。 我尝试使用 iris 数据集进行练习,然后继续在 UCI 网站上查找其他数据集。

我找到了一个叫 "Amazon Book Reviews".

文档说每个条目都用新行分隔,四个属性中的每一个都用空格“”分隔。

不幸的是,由于您有标题(文本)和描述(html),因此数据到处都包含空格。

当我尝试使用 panda csv_read 函数时,它当然不知道在哪里分隔列,我也不知道。

有什么想法吗?对于机器学习(和一般的编程)初学者来说,我是不是太过分了?

【问题讨论】:

    标签: python machine-learning scikit-learn


    【解决方案1】:

    您没有做错任何事情,文档实际上是不正确的。数据文件中使用的分隔符实际上是一个制表符'\t' 字符。您可以将其用作delimiterpandas.read_csv 参数。

    祝你分析顺利!

    【讨论】:

    • 哈哈我觉得我应该能够看到。感谢您抽出宝贵时间查看它。
    【解决方案2】:

    每个条目都用新行分隔,四个属性中的每一个都用空格“”分隔

    read_csv 提供an optional sep argument,默认为','

    您可以将其设为空格。

    【讨论】:

      猜你喜欢
      • 2017-05-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-07-19
      • 2017-09-05
      • 1970-01-01
      • 2019-01-27
      • 2014-04-23
      相关资源
      最近更新 更多