【发布时间】:2017-09-02 02:12:51
【问题描述】:
我一直在阅读有关使用 python 和 sklearn 进行机器学习的文章。 我尝试使用 iris 数据集进行练习,然后继续在 UCI 网站上查找其他数据集。
我找到了一个叫 "Amazon Book Reviews".
文档说每个条目都用新行分隔,四个属性中的每一个都用空格“”分隔。
不幸的是,由于您有标题(文本)和描述(html),因此数据到处都包含空格。
当我尝试使用 panda csv_read 函数时,它当然不知道在哪里分隔列,我也不知道。
有什么想法吗?对于机器学习(和一般的编程)初学者来说,我是不是太过分了?
【问题讨论】:
标签: python machine-learning scikit-learn