将您自己的文本数据集加载到 scikit-learn

【问题标题】：Loading your own text dataset to scikit-learn将您自己的文本数据集加载到 scikit-learn
【发布时间】：2013-04-17 15:30:41
【问题描述】：

我想通过加载我自己的数据集来尝试一些算法。我对加载文本文件特别感兴趣（非常类似于 20 NewsGroups 数据集http://scikit-learn.org/stable/datasets/index.html#general-dataset-api）。是否有任何文档解释加载示例数据集以外的数据的格式（和过程）？

谢谢。

【问题讨论】：

标签： python scikit-learn

【解决方案1】：

scikit-learn 中的 TfidfVectorizer 和其他文本矢量化器类只需将 Python unicode 字符串列表作为输入。因此，您可以根据来源以您想要的方式加载文本：使用 SQLAlchemy 的数据库查询、来自 HTTP API 的 json 流、CSV 文件或文件夹中的随机文本文件。

对于最后一个选项，如果类信息存储在包含文本文件的文件夹名称中，您可以使用load_files 实用程序函数。

【讨论】：