【问题标题】:Loading your own text dataset to scikit-learn将您自己的文本数据集加载到 scikit-learn
【发布时间】:2013-04-17 15:30:41
【问题描述】:

我想通过加载我自己的数据集来尝试一些算法。我对加载文本文件特别感兴趣(非常类似于 20 NewsGroups 数据集http://scikit-learn.org/stable/datasets/index.html#general-dataset-api)。是否有任何文档解释加载示例数据集以外的数据的格式(和过程)?

谢谢。

【问题讨论】:

    标签: python scikit-learn


    【解决方案1】:

    scikit-learn 中的 TfidfVectorizer 和其他文本矢量化器类只需将 Python unicode 字符串列表作为输入。因此,您可以根据来源以您想要的方式加载文本:使用 SQLAlchemy 的数据库查询、来自 HTTP API 的 json 流、CSV 文件或文件夹中的随机文本文件。

    对于最后一个选项,如果类信息存储在包含文本文件的文件夹名称中,您可以使用load_files 实用程序函数。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-07-14
      • 2014-05-10
      • 2013-04-21
      • 2016-03-17
      • 1970-01-01
      • 2017-10-10
      • 2017-03-05
      • 2017-06-15
      相关资源
      最近更新 更多