【发布时间】:2020-01-30 02:29:45
【问题描述】:
我正在寻找一个巨大的文本分类数据集来应用我在机器学习课程中学到的知识。我正在寻找宽数据和高数据。到目前为止,我发现的是 200Mb 到 500Mb 之间的数据。请问是否有任何 repo/url 可以找到高达 2gb 或更多的数据集。
【问题讨论】:
标签: machine-learning dataset bigdata
我正在寻找一个巨大的文本分类数据集来应用我在机器学习课程中学到的知识。我正在寻找宽数据和高数据。到目前为止,我发现的是 200Mb 到 500Mb 之间的数据。请问是否有任何 repo/url 可以找到高达 2gb 或更多的数据集。
【问题讨论】:
标签: machine-learning dataset bigdata
您可以在此处找到一些公开可用数据集的良好列表: https://github.com/awesomedata/awesome-public-datasets
作为示例,请查看已从 250 亿个网页中抓取的 CommonCrawl 数据集 https://commoncrawl.org/。 可以在此处找到包含档案列表的索引:http://index.commoncrawl.org/
【讨论】: