【问题标题】:How to sort UCI machine learning datasets by number of hits?如何按点击次数对 UCI 机器学习数据集进行排序?
【发布时间】:2021-11-13 21:47:51
【问题描述】:

我想找到最流行的数据集。 UCI 机器学习网站的主页上有前 12 个浏览量最高的数据集。但是,一旦开始浏览,似乎就无法对数据集进行排序。新的测试版网站有一个排序过滤器,但它只考虑新网站上的点击量。

UCI old site

UCI beta site

有什么方法可以按点击次数对数据集进行排序吗?我想找到回归和分类的顶级数据集。如果不是直接的,你能帮我用一些脚本来对数据集进行排序吗?

编辑: 我使用了一个 web-scraper 工具来获取所需的数据。它适用于回归数据集,但该站点在尝试使用分类数据集时会引发内存错误。可能是由于分类类别中的数据集较多。

【问题讨论】:

  • 我投票结束这个问题,因为它与help center 中定义的编程无关。
  • 我要一个脚本。怎么不编程?如果我知道该怎么做,我会的。
  • 询问网站提供的选项不是编程问题。 “给我一个执行此操作的脚本”甚至不是问题。非常欢迎您发布您迄今为止所尝试的内容,并就您可能面临的特定问题请求编程帮助。请参阅Why is “Can someone help me?” not an actual question

标签: machine-learning web-scraping dataset data-mining


【解决方案1】:

据我所知,当前网站没有此功能,但测试版有。您可以在 beta 网站上根据点击次数对完整的数据集列表进行排序。

https://archive-beta.ics.uci.edu/ml/datasets?&p%5Boffset%5D=0&p%5Blimit%5D=591&p%5BorderBy%5D=NumHits&p%5Border%5D=desc

【讨论】:

  • 正如我在问题中已经提到的,测试版网站点击量只是旧网站的一小部分。这对我的需求没有帮助。
猜你喜欢
  • 1970-01-01
  • 2018-05-30
  • 2016-08-31
  • 2018-10-31
  • 2013-06-07
  • 2021-09-14
  • 2018-05-04
  • 2017-06-25
  • 1970-01-01
相关资源
最近更新 更多