【问题标题】:Data set for recommendation system推荐系统的数据集
【发布时间】:2013-08-16 08:44:06
【问题描述】:

我想创建自己的简单推荐系统,关于书籍。但是有一些问题——一个人不可能(至少,非常困难)组织算法的训练数据集。

那么,有没有关于人们投票、哪些书以及他们喜欢多少信息的免费数据集或测验?

第二个问题是关于书的参数。对于某些基于项目的预测,确实必须使用书籍的评分(例如语言、平均单词长度、段落中的平均单词数,我已经计算了大约 30 个这样的参数)及其权重(例如,书籍的语言被评分1 分,平均单词长度为 0.314)。那么,是否有任何准备好的信息?

事实上,如果我得到了第一个问题的答案,我可以找到第二个问题的解决方案,但我确信,需要的信息是存在的。

另外,我正在阅读推荐系统手册,它提供了完整的信息(附有参考资料),但很难阅读。在这种情况下,您能建议一些额外的书籍吗?

【问题讨论】:

    标签: data-mining recommendation-engine


    【解决方案1】:

    你能检查 Books.txt.gz 吗? https://snap.stanford.edu/data/web-Amazon.html 其中包括来自亚马逊的图书评级。它还有产品标题、价格、评论摘要等。

    还书交叉数据集可能有用 http://grouplens.org/datasets/book-crossing/

    我猜你的第二个问题是特征选择问题,每个数据集的权重会有所不同。

    coursera 上的这门课程提供了推荐系统的简要信息,它也有阅读部分。不幸的是,测验不再可用

    课程:https://www.coursera.org/course/recsys

    读数:http://recsys.cs.umn.edu/readings.html

    编辑: 又一个书籍数据集。

    好书:

    http://fastml.com/goodbooks-10k-a-new-dataset-for-book-recommendations/

    【讨论】:

      【解决方案2】:

      此数据集是关于电影而非书籍的,但您可能会发现 Netflix Prize 数据集可用作测试推荐算法的一种方式。两个数据集的基本问题是相同的:需要带外特征、必须组合具有不同权重的特征等。

      至于要阅读的额外书籍,我推荐“Programming Collective Intelligence”。我发现它写得很清楚,很有帮助。它还包括所有示例算法的代码。

      【讨论】:

      • 谢谢,我会检查的。
      猜你喜欢
      • 2012-05-28
      • 1970-01-01
      • 2011-03-18
      • 2013-02-28
      • 2018-10-21
      • 2014-06-10
      • 1970-01-01
      • 1970-01-01
      • 2012-12-19
      相关资源
      最近更新 更多