【问题标题】:How do I calculate popularity of content?如何计算内容的流行度?
【发布时间】:2013-07-23 16:46:58
【问题描述】:

我正在开发一个用户对内容进行评分(1-5 星)的网站。我需要衡量内容的受欢迎程度(也称为重要性/热度/兴趣)。我的第一个想法就是为内容添加用户评分:

人气 = SUM(评分 - 2.5)

如果两个用户给它 5 星,一个给它 2 星,那么它的受欢迎程度为 2.5+2.5-0.5 = 4.5。然后,根据内容的年龄,该值会受到抑制。我希望它尽可能准确,所以我想知道这是否“足够好”,或者是否有更好的方法,例如分析收视率的分布,或者我是否必须引入更多指标(观看次数、cmets、分享、花费在内容上的时间等)。

【问题讨论】:

  • 您可能想尝试仅计算平均值。

标签: math statistics metrics data-analysis rating-system


【解决方案1】:

有点经典的问题,这个。你的方法很好,但它是否考虑到分数的可靠性?你暗示那不是。

帖子获得的评分越多,评分就越可靠地告诉您价值。

另一方面,一个单一的差评级是不可信的。

能够解释您的数据集的可靠性,并通过计算它告诉我们的内容来说明统计数据中的贝叶斯。您需要贝叶斯平均值:请参阅这些文章 hereexcellent set of resources here

由于这是一个堆栈溢出问题,here 是许多关于如何计算平均值的典型 SO 问题之一。

Here 是一本好书,如果您想了解这个古老金块的历史和哲学维度。

【讨论】:

  • 我使用贝叶斯估计来计算内容的平均评分(不是我应该的流行度)。
  • 啊哈- 听起来你可能只是把概念弄错了。我把它告诉你——真正的“平均评级”不是贝叶斯,是吗?它应该只是平均值/期望值等等......等等..取决于场景。然而,流行引入了一个主观维度,该维度只能在公式中由贝叶斯先验来表示。你怎么看?我是意识形态吗?还是我们只是对人气有不同的概念?
  • 这是一个很难的概念,我相信正式术语是“重要性”,它不同于“性能”(更类似于平均评级)..问题是评级可以作为指标重要性和性能,因为用户根据“我喜欢这个”或“我不喜欢这个”的感觉对事物进行评分 - 即 1 星评级可能意味着“我对此不感兴趣”和/或“这个质量”内容很差”。
  • 澄清一下,贝叶斯估计是质量/性能的指标。我希望通过查看收视率和收视率来衡量受欢迎程度/重要性..
  • 它不需要是任何特定事物的度量——它是基于度量的指标,所以如果需要,让我们将相同的想法应用于其他度量!你有什么?你认为什么是重要的?
【解决方案2】:

首先,流行度不是一个定义明确的概念。有人可能会认为它与收视率成正比,但我也可以说“电影A很受欢迎,因为每个人都看过它,但它的质量却没有预期的那么好。”。这样一来,收视率就很多了,但总体来说收视率不是太好。

您可以以一种简单的方式测量每部电影的收视率与全球平均值的平均偏移量。

以更复杂的方式,您还应该考虑有多少评级,这很难制定。

通常,如果您正在构建推荐系统,您会使用项目相似度或用户相似度等。这是因为它们是相对的。默认情况下,流行度应该是有界的绝对规模,这很难为推荐制定正确的公式。

如果您要使用推荐系统,我建议您阅读以下论文:

http://www.grouplens.org/node/475

【讨论】:

  • 我正在构建一个聚合网站,该网站应该推广流行的和优质的内容。那么“收视率与全球平均数的平均偏移量”意味着对内容的正面/负面反应越强烈,其受欢迎程度就会上升?
  • 我不确定为什么在这种情况下必须出现“流行”一词。我认为重要的是从用户的角度来看什么是好的。如果我们有该用户偏好的数据,则可以个性化查询输出。如果不是,我们可以取用户配置文件的全局平均值,它成为“评分与全局平均值的平均偏移量”。正偏移意味着用户在评分指标上的整体积极反应。它意味着“我们所知道的整体用户喜欢这部电影”,而不是“有很多用户都知道这部电影有充分的理由”。
  • 强烈建议您看一下我上面给出的论文的第 2 章。
猜你喜欢
  • 2015-01-21
  • 1970-01-01
  • 1970-01-01
  • 2020-09-23
  • 2015-10-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-01-17
相关资源
最近更新 更多