【问题标题】:Training ML classifier for a group of users为一组用户训练 ML 分类器
【发布时间】:2014-11-19 03:46:45
【问题描述】:

我有一个机器学习项目,考虑到一组用户对一组在线文章的反应(以喜欢/不喜欢的方式显示),我需要为新到达的文章做出决定。

任务规定,根据每个人的反应,能够预测是否应考虑将新到达的文章推荐给整个社区。​​p>

我一直在想,我应该如何结合每个用户的反馈来决定这篇文章是否值得推荐。

请记住,在用户的反应中,会有用户喜欢和不喜欢同一篇文章,有没有办法整合所有这些信息并得出关于文章的结论?

提前谢谢你。

【问题讨论】:

    标签: machine-learning nlp


    【解决方案1】:

    有很多不同的方法可以确定什么是“有趣的”。我认为 reddit 有一个很好的模型来考虑不同的选择。它们有不同的类别,例如“热门”或“有争议”等。

    所以有几个选项取决于您/您的教授想要什么:

    • 取净喜欢的次数(喜欢 = +1,不喜欢 = -1)
    • 只取点赞数
    • 获取总评分(谁读过)
    • 选择喜欢与不喜欢百分比最高的那些
    • 这些东西的某种组合

    等等

    因此,您可以尝试很多不同的方法。也许尝试一些,看看哪个产生的结果最符合您的要求?

    就如何预测文章是否与您已有信息的文章进行比较而言,这是一个更广泛的问题,但我认为这不是您要问的,并且看起来这就是机器学习项目的意义所在。

    【讨论】:

      【解决方案2】:

      我不确定以这种方式推荐文章是否好,但如果这是您的要求,那么让我建议您一种方法。

      方法:
      首先,为每篇文章根据喜欢和不喜欢的数量给出一个标签(喜欢/不喜欢)。现在你有一组带有喜欢/不喜欢标签的文章。根据这些数据,您需要确定新文章的标签是否喜欢/不喜欢。这属于简单的线性分类问题,可以使用任何开源的机器学习框架来解决。

      让我们说,我们有
      - n 组中的用户数
      - m 文章数

      样本数据

      user1 文章1 喜欢
      用户 1 文章 2 不喜欢
      用户 2 文章 3 不喜欢
      ....
      用户文章m喜欢

      实施

      for each article    
          count the number of likes    
          count the nubmer of dislikes    
          if no. of likes > no. of dislikes, 
             lable = like    
          else  
             lable = dislike       
      

      将此输入(带有标签的文章)提供给朴素贝叶斯(或任何)分类器以构建模型。
      用这个模型分类,新文章。

      输出:喜欢/不喜欢,如果你喜欢推荐这篇文章。

      已知问题
      1. 什么是一半用户喜欢和另一半不喜欢文章,你会认为它是喜欢还是不喜欢?
      2.什么是11个用户不喜欢和10个用户喜欢,可以认为这是不喜欢吗?

      作为需求说明的一部分,您或您的客户应回答此类问题。

      【讨论】:

        猜你喜欢
        • 2013-04-11
        • 2016-08-07
        • 2017-08-10
        • 2013-04-20
        • 2013-06-13
        • 2015-09-21
        • 1970-01-01
        • 2014-05-28
        • 2017-11-21
        相关资源
        最近更新 更多