为一组用户训练 ML 分类器答案

【问题标题】：Training ML classifier for a group of users为一组用户训练 ML 分类器
【发布时间】：2014-11-19 03:46:45
【问题描述】：

我有一个机器学习项目，考虑到一组用户对一组在线文章的反应（以喜欢/不喜欢的方式显示），我需要为新到达的文章做出决定。

任务规定，根据每个人的反应，能够预测是否应考虑将新到达的文章推荐给整个社区。p>

我一直在想，我应该如何结合每个用户的反馈来决定这篇文章是否值得推荐。

请记住，在用户的反应中，会有用户喜欢和不喜欢同一篇文章，有没有办法整合所有这些信息并得出关于文章的结论？

提前谢谢你。

【问题讨论】：

标签： machine-learning nlp

【解决方案1】：

有很多不同的方法可以确定什么是“有趣的”。我认为 reddit 有一个很好的模型来考虑不同的选择。它们有不同的类别，例如“热门”或“有争议”等。

所以有几个选项取决于您/您的教授想要什么：

取净喜欢的次数（喜欢 = +1，不喜欢 = -1）
只取点赞数
获取总评分（谁读过）
选择喜欢与不喜欢百分比最高的那些
这些东西的某种组合

等等

因此，您可以尝试很多不同的方法。也许尝试一些，看看哪个产生的结果最符合您的要求？

就如何预测新文章是否与您已有信息的文章进行比较而言，这是一个更广泛的问题，但我认为这不是您要问的，并且看起来这就是机器学习项目的意义所在。

【讨论】：

【解决方案2】：

我不确定以这种方式推荐文章是否好，但如果这是您的要求，那么让我建议您一种方法。

方法：
首先，为每篇文章根据喜欢和不喜欢的数量给出一个标签（喜欢/不喜欢）。现在你有一组带有喜欢/不喜欢标签的文章。根据这些数据，您需要确定新文章的标签是否喜欢/不喜欢。这属于简单的线性分类问题，可以使用任何开源的机器学习框架来解决。

让我们说，我们有
- n 组中的用户数
- m 文章数

样本数据

user1 文章1 喜欢
用户 1 文章 2 不喜欢
用户 2 文章 3 不喜欢
....
用户文章m喜欢

实施：

for each article    
    count the number of likes    
    count the nubmer of dislikes    
    if no. of likes > no. of dislikes, 
       lable = like    
    else  
       lable = dislike

将此输入（带有标签的文章）提供给朴素贝叶斯（或任何）分类器以构建模型。
用这个模型分类，新文章。

输出：喜欢/不喜欢，如果你喜欢推荐这篇文章。

已知问题：
1. 什么是一半用户喜欢和另一半不喜欢文章，你会认为它是喜欢还是不喜欢？
2.什么是11个用户不喜欢和10个用户喜欢，可以认为这是不喜欢吗？

作为需求说明的一部分，您或您的客户应回答此类问题。

【讨论】：