【问题标题】:Movies dataset without ratings. How to rate? [closed]没有评分的电影数据集。如何评价? [关闭]
【发布时间】:2020-04-08 23:29:31
【问题描述】:
我有一个 +1M 行的电影数据集,其中包含以下列:
- user_id
- movie_id
- 电影名
- 类型
-
user_session_start(用户开始观看电影的日期和时间)
-
user_session_end(用户停止观看电影的日期和时间)
-
session_length(用户观看电影的时间,以分钟为单位)
但是,没有评分栏,我想根据上面的栏评分。我到处搜索,找不到这样做的方法。有什么想法吗?
【问题讨论】:
标签:
python
pandas
algorithm
machine-learning
math
【解决方案1】:
您所描述的称为“数据标记”。假设您想创建一个机器学习模型,用于预测电影的评分,我相信您正在努力实现这一目标。
要训练这样的模型,您需要向其展示带标签的数据,并且这些标签必须真实可靠,而不仅仅是随机编造的。想象一下,如果您随机标记您的训练数据,您怎么能期望您的 ML 模型正确预测实际评分?
因此,简而言之,您需要找到一个包含评分的数据集来训练模型,然后您可以使用没有评分的匹配数据集来使用您的模型生成它们。
另外,Amazon Mechanical Turk (https://www.mturk.com/) 等平台允许您支付少量费用,让人工为您的数据添加标签。
这有帮助吗?