【发布时间】:2018-04-19 05:51:54
【问题描述】:
我正在尝试根据他们迄今为止进行的比赛的游戏数据来预测视频游戏的玩家是否会在下个月内停止玩游戏(0/1 表示不停止/停止)。
球员参加的每场比赛都会产生 (X) 个数据点,但是,每个球员迄今为止可能参加了不同数量的比赛 (M),因此当球员的数据被放入一个长向量时,他们的向量的长度将是 X*M。
我对神经网络的工作方式非常陌生,但据我了解,数据集的每一行必须具有相同的列数。这是真的吗?
鉴于我的问题,我集思广益提出了三种可能的解决方案,每种解决方案都做出了某种妥协...
[可能的解决方案1:聚合数据]
我考虑过将匹配数据聚合为一种解决方案,例如,而不是“第 1 场比赛中的点数,第 2 场比赛中的点数,...,第 n 场比赛中的点数”,而只是“每场比赛的平均点数”。但是我担心这不是最好的折衷方案,因为平均某些数据会影响分辨率(即作为游戏中的一个角色获得很多分数与作为另一个角色获得很多分数可能是一个有用的差异)。
[可能的解决方案 2:为缺失的数据添加零]
也许如果我有球员 A 打了 6 场比赛,而球员 B 到目前为止只打了 5 场比赛,我可以添加零以使球员 B 的向量与球员 A 的向量一样长。但是我担心像这样添加零就像给我的数据添加大量噪音一样。
[可能的解决方案 3:将数据修剪为相同大小]
我可以为每个要包含的玩家向量设置特定数量的匹配项,例如 10 个匹配项。因此,如果玩家的匹配数少于 10 个,他们将从数据集中删除,或者如果玩家的匹配数超过 10 个,则只有他们的前 10 个匹配项会出现在数据集中。这里唯一的缺点是,真正预测标签为 1(停止比赛)的球员是只打了 10 场比赛的球员......但我不仅对预测感兴趣,我显然想要一个更一般的预测。
如何在不等长的向量上训练神经网络???
【问题讨论】:
-
为什么要投反对票?说明太长?? :(
标签: neural-network deep-learning