【问题标题】:Updating alpha and beta parameters for Beta distribution with more and more feedback使用越来越多的反馈更新 Beta 分布的 alpha 和 beta 参数
【发布时间】:2020-05-27 18:01:11
【问题描述】:
我正在根据客户对我的大学项目的反馈对在线内容进行排名。为此,我将每个内容与之前的 alpha 和 beta 参数相关联,并根据我得到的反馈更新它们。
随着我模拟越来越多的试验,alpha 和 beta 参数的值不断增加。我希望我的模型对最近的客户行为更具反应性,因此在我的更新中,我将先验参数衰减 0.9 倍,并将最后一天的 alpha、beta 相加(作为一阶非齐次线性差分方程)。
由于衰减,模型忘记了某些内容是次优的,并尝试再次探索它,从而导致一些循环行为。有没有更好的方法来解决这个问题?我试着只看上个月的数据来构建我的分布,但这似乎也很“健忘”。如何防止 alpha/beta 变得太大,同时确保模型具有反应性并且不会忘记次优策略?
【问题讨论】:
标签:
machine-learning
math
statistics
reinforcement-learning
beta-distribution
【解决方案1】:
无论您对模型进行何种更改,总是需要在它的反应性和保留多少内存之间进行权衡。模型不可能保留所有内容并仍然赶上客户行为。例如,如果模型保留了所有内容,即使客户行为发生了变化,它也没有理由尝试其他武器。另一方面,为了保持反应,模型确实需要不断尝试次优臂来检查其中一个臂是否没有变得最优,即使这可能会导致一些额外的遗憾。
请注意,在非固定设置中,它无法像固定设置那样执行。
您已经尝试了两种标准方法来赋予新数据更多的权重:折扣(系数为 0.9)和仅考虑过去 n 天的数据。如果您发现使用这些参数值会使您的模型过于健忘,您可以尝试增加折扣因子或数字 n(您考虑的天数)。
随着您增加这些参数,您的模型会变得不那么健忘和反应迟钝。你需要找到适合你的价值观。此外,可能无法同时达到您希望的反应量和健忘量。
希望这会有所帮助!