使用越来越多的反馈更新 Beta 分布的 alpha 和 beta 参数答案

【问题标题】：Updating alpha and beta parameters for Beta distribution with more and more feedback使用越来越多的反馈更新 Beta 分布的 alpha 和 beta 参数
【发布时间】：2020-05-27 18:01:11
【问题描述】：

我正在根据客户对我的大学项目的反馈对在线内容进行排名。为此，我将每个内容与之前的 alpha 和 beta 参数相关联，并根据我得到的反馈更新它们。随着我模拟越来越多的试验，alpha 和 beta 参数的值不断增加。我希望我的模型对最近的客户行为更具反应性，因此在我的更新中，我将先验参数衰减 0.9 倍，并将最后一天的 alpha、beta 相加（作为一阶非齐次线性差分方程）。

由于衰减，模型忘记了某些内容是次优的，并尝试再次探索它，从而导致一些循环行为。有没有更好的方法来解决这个问题？我试着只看上个月的数据来构建我的分布，但这似乎也很“健忘”。如何防止 alpha/beta 变得太大，同时确保模型具有反应性并且不会忘记次优策略？

【问题讨论】：

标签： machine-learning math statistics reinforcement-learning beta-distribution

【解决方案1】：

无论您对模型进行何种更改，总是需要在它的反应性和保留多少内存之间进行权衡。模型不可能保留所有内容并仍然赶上客户行为。例如，如果模型保留了所有内容，即使客户行为发生了变化，它也没有理由尝试其他武器。另一方面，为了保持反应，模型确实需要不断尝试次优臂来检查其中一个臂是否没有变得最优，即使这可能会导致一些额外的遗憾。请注意，在非固定设置中，它无法像固定设置那样执行。

您已经尝试了两种标准方法来赋予新数据更多的权重：折扣（系数为 0.9）和仅考虑过去 n 天的数据。如果您发现使用这些参数值会使您的模型过于健忘，您可以尝试增加折扣因子或数字 n（您考虑的天数）。

随着您增加这些参数，您的模型会变得不那么健忘和反应迟钝。你需要找到适合你的价值观。此外，可能无法同时达到您希望的反应量和健忘量。

希望这会有所帮助！

【讨论】：