学习最佳参数以最大化奖励答案

【问题标题】：Learning Optimal Parameters to Maximize a Reward学习最佳参数以最大化奖励
【发布时间】：2011-07-30 06:08:58
【问题描述】：

我有一组示例，每个示例都带有特征数据的注释。示例和功能描述了任意域中的实验设置（例如，切换次数、执行天数、参与者数量等）。某些功能是固定的（即静态的），而其他功能我可以在以后的实验中手动设置（即可变）。每个示例还具有“奖励”特征，它是一个介于 0 和 1 之间的连续数字，表示由专家确定的实验成功。

基于此示例集，并为未来的实验提供一组静态特征，我将如何确定用于特定变量的最佳值以最大化奖励？

另外，这个过程有正式名称吗？我做了一些研究，这听起来类似于regression analysis，但我仍然不确定它是否是同一件事。

【问题讨论】：

【解决方案1】：

该进程称为“design of experiments”。可以使用多种技术，具体取决于参数的数量，以及您是否能够在试验之间进行计算，或者您是否必须提前选择所有治疗方法。

根据实验中的数据建立回归模型后，您可以通过应用常用的数值优化技术找到最佳值。

【讨论】：