【发布时间】:2020-04-08 07:23:45
【问题描述】:
我有两个关于在 Vowpal Wabbit 中使用上下文强盗模式的快速问题。
1) --cb 模式是否输出确定性策略,贪婪地选择给定训练数据集学习的最佳动作?因此,选择动作的概率为 1,其他所有的概率为 0。
2) 我想知道--cb_explore的政策学习过程背后的理论背景是什么。我知道-cb的策略学习过程来自https://arxiv.org/pdf/1103.4601.pdf。 --cb_explore 是否使用相同的流程?由于--cb_explore基本上是一个非平稳策略,我认为它应该使用不同的过程。
【问题讨论】:
标签: vowpalwabbit