(Vowpal Wabbit) 上下文强盗问题中的 cb 模式答案

【问题标题】：(Vowpal Wabbit) cb mode in contextual bandit problem(Vowpal Wabbit) 上下文强盗问题中的 cb 模式
【发布时间】：2020-04-08 07:23:45
【问题描述】：

我有两个关于在 Vowpal Wabbit 中使用上下文强盗模式的快速问题。

1) --cb 模式是否输出确定性策略，贪婪地选择给定训练数据集学习的最佳动作？因此，选择动作的概率为 1，其他所有的概率为 0。

2) 我想知道--cb_explore的政策学习过程背后的理论背景是什么。我知道-cb的策略学习过程来自https://arxiv.org/pdf/1103.4601.pdf。 --cb_explore 是否使用相同的流程？由于--cb_explore基本上是一个非平稳策略，我认为它应该使用不同的过程。

【问题讨论】：

标签： vowpalwabbit

【解决方案1】：

快速解答：

基本上是的，给定特定上下文，具有最佳（已知）奖励的行动获胜。但是请注意，使用--cb 进行学习也支持--epsilon <portion>（epsilon-greedy 算法进行探索）。在首次学习期间，动作空间的一部分用于进一步探索（而不是对已知内容的纯粹贪婪利用）。
支持多种探索vs-exploitation算法以及每种算法的一些进一步超参数，具体取决于命令行选项

更详细的答案来自vowpalwabbit.org

注意：vowpalwabbit.org 是一个很好的资源，可以在vw 中获取有关上下文强盗的更多信息。

Vowpal Wabbit 支持三 (3) 个上下文强盗基础算法：

--cb contextual bandit 模块，可让您根据已收集的数据或无需探索的上下文 bandit 优化预测器。
--cb_explore 上下文强盗学习算法，用于在提前知道最大动作数量并且动作语义在示例之间保持相同时。
--cb_explore_adf 上下文强盗学习算法，适用于动作集随时间变化或您对每个动作都有丰富信息的情况。 Vowpal Wabbit 为上下文强盗提供不同的输入格式。

当探索生效时，Vowpal Wabbit 提供五 (5) 种探索算法：

先探索：--first
Epsilon-贪婪：--epsilon
装袋浏览器：--bag
在线封面：--cover
Softmax Explorer：--softmax（仅支持--cb_explore_adf）

工作示例包括：

完整的命令行
输入数据
预期输出

对于每个选项，可以在文件tests/RunTests 的源代码树中找到，向下滚动到__DATA__ 部分以查找许多命令示例。

【讨论】：

-cb 的基线学习者是什么？对 vw.learn() 的每次调用都必须获取一些 F(context, action) = Reward，并且选择给出最大奖励的操作进行推荐。但是在训练期间，“F”默认是什么（线性、神经网络、树等）？