【问题标题】:(Vowpal Wabbit) cb mode in contextual bandit problem(Vowpal Wabbit) 上下文强盗问题中的 cb 模式
【发布时间】:2020-04-08 07:23:45
【问题描述】:

我有两个关于在 Vowpal Wabbit 中使用上下文强盗模式的快速问题。

1) --cb 模式是否输出确定性策略,贪婪地选择给定训练数据集学习的最佳动作?因此,选择动作的概率为 1,其他所有的概率为 0。

2) 我想知道--cb_explore的政策学习过程背后的理论背景是什么。我知道-cb的策略学习过程来自https://arxiv.org/pdf/1103.4601.pdf--cb_explore 是否使用相同的流程?由于--cb_explore基本上是一个非平稳策略,我认为它应该使用不同的过程。

【问题讨论】:

    标签: vowpalwabbit


    【解决方案1】:

    快速解答:

    1. 基本上是的,给定特定上下文,具有最佳(已知)奖励的行动获胜。但是请注意,使用--cb 进行学习也支持--epsilon <portion>epsilon-greedy 算法进行探索)。在首次学习期间,动作空间的一部分用于进一步探索(而不是对已知内容的纯粹贪婪利用)。
    2. 支持多种探索vs-exploitation算法以及每种算法的一些进一步超参数,具体取决于命令行选项

    更详细的答案来自vowpalwabbit.org

    注意:vowpalwabbit.org 是一个很好的资源,可以在vw 中获取有关上下文强盗的更多信息。

    Vowpal Wabbit 支持三 (3) 个上下文强盗基础算法:

    1. --cb contextual bandit 模块,可让您根据已收集的数据或无需探索的上下文 bandit 优化预测器。
    2. --cb_explore 上下文强盗学习算法,用于在提前知道最大动作数量并且动作语义在示例之间保持相同时。
    3. --cb_explore_adf 上下文强盗学习算法,适用于动作集随时间变化或您对每个动作都有丰富信息的情况。 Vowpal Wabbit 为上下文强盗提供不同的输入格式。

    当探索生效时,Vowpal Wabbit 提供五 (5) 种探索算法:

    • 先探索:--first
    • Epsilon-贪婪:--epsilon
    • 装袋浏览器:--bag
    • 在线封面:--cover
    • Softmax Explorer:--softmax(仅支持--cb_explore_adf

    工作示例包括:

    • 完整的命令行
    • 输入数据
    • 预期输出

    对于每个选项,可以在文件tests/RunTests 的源代码树中找到,向下滚动到__DATA__ 部分以查找许多命令示例。

    【讨论】:

    • -cb 的基线学习者是什么?对 vw.learn() 的每次调用都必须获取一些 F(context, action) = Reward,并且选择给出最大奖励的操作进行推荐。但是在训练期间,“F”默认是什么(线性、神经网络、树等)?
    猜你喜欢
    • 2017-05-31
    • 2015-08-06
    • 2020-04-22
    • 2021-10-13
    • 2015-04-11
    • 2015-09-16
    • 2022-01-09
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多