管理深度 Q 学习中的时间限制

【问题标题】：Managing time limit in Deep Q-learning管理深度 Q 学习中的时间限制
【发布时间】：2020-04-01 19:04:09
【问题描述】：

我正在尝试实现 python 的深度强化学习程序，其中代理必须在时间限制到期之前解决问题（接近目标）。管理时间的最佳方法是什么？将剩余时间作为神经网络的输入传递是个好主意吗？我试图这样做（剩余时间作为描述环境状态的条目之一）但算法没有收敛......

任何想法或提示？非常感谢！！

【问题讨论】：

标签： time deep-learning reinforcement-learning q-learning

【解决方案1】：

假设你正在尝试实现深度 q 学习，我认为最好从奖励中减去剩余时间，例如：

Q_target = (reward-time_remaining)+gamma*max(Q(s',a))

【讨论】：

猜你喜欢

深度 Q 学习修改 1970-01-01
深度 Q 学习：torch.nn.functional.softmax 崩溃 2023-05-25
深度 Q 学习**没有** OpenAI Gym 1970-01-01
深度 Q 学习的输入状态 2021-01-20
关于深度 Q 学习的问题 1970-01-01
网格世界的深度 Q 学习 2023-05-04
贪吃蛇游戏的深度 Q 学习 2019-06-15
计算深度学习模型的处理时间 1970-01-01
深度 Q 学习 - 训练显着减慢 2020-03-24

相关资源

MindSpore深度学习框架 v1.2.0下载 2023-02-10
PaddlePaddle深度学习平台源码 v2.0.1下载 2023-07-06
深度ASP学习下载程序 v0.0.1下载 2023-08-12

最近更新更多

为什么 sizeof(char + char) 返回 4？ 2025-11-21
是否可以使用 while(my($key, $value) ... ) {} 方法按排序顺序遍历哈希？ 2025-11-21
尝试加载 SqlServerSpatial140.dll 时出现错误 2025-11-21
FlatBuffers：使用联合发送多种数据包类型 2025-11-21
由于具体类和接口没有匹配 IEnumerable<T> 和 List<T> 的返回类型而导致的错误 2025-11-21

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式