家庭自动化的强化学习[关闭]答案

【问题标题】：Reinforcement learning for home automation [closed]家庭自动化的强化学习[关闭]
【发布时间】：2021-03-02 17:59:48
【问题描述】：

我遇到了一个问题，我必须自动执行某些任务。假设根据用户在一周中的不同日子与设备的交互来打开和关闭设备。

假设我们有一个灯泡 B1 和一个用户 U1。在开始时，U1 会在他想要的时候打开和关闭灯泡 B1。例如，他可以在周日上午 9 点 10 分打开它，并在周日上午 11 点 15 分关掉它。同样，如果我们将 7 天分为 5 个时间单位，我们将得到 2,016 个单位时间。我们的系统必须以每 5 分钟为单位学习用户行为，并在学习 2 周后按照用户的习惯打开或关闭灯泡。

您认为这可以通过基于强化的学习技术来实现吗？还有其他机器学习算法建议吗？

它基本上是用于带有机器学习的大学项目的家庭自动化。

【问题讨论】：

标签： machine-learning unsupervised-learning timetable

【解决方案1】：

阅读您的问题时，我的第一个直觉是尝试贝叶斯推理方法，该方法使用单位时间内的均匀分布作为先验，用户行为作为证据。可以在here 找到一个很好的视觉解释。另外，你可以看看这个medium post。

【讨论】：

如果我让你知道你想说的是使用贝叶斯方法。为每个单元分配 1/2016 的概率？然后将每个用户事件视为证据并在此过程中不断更新？
您能多解释一下吗？
是的，但请记住，这只是最初的想法。如果您的先验是统一的，那么您的后验将受到您的证据的高度影响。对此进行建模的一种简单方法是在 2 周的学习期间计算每个时间单位中用户每次打开（例如）灯的时间。您将每个计数除以观察总数以生成概率质量函数。从中采样应该以某种方式模仿用户的行为。如果您想从不同的先验开始，可以查看初始响应中的链接。