社群让机器人自主学习目标是突破AI能力限制

社群AI研究院正在透过教导机器人自主学习的计划，来探索新技术，进而突破AI能力的限制，该计划透过自我监督学习法，解决了一些机器人领域的挑战，像是开发出能够自由走动、探索周遭环境且操作物体的机器人，该机器人研究将能够协助开发者，建立学习效率更高、更通用的AI系统。社群指出，要增进AI的能力，机器人提供了重要的机会，包含行走型的六足机器人、关节手臂机器人和搭载触觉传感器的机器人手臂，因为教导机器在真实的世界中自主学习，可以帮助研究人员开发出在其他场景中，更具有能力和灵活性的AI系统。与其他领域的AI研究相同，大部分的机器人研究也聚焦于自我监督（self-supervised learning）学习的方法，也就是使系统直接从原始数据学习，不需要透过针对特定任务结构化训练数据来学习，因此自我监督系统更能胜任新任务和环境，为了通用的机器人系统，社群改善了以模型为基础的强化学习技术，让机器人直接用传感器输入的数据，透过尝试错误法，自己学习应对真实世界的能力。

首先，为了突破机器独立学习的能力，社群开发一套以模型为基础的强化学习方法，在不给机器人特定任务信息或是训练的情况下，使六足机器人学会走路，机器人一开始学习时，没有任何环境或是物理的信息，而是透过数据高效率（data-efficient）的强化学习算法，使控制器学习如何实验目标输出，像是自我移动，在自我学习的过程中，当机器人产生数据时，模型会依据奖励优化并改善其表现。社群表示，要学习如何行走是非常具有挑战性的，因为机器人必须借助身上的传感器，从平衡、位置和空间导航中推理，但是因为传感器收集的数据有噪声，使得计算工作变得有难度，而有时会发生错误，社群的目标即是要减少机器人学习走路的互动次数，将学习时间从数天甚至数周，缩短成数小时内，该研究成果不仅能够帮助机器人研究，还能改善其他强化学习的应用，像是A/B测试或是任务排程。

好奇心是人类学习的主要动力，社群最近与纽约大学共同的研究中，将上述的概念，应用于改善机器人如何在现实世界中学习，具有好奇心的AI系统，会在探索和尝试新事物时，以及在完成特定目标时，获得奖励，而过去类似的系统是用随机的方式探索环境，社群则是用结构化的方式，来找寻满足机器人好奇心的方法，因而减少模型的不确定性，目前社群已经将这项技术用在模拟和真实世界的机器人手臂系统中。社群的方法不同于其他好奇心驱动的机器人研究，社群明确地优化不确定性的行动，为了在动态模型中针对探索不确定性的动作，给予较高的奖励，社群将模型预测的变量也纳入奖励评估的函数中，如此一来，机器人系统就能察觉模型的不确定性，并针对奖励最大化和减少模型不确定性，进行动作序列优化，使得机器人更能够处理新任务和情况，透过该方法，机器人系统能够产生许多多元的新数据，且学习速度也会提升，在一些案例中，只需要数十次的迭代就能完成学习，不需要经过数百或是数千次。相关内文来源：sbf胜博发票务 http://www.ktnetks.com.tw

大多数的机器人主要都仰赖计算机视觉技术，但是触觉也是一项重要又复杂的研究领域，在操作物体的任务中，若物体在视觉上被遮蔽，机器人就能透过触觉传感器来完成该任务，社群与加州大学柏克莱分校合作，开发一套从触觉完成目标的自我监督学习法，且没有透过特定任务的训练数据，社群利用影片预测模型来优化控制策略模型，该预测模型不需要奖励机制，而是利用系统探索环境的多种互动，实验结果显示，机器人能够完成一系列复杂的触觉任务，包含滚球、移动操作杆，以及在20面的骰子中辨识出正确的面。