社群AI研究院正在透过教导机器人自主学习的计划,来探索新技术,进而突破AI能力的限制,该计划透过自我监督学习法,解决了一些机器人领域的挑战,像是开发出能够自由走动、探索周遭环境且操作物体的机器人,该机器人研究将能够协助开发者,建立学习效率更高、更通用的AI系统。社群指出,要增进AI的能力,机器人提供了重要的机会,包含行走型的六足机器人、关节手臂机器人和搭载触觉传感器的机器人手臂,因为教导机器在真实的世界中自主学习,可以帮助研究人员开发出在其他场景中,更具有能力和灵活性的AI系统。与其他领域的AI研究相同,大部分的机器人研究也聚焦于自我监督(self-supervised learning)学习的方法,也就是使系统直接从原始数据学习,不需要透过针对特定任务结构化训练数据来学习,因此自我监督系统更能胜任新任务和环境,为了通用的机器人系统,社群改善了以模型为基础的强化学习技术,让机器人直接用传感器输入的数据,透过尝试错误法,自己学习应对真实世界的能力。
首先,为了突破机器独立学习的能力,社群开发一套以模型为基础的强化学习方法,在不给机器人特定任务信息或是训练的情况下,使六足机器人学会走路,机器人一开始学习时,没有任何环境或是物理的信息,而是透过数据高效率(data-efficient)的强化学习算法,使控制器学习如何实验目标输出,像是自我移动,在自我学习的过程中,当机器人产生数据时,模型会依据奖励优化并改善其表现。社群表示,要学习如何行走是非常具有挑战性的,因为机器人必须借助身上的传感器,从平衡、位置和空间导航中推理,但是因为传感器收集的数据有噪声,使得计算工作变得有难度,而有时会发生错误,社群的目标即是要减少机器人学习走路的互动次数,将学习时间从数天甚至数周,缩短成数小时内,该研究成果不仅能够帮助机器人研究,还能改善其他强化学习的应用,像是A/B测试或是任务排程。
好奇心是人类学习的主要动力,社群最近与纽约大学共同的研究中,将上述的概念,应用于改善机器人如何在现实世界中学习,具有好奇心的AI系统,会在探索和尝试新事物时,以及在完成特定目标时,获得奖励,而过去类似的系统是用随机的方式探索环境,社群则是用结构化的方式,来找寻满足机器人好奇心的方法,因而减少模型的不确定性,目前社群已经将这项技术用在模拟和真实世界的机器人手臂系统中。社群的方法不同于其他好奇心驱动的机器人研究,社群明确地优化不确定性的行动,为了在动态模型中针对探索不确定性的动作,给予较高的奖励,社群将模型预测的变量也纳入奖励评估的函数中,如此一来,机器人系统就能察觉模型的不确定性,并针对奖励最大化和减少模型不确定性,进行动作序列优化,使得机器人更能够处理新任务和情况,透过该方法,机器人系统能够产生许多多元的新数据,且学习速度也会提升,在一些案例中,只需要数十次的迭代就能完成学习,不需要经过数百或是数千次。相关内文来源:sbf胜博发票务 http://www.ktnetks.com.tw
大多数的机器人主要都仰赖计算机视觉技术,但是触觉也是一项重要又复杂的研究领域,在操作物体的任务中,若物体在视觉上被遮蔽,机器人就能透过触觉传感器来完成该任务,社群与加州大学柏克莱分校合作,开发一套从触觉完成目标的自我监督学习法,且没有透过特定任务的训练数据,社群利用影片预测模型来优化控制策略模型,该预测模型不需要奖励机制,而是利用系统探索环境的多种互动,实验结果显示,机器人能够完成一系列复杂的触觉任务,包含滚球、移动操作杆,以及在20面的骰子中辨识出正确的面。