教AI好奇如何帮助机器自己学习

时间:2022-03-11 17:36:48 来源：网易阅读量：8843

玩视频游戏，是什么促使你继续。

这个问题可能过于宽泛，无法给出一个单一的答案，但如果你必须总结为什么你接受下一个任务，跳到一个新的关卡，或者洞穴并再玩一个回合，最简单的解释可能是好奇——只是想看看接下来会发生什么事实证明，在教 AI 玩电子游戏时，好奇心也是一个非常有效的激励因素

在没有奖励的游戏中，教 AI 很困难

研究发表在本周的人工智能实验室OpenAI解释了AI剂的好奇感如何跑赢它的前辈玩经典的1984年雅达利游戏蒙特祖马的复仇熟练掌握蒙特祖玛的复仇并不等同于击败围棋或Dota 2的里程碑，但它仍然是一个显着的进步当谷歌拥有的 DeepMind 发表了2015 年的开创性论文，解释了它如何使用深度学习击败了许多 Atari 游戏时，Montezuma's Revenge是唯一一款得分为 0 的游戏

游戏难的原因在于其玩法与 AI 智能体的学习方式不匹配，这也暴露了机器学习的世界观存在盲点。

通常，人工智能代理依靠一种称为强化学习的训练方法来掌握视频游戏在这种范式中，代理被丢入虚拟世界，并因某些结果而获得奖励，并因其他结果而受到惩罚代理开始随机玩游戏，但通过反复试验学习改进其策略强化学习通常被认为是构建更智能机器人的关键方法

Montezuma's Revenge的问题在于它没有为 AI 代理提供定期奖励这是一款解谜平台游戏，玩家必须探索地下金字塔，躲避陷阱和敌人，同时收集解锁门和特殊物品的钥匙如果你正在训练一个 AI 代理打游戏，你可以奖励它活着并收集钥匙，但你如何教它为某些物品保存某些钥匙，并使用这些物品克服陷阱并完成关卡

答案:好奇。

在 OpenAI 的研究中，他们的代理不仅因为跳过了尖峰坑，还因为探索了金字塔中的新部分而获得了奖励这导致了比人类更好的表现，机器人在九次运行中的平均得分为 10，000在一次运行中，它甚至完成了游戏九个级别中的第一个

肯定还有很多工作要做，OpenAI 的 Harrison Edwards 告诉The Verge但我们目前拥有的是一个系统，可以探索很多房间，获得很多奖励，偶尔还能通过第一关他补充说，游戏的其他关卡与第一关类似，因此通关只是时间问题

解决嘈杂的电视问题

OpenAI远不是第一个尝试这种方法的实验室，几十年来，人工智能研究人员一直在利用好奇心的概念作为动力他们之前也将其应用于蒙特祖玛的复仇，尽管如果不教人工智能从人类示例中学习，就从未如此成功

可是，虽然这里的一般理论已经确立，但构建具体的解决方案仍然具有挑战性例如，基于预测的好奇心仅在学习玩某些类型的游戏时才有用它适用于像马里奥这样的游戏，例如，有很大的关卡需要探索，充满了前所未见的老板和敌人但对于像Pong这样简单的游戏，AI 代理更喜欢玩长距离的拉力赛，而不是真正击败他们的对手

人工智能可能会像人类一样沉迷于随机奖励

另一个问题是嘈杂的电视问题，即被编程为寻找新体验的人工智能代理会沉迷于随机模式，例如调谐到静态噪声的电视这是因为这些代理人对什么是有趣和新的感觉来自于他们预测未来的能力在他们采取某种行动之前，他们会预测游戏之后的样子如果他们猜对了，他们很可能以前看过这部分游戏这种机制被称为预测误差

但是由于静态噪音是不可预测的，结果是任何面对这样的电视的 AI 代理都会被迷住OpenAI 将这个问题与沉迷于老虎机的人类赌徒进行了比较，他们无法摆脱自己，因为他们不知道接下来会发生什么

GIF:OpenAI

这个 GIF 显示了一个 AI 代理探索迷宫并被随机闪烁的图像分散注意力。

OpenAI 的这项新研究通过改变 AI 预测未来的方式来回避这个问题确切的方法很复杂，但 Edwards 和他的同事 Yuri Burda 将其比作隐藏一个秘密，让 AI 在游戏的每个屏幕中找到这个秘密是随机且毫无意义的，但它会激励代理进行探索，而不会使其容易受到嘈杂电视陷阱的影响

更重要的是，这个动机不需要大量的计算，这非常重要这些强化学习方法依赖于大量数据来训练 AI 代理，因此旅程的每一步都需要尽可能快

它实际上比其他探索方法要简单得多。

Unity 的软件工程师和机器学习专家 Arthur Juliani 说，这就是让 OpenAI 的工作令人印象深刻的原因他们使用的方法非常简单，因此非常有效，Juliani 告诉The Verge它实际上比过去应用于游戏的其他探索方法要简单得多并没有带来几乎令人印象深刻的结果)

Juliani 表示，鉴于Montezuma's Revenge 中不同关卡之间的相似性， OpenAI 的工作本质上等同于解决游戏，但他补充说，他们无法持续击败第一关的事实意味着仍有一些还剩下一个公开的挑战他还想知道他们的方法是否适用于 3D 游戏，因为在 3D 游戏中，视觉特征更加微妙，第一人称视角遮挡了大部分世界

在需要探索但环境各部分之间的差异更加微妙的情况下，该方法可能表现不佳，朱利安尼说。

Matt Winkelmeyer / Getty Images 为 WIRED25 拍摄的照片

现实世界中的机器人，比如波士顿动力公司的 SpotMini，也可以从人为的好奇心中受益。

好奇的点

但是为什么我们首先需要好奇的人工智能呢。它对我们有什么好处，除了与我们人类被随机模式所困的倾向提供幽默的相似之处

最大的原因是好奇心有助于计算机自行学习。

今天部署的大多数机器学习方法可以分为两个阵营:第一，机器通过查看大量数据来学习，找出可以应用于类似问题的模式，其次，他们被放到一个环境中，并因使用强化学习取得某些成果而获得奖励。

这两种方法在特定任务上都很有效，但它们也需要大量的人力，要么标记训练数据，要么为虚拟环境设计奖励函数通过赋予 AI 系统以探索为目的进行探索的内在动力，可以消除其中的一些工作，并且人类花费更少的时间握住 AI 代理的手

OpenAI 的 Edwards 和 Burda 表示，这种好奇心驱动的学习系统更适合构建必须在现实世界中运行的计算机程序毕竟，在现实中，就像在《蒙特祖玛的复仇》中一样，直接的回报往往是稀缺的，我们需要长时间的工作，学习和探索，才能得到任何回报好奇心可以帮助我们继续前进，也许它也可以帮助计算机

。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

为您推荐

2022京东云峰会广州站举行，以数智供应链服务广东产业数字化

日前，以数字智能供应链驱动新增长为主题的京东云城市峰会广州站成功举办本次活动围绕在当前不确定的行业环境下，企业关注的发展韧性，数字化升级等话题展开京东云发布了多项基于京东的解决方案COM围绕数字化智能供应链的领先供应链实践，来自广东零售，交......
2022-05-26
首届全球绿氢大会中国区平行论坛在北京大兴成功举办

大兴国际氢能示范区作为全球绿色氢组织的战略合作伙伴，共同举办了中国区域平行论坛平行论坛围绕中国:绿色氢动力，氢能产业发展中长期规划的主题，与全球绿色氢产业同仁共同探讨可再生能源和绿色氢的发展模式和思路，呼吁全世界认识和关注能源转型，实现全球......
2022-05-18
80% 的 Steam top 100 游戏已支持在 Linux 系统中游玩

IT之家 12月21日消息，根据统计平台ProtonDB的数据，80%的Steamtop100游戏已支持在Linux系统中游玩。根据报告数据，支持运行的评分标准为：白金：开箱即玩，完美运行金：经过调整后完美运行银：虽然有小问题，但......
2021-12-23
OpenCloudOS 开源操作系统社区成立，腾讯等倡议发起：完全中立、全面开放

IT之家 12月23日消息，12月22日，开源操作系统社区OpenCloudOS正式宣布成立，腾讯及宝德、北京初心、北京红旗、飞腾、浪潮、龙芯中科、OPPO、先进开源、中电科申泰、中科方德、兆芯等20余家操作系统生态厂商及用户成为......
2021-12-23
获得场景视频常江出席2021培博会高效赋能企业在线学习

▲获得场景视频常江出席2021培博会近期,2021培博会在北京盛大举行,获得场景视频人力资源中心及业务拓展中心副总裁常江受邀出席了本次会议,与现场各行业知名企业家、学者共聚一堂,从行业发展、组织发展、技术变革等方面探讨企业培训、在线学习的新......
2021-12-23