猩猩学会玩《我的世界》，方法竟和 GPT-4 智能体相通？-蓝影头条

当前位置：当前位置：首页 >热点 >猩猩学会玩《我的世界》，方法竟和 GPT-4 智能体相通？正文

猩猩学会玩《我的世界》，方法竟和 GPT-4 智能体相通？

[热点] 时间：2024-05-02 20:29:42 来源：蓝影头条作者：焦点点击：26次

【新智元导读】当猩猩学会玩《我的猩猩学会相通世界》，方法居然和英伟达科学家训练 GPT-4 智能体的世界方法一致？

注意，这位玩家正在熟练地玩着《我的竟和世界》，ta 游刃有余地进行着收集零食和打碎积木的猩猩学会相通操作。

镜头一转，世界我们才发现：玩家的竟和真实身份，竟然是猩猩学会相通一只猩猩！

没错，世界这是竟和一项来自「猩猩行动计划（Ape Initiative）」的非人类生物神经网络实验。而实验的猩猩学会相通主角 Kanzi，是世界一只 42 岁的倭黑猩猩。

经过训练后，竟和它学会了各种技能，猩猩学会相通挑战了乡村、世界沙漠神殿、竟和下界传送门等环境，一路通关到达终点。

而 AI 专家发现，猩猩训练师教会它学技能的过程，竟然跟人类教 AI 玩 Minecraft 有诸多类似之处，比如上下文强化学习、RLHF、模仿学习、课程学习等。

当猩猩学会玩《我的世界》

Kanzi 是来自 Ape Initiative 的一只倭黑猩猩，它是世界上最聪明的猩猩之一，听得懂英语，还会使用触摸屏。

在 Ape Initiative，Kanzi 能接触到各种电子触摸屏，这或许为它快速上手《我的世界》打好了基础。

人们第一次向 Kanzi 展示《我的世界》时，它一坐到屏幕前就发现了绿色的箭头，然后用手指划向了这个目标物上。

学习三种技能

才不过几秒钟，Kanzi 就发现了该怎样在《我的世界》中移动。随后，它还学会了收集奖励。

每收集一个奖励，它都会得到花生、葡萄、苹果之类的零食奖励。

Kanzi 的操作越来越娴熟。它会分辨和目标箭头同样是绿色柱形的障碍物，在收集奖励时绕开它们。

当然，Kanzi 也会遇到难关。它需要使用 break 工具击碎大的积木块，但这个操作，它此前从未见过。

眼看 Kanzi 卡住了，人类在旁边开始帮忙，指着所需的工具按钮。然而 Kanzi 看完后仍然没能领悟。

人类只好亲自上手，用工具敲碎了木块。Kanzi 看完后若有所思，在所有人期待的目光中，它也有样学样，点击按钮后击碎了木块。人们瞬间爆发出欢呼。

现在，Kanzi 的技能树已经集齐了两样：收集零食、打碎积木。

在学习山洞技能的时候，工作人员发现，如果从试图击碎的木块上滑落，Kanzi 就会直接走掉。因此，人们为它特别定制了一个任务 ——

在一个到处都是钻石墙的山洞中击碎木块，来证明它掌握了收藏和击碎的技能。

在山洞里一切都很顺利，然而，Kanzi 却遇到了一个问题：它在墙角被卡住了。此时，就需要人类伸出援手。

最终，Kanzi 到达了洞穴底部，击碎了最后一道墙。

人群爆发出欢呼，Kanzi 也高兴地和工作人员击掌。

骗过人类

接下来，有意思的来了：工作人员邀请了一位人类玩家，和 Kanzi 一起玩游戏，当然，他对于 Kanzi 的身份并不知情。

工作人员打算看一看，这位玩家会在多长时间后意识到，和自己一起玩游戏的并不是人类。

开始，这位小哥只是觉得，对方的移动速度慢到不可思议，当 Kanzi 的画面被展现到眼前，小哥直接被吓到后仰。

走出迷宫

之后再玩《我的世界》，Kanzi 越战越勇。

每当 Kanzi 收集到一个奖励，人们就会用欢呼的形式肯定它的行为，如果它失败了，训练员也会用鼓掌和欢呼鼓励它继续进行游戏。

这时，它已经学会解锁地下迷宫的地图：

击碎面前的障碍物：

找到紫水晶：

当 Kanzi 卡住的时候，它会出去散散心，拿回一根木棍放到自己旁边。就算不幸失败，Kanzi 也会点击按钮，让自己重生。

最后一关，是一个充满分岔路的巨大迷宫。

因为迟迟无法走出迷宫，Kanzi 焦躁起来，开始拿着树枝尖叫，或者气得把树枝折断。

最终，它让自己平静下来继续闯关，走出了迷宫。立刻，掌声和欢呼声把 Kanzi 包围了。

看来，《我的世界》是被 Kanzi 这只倭黑猩猩玩明白了。

教猩猩和教 AI 的相似之处

看着一只倭黑猩猩熟练地玩着电子游戏，多少会有点让人觉得有些荒诞和不可思议。

英伟达高级科学家 Jim Fan 对此评论道 ——

尽管 Kanzi 和它的祖先们一生从未见过《我的世界》，但它很快就适应了电子屏幕上显示的《我的世界》中的纹理和物理特性。

而这与它们一直以来接触和生活的自然环境截然不同。这种泛化水平远远超出了现今为止最强大的视觉模型。

训练动物玩《我的世界》的技巧本质上与训练人工智能的原则是相同的：

- 基于上下文的强化学习：

每当 Kanzi 在游戏中达到标记的里程碑时，他就会得到一个水果或花生，激励他继续遵循游戏中的规则。

- RLHF：

Kanzi 并不理解人类的语言，但它能看到训练人员为他加油打气，还会偶尔给出回应。来自训练人员的欢呼给了 Kanzi 一个强烈的信号：它走在正确的道路上。

- 模仿学习：

训练员为 Kanzi 演示了如何完成任务之后，它就立即掌握了相关操作的含义。演示的效果远远超出比单独使用奖励的策略。

- 课程学习（Curriculum learning）：

训练员和 Kanzi 从非常简单的环境开始，逐步教导 Kanzi 掌握控制技能。最后，Kanzi 能够穿越复杂的洞穴、迷宫和下界。

不仅如此，即便是使用了类似的训练技巧，动物的视觉系统就能在极短的时间内识别和适应新的环境，而 AI 视觉模型则会花费更多的时间和训练成本，甚至常常难以达到理想效果。

我们再次陷入莫拉维克悖论（Moravec's paradox）的深渊：

人工智能与人类的能力表现相反。在我们认为无需思考或作为本能的低级智能活动中（如感知和运动控制），人工智能表现很糟糕。但在需要推理、抽象的高级智能活动中（如逻辑推理和语言理解），人工智能却很容易超越人类。

这正好对应了这个实验呈现的结果：

我们最好的人工智能（GPT-4）在理解语言方面接近人类水平，但在感知、识别方面远远落后于动物。

网友：原来猩猩打游戏也会生气

Kanzi 和 LLMs 都可以玩《我的世界》，但 Kanzi 的学习方式和 LLMs 之间存在着不可小觑的差异，我们要注意这一点。

面对 Kanzi 优异的学习能力，网友们开始了恶搞。

有人预见 6 年以后的世界将成为猩球大战......

或者是猩猩喝可乐，融入人类社会......

甚至马老板也中枪了，被做成了「猴版」马斯克。

也有人说，Kanzi 是第一个拥有游戏玩家愤怒的非人类，ta 很满意。

「如果 Kanzi 有自己的游戏频道，我会老老实实看的。」

「在玩游戏上，人类与倭黑猩猩没有太大区别。我们都受到奖励的激励，以执行某些任务并完成目标，唯一的区别是奖励的实际内容。」

「在《我的世界》中，Kanzi 开采钻石的奖励更即时、更原始（食物），而我们开采钻石的奖励则更延迟且与游戏相关。总之，有点疯狂。」

先是 GPT 学会了玩《我的世界》，现在倭黑猩猩也可以玩了，这让人不禁开始期待能用上 Neuralink 的未来。

Jim Fan 教 AI 智能体玩《我的世界》

在教 AI 玩 Minecraft 上，人类早已积累了许多先进经验。

早在今年 5 月，Jim Fan 团队就曾把英伟达的 AI 智能体接入 GPT-4，做出了一个全新的 AI 智能体 Voyager。

Voyager 不仅性能完胜 AutoGPT，而且还可以在游戏中进行全场景的终身学习！它可以自主写代码独霸《我的世界》，完全无需人类插手。

可以说，Voyager 出现后，我们离通用人工智能 AGI，又近了一步。

真・数字生命

接入 GPT-4 之后，Voyager 根本不用人类操心，完全就是自学成才。它不仅掌握了挖掘、建房屋、收集、打猎这些基本的生存技能，还学会了自个进行开放式探索。

通过自我驱动，它不断扩充着自己的物品和装备，配备不同等级的盔甲，用盾牌格挡上海，用栅栏圈养动物。

大语言模型的出现，给构建具身智能体带来了全新的可能性。因为基于 LLM 的智能体可以利用预训练模型中蕴含的世界知识，生成一致的行动计划或可执行策略。

Jim Fan：我们在 BabyAGI / AutoGPT 之前就有了这个想法，花了很多时间找出最好的无梯度架构

而在智能体中引入 GPT-4，就开启了一种全新的范式（靠代码执行「训练」，而非靠梯度下降），让智能体摆脱了无法终身学习的缺陷。

OpenAI 科学家 Karpathy 也对此盛赞：这是个用于高级技能的「无梯度架构」。在这里，LLM 就相当于是前额叶皮层，通过代码生成了较低级的 mineflayer API。

3 个关键组件

为了让 Voyager 成为有效的终身学习智能体，来自英伟达、加州理工学院等机构的团队提出了 3 个关键组件：

1. 一个迭代提示机制，能结合游戏反馈、执行错误和自我验证来改进程序

2. 一个技能代码库，用来存储和检索复杂行为

3. 一个自动教程，可以最大化智能体的探索

首先，Voyager 会尝试使用一个流行的 Minecraft JavaScript API（Mineflayer）来编写一个实现特定目标的程序。

游戏环境反馈和 JavaScript 执行错误（如果有的话）会帮助 GPT-4 改进程序。

左：环境反馈。GPT-4 意识到在制作木棒之前还需要 2 块木板。

右：执行错误。GPT-4 意识到它应该制作一把木斧，而不是一把「相思木」斧，因为 Minecraft 中并没有「相思木」斧。

通过提供智能体当前的状态和任务，GPT-4 会告诉程序是否完成了任务。

此外，如果任务失败了，GPT-4 还会提出批评，建议如何完成任务。

自我验证

其次，Voyager 通过在向量数据库中存储成功的程序，逐步建立一个技能库。每个程序可以通过其文档字符串的嵌入来检索。

复杂的技能是通过组合简单的技能来合成的，这会使 Voyager 的能力随着时间的推移迅速增长，并缓解灾难性遗忘。

上：添加技能。每个技能都由其描述的嵌入索引，可以在将来的类似情况中检索。

下：检索技能。当面对自动课程提出的新任务时，会进行查询并识别前 5 个相关技能。

第三，自动课程会根据智能体当前的技能水平和世界状态，提出合适的探索任务。

例如，如果它发现自己在沙漠而非森林中，就学习采集沙子和仙人掌，而不是铁。课程是由 GPT-4 基于「发现尽可能多样化的东西」这个目标生成的。

自动课程

作为第一个由 LLM 驱动、可以终身学习的具身智能体，Voyager 的训练过程和猩猩训练过程的相似之处，可以给我们许多启示。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

(责任编辑：时尚)

名宿:斯洛特有能力接替渣叔可能下赛季就能夺冠曼晚报曼城伤情:福登、鲁本