撒谎、带节奏样样精通!清华让七个AI玩狼人杀,个个都有小心思

[探索] 时间:2024-04-25 23:06:11 来源:蓝影头条 作者:百科 点击:30次
文|张一弛

编辑|邓咏仪 尚恩

当AI也开始精通拉扯、撒谎杀撒谎、奏样带节奏,样精人类要开始瑟瑟发抖了吗?

近日,通清清华与中关村实验室攒了局,华让让七个ChatGPT一起打狼人杀,个A个都发现在没有提前训练以及调整模型参数的狼人情况下,AI有明显的心思伪装、信任、撒谎杀领导与对抗表现,奏样表现甚至比普通玩家更佳。样精

01

AI精通狼人杀=人类完蛋了?

早在2017年,通清知乎就已经有人提问—— 做出「狼人杀」的华让 AI 有哪些难点?

图片

来源:知乎,做出「狼人杀」的个A个都AI有哪些难点?

除了技术探讨,更多知乎用户觉得AI能玩好狼人杀是狼人天方夜谭,还很遥远。部分吃瓜群众更是直呼 ——“如果狼人杀的AI都能做出来,那我觉得人类活不下去了。”

近些年,AI在游戏领域成就突出,例如偏向于零和博弈的围棋,AI通过“左右手”互搏训练,取得了非凡的成就——AlphaGo击败李世石、柯洁等围棋世界冠军,越来越多的职业棋手训练变成背AI棋谱,比赛实时胜率看与AI走法的相似度。

但即使是“脑子”够聪明了,AI此前在言语表达方面的能力,还是不尽人意,输出的内容经常被认为是人工“智障”。部分人认为,更擅长交流是区分人类和AI的关键。

一切的转折点,随着OpenAI推出GPT而到来。

02

不喂语料库模型也能快速升级?

本次实验使用gpt-3.5-turbo-0301模型进行支持,并非是当下最先进的gpt-4,因此选取了场面相对简单的七人局设置——两位狼人、两位平民、三位神职(预言家、女巫、守卫)。

本次实验设定的游戏规则,场面相对简单,但平衡性相对更差,狼人更容易获胜——狼人在每个回合的夜晚都能“杀”一名玩家,最终达到“杀”光所有平民的目的;平民和神职则需在狼人达到目的前,通过技能或者投票淘汰所有狼人。

图片

狼人杀本质上是“撒谎”游戏。除了狼人开局就知道谁是好人谁是狼人,只有预言家每回合能测一个人身份,其他身份的玩家只能通过场上局势进行猜——无论是狼人还是好人,谁最会带节奏hold住全场,谁就更可能获胜。

本次实验中,研究人员并未微调大模型,而是通过预设通用问题以及角色专属问题,以帮助大模型对游戏规则进行基本的思考。

以女巫为例,AI玩家不仅会思考“我的身份是否被认出?我是否应该公开身份?”等通用问题,还会思考谁最有可能是活着的狼人?我应该毒他吗?”等身份专属问题。

预设问题是起点,AI将通过与其他玩家交互、反思等步骤,一步一步构造相应逻辑链条(CoT),让决策看起来更加合理。

图片

来源:清华,预设通用问题以及角色专属问题

除了预设问题,清华研究团队还为不同机器人设定了一系列不同大小的经验池,用以训练机器人,从10局游戏到40局游戏不等。

值得一提的是,为了区分对照经验池对机器人能力的影响,清华团队选择只给好人阵营角色使用经验池,狼人被禁止使用经验池。

当村民吃到的经验包从10轮提升至20轮,研究团队发现无论是村民胜率或是游戏时长,都有了显著进步。

但当学习轮次继续增长至30轮,游戏时长基本持平,村民胜率却出现了显著下降。按道理,有经验包的村民理应更有优势,怎么狼人开始占据上风了?

清华研究人员推测,即使没有调整参数,大模型在参与多方博弈后,自身也得到了进化!对比初始阶段,狼人刀人更准、更会伪装。

直到经验包加到40轮,村民的胜率才有所回升,但依然没超过20轮时的峰值。不过相比最开始,喂了大量经验包后AI村民玩家整体玩得更快、更准。

图片

来源:清华,左图系狼人杀AI村民胜率,右图系游戏轮次

03

AI是怎么骗人的?

在AI做出决策前,它们通常会产生相应的逻辑链(CoT)帮助自己思考。

以女巫为例,在某一轮决定毒人之前,AI产生了以下思考:

作为女巫,我要把看起来最像狼人的玩家给毒了。

白天上票的时候,玩家4想把我上票出了,我怀疑他是狼人。

但它也有可能是平民,因为夜间没有视野搞错了。

我也在想谁还可能是狼人,想把我和其他重要玩家搞出局。

经过这一系列思考,AI女巫决定在这一个夜晚,撒毒带走了玩家4。

虽然AI在推理时候,也出现了矛盾,但最终能通过“反思”,做出了最重要的一个决定。

清华大学研究人员发现,如果删除掉逻辑链,在相同的情况下,女巫只会做出不使用毒药的决定。在关键时候女巫不撒毒,好人阵营将失去一个抢轮次的机会,因为狼人每晚都能刀掉一名玩家。

在白天,相比夜晚单纯做决定,AI所需要思考的场景将更复杂了,还需要考虑如何站队(信任)和进行对抗。

图片

来源:清华,AI信任关系图

下方为使用20轮经验包,上方为未使用经验包的结果。每一行序号代表该玩家信任谁,虚圈代表信任消失。

在使用经验包后,研究人员发现,好人阵营的AI更擅长搭建信任关系,特别是双向信任关系。能快速找到队友,或许是AI好人阵营胜率大幅提升的关键。

但也不乏有站错队的情况出现,例如表中3号村民玩家,在喂了20轮经验包后,反而站错了队,从头至尾一直信任二号狼人。

站错队的一大原因,是AI狼人学会了带节奏,将夜晚无法获得任何信息的平民拉入坑。

AI狼人为了带节奏,首先,会通过伪装身份,装成平民或者其他角色。为了保平民或自保,神职也有可能做出相似举动。

图片

来源:清华,AI狼人试图伪装成平民,对话结果保留原意进行删减

而在白天投票阶段,AI狼人玩家也会扮演成“暴民”,对五号AI玩家平民进行冲锋,试图带节奏淘汰掉五号玩家。“

这里简单解释下什么是“暴民”,通常是指随意乱跳身份、胡乱发言节奏的平民,试图通过这些手段打乱局和势混淆场上视听,让自己不那么容易出局。

而另外一名AI狼人二号玩家选择当“怂狼”,不仅发言态度没攻击性,投票阶段也选择弃票,与一号AI狼人形成了战略互补。

图片

来源:清华,AI一号狼人试图白天冲票带走五号玩家,对话结果留原意进行删减

在接下来的夜晚,一号AI狼人玩家选择杀掉五号玩家,但可惜三号AI守卫玩家似乎感受到了一号玩家的“杀意”,选择守护五号玩家,六号玩家女巫选择撒毒,将一号玩家带走。

图片

来源:清华,AI一号玩家夜晚试图刀五号玩家,被AI三号玩家守卫挡刀,对话结果留原意进行删减

在如此狼人场面如此雪崩的情况下,在预言家还在的情况下,好人阵营几乎开始选择明牌打,狼人2也不久后被淘汰出局。

在论文结尾,清华大学研究人员表示,目前依然在探索如何教会大模型成为优秀的游戏玩家,例如将人类积累的游戏经验做成经验包,再喂给大模型,而这一部分研究尚未纳入本篇论文当中。

在进一步训练大模型后,清华研究团队将继续探索狼人杀等交流类游戏中,人类和AI孰强孰弱。

随着大模型快速迭代,相信不久后,引用更先进模型的AI狼人杀,将给人类玩家带来更多震撼。

(责任编辑:综合)

    相关内容
    精彩推荐
    热门点击
    友情链接