撒谎、带节奏样样精通！清华让七个AI玩狼人杀，个个都有小心思-蓝影头条

当前位置：当前位置：首页 >探索 >撒谎、带节奏样样精通！清华让七个AI玩狼人杀，个个都有小心思正文

撒谎、带节奏样样精通！清华让七个AI玩狼人杀，个个都有小心思

[探索] 时间：2024-04-25 23:06:11 来源：蓝影头条作者：百科点击：30次

文｜张一弛

编辑｜邓咏仪尚恩

当AI也开始精通拉扯、撒谎杀撒谎、奏样带节奏，样精人类要开始瑟瑟发抖了吗？

近日，通清清华与中关村实验室攒了局，华让让七个ChatGPT一起打狼人杀，个A个都发现在没有提前训练以及调整模型参数的狼人情况下，AI有明显的心思伪装、信任、撒谎杀领导与对抗表现，奏样表现甚至比普通玩家更佳。样精

AI精通狼人杀=人类完蛋了？

早在2017年，通清知乎就已经有人提问—— 做出「狼人杀」的华让 AI 有哪些难点？

来源：知乎，做出「狼人杀」的个A个都AI有哪些难点？

除了技术探讨，更多知乎用户觉得AI能玩好狼人杀是狼人天方夜谭，还很遥远。部分吃瓜群众更是直呼 ——“如果狼人杀的AI都能做出来，那我觉得人类活不下去了。”

近些年，AI在游戏领域成就突出，例如偏向于零和博弈的围棋，AI通过“左右手”互搏训练，取得了非凡的成就——AlphaGo击败李世石、柯洁等围棋世界冠军，越来越多的职业棋手训练变成背AI棋谱，比赛实时胜率看与AI走法的相似度。

但即使是“脑子”够聪明了，AI此前在言语表达方面的能力，还是不尽人意，输出的内容经常被认为是人工“智障”。部分人认为，更擅长交流是区分人类和AI的关键。

一切的转折点，随着OpenAI推出GPT而到来。

不喂语料库模型也能快速升级？

本次实验使用gpt-3.5-turbo-0301模型进行支持，并非是当下最先进的gpt-4，因此选取了场面相对简单的七人局设置——两位狼人、两位平民、三位神职（预言家、女巫、守卫）。

本次实验设定的游戏规则，场面相对简单，但平衡性相对更差，狼人更容易获胜——狼人在每个回合的夜晚都能“杀”一名玩家，最终达到“杀”光所有平民的目的；平民和神职则需在狼人达到目的前，通过技能或者投票淘汰所有狼人。

狼人杀本质上是“撒谎”游戏。除了狼人开局就知道谁是好人谁是狼人，只有预言家每回合能测一个人身份，其他身份的玩家只能通过场上局势进行猜——无论是狼人还是好人，谁最会带节奏hold住全场，谁就更可能获胜。

本次实验中，研究人员并未微调大模型，而是通过预设通用问题以及角色专属问题，以帮助大模型对游戏规则进行基本的思考。

以女巫为例，AI玩家不仅会思考“我的身份是否被认出？我是否应该公开身份？”等通用问题，还会思考谁最有可能是活着的狼人？我应该毒他吗？”等身份专属问题。

预设问题是起点，AI将通过与其他玩家交互、反思等步骤，一步一步构造相应逻辑链条（CoT），让决策看起来更加合理。

来源：清华，预设通用问题以及角色专属问题

除了预设问题，清华研究团队还为不同机器人设定了一系列不同大小的经验池，用以训练机器人，从10局游戏到40局游戏不等。

值得一提的是，为了区分对照经验池对机器人能力的影响，清华团队选择只给好人阵营角色使用经验池，狼人被禁止使用经验池。

当村民吃到的经验包从10轮提升至20轮，研究团队发现无论是村民胜率或是游戏时长，都有了显著进步。

但当学习轮次继续增长至30轮，游戏时长基本持平，村民胜率却出现了显著下降。按道理，有经验包的村民理应更有优势，怎么狼人开始占据上风了？

清华研究人员推测，即使没有调整参数，大模型在参与多方博弈后，自身也得到了进化！对比初始阶段，狼人刀人更准、更会伪装。

直到经验包加到40轮，村民的胜率才有所回升，但依然没超过20轮时的峰值。不过相比最开始，喂了大量经验包后AI村民玩家整体玩得更快、更准。

来源：清华，左图系狼人杀AI村民胜率，右图系游戏轮次

AI是怎么骗人的？

在AI做出决策前，它们通常会产生相应的逻辑链（CoT）帮助自己思考。

以女巫为例，在某一轮决定毒人之前，AI产生了以下思考：

作为女巫，我要把看起来最像狼人的玩家给毒了。

白天上票的时候，玩家4想把我上票出了，我怀疑他是狼人。

但它也有可能是平民，因为夜间没有视野搞错了。

我也在想谁还可能是狼人，想把我和其他重要玩家搞出局。

经过这一系列思考，AI女巫决定在这一个夜晚，撒毒带走了玩家4。

虽然AI在推理时候，也出现了矛盾，但最终能通过“反思”，做出了最重要的一个决定。

清华大学研究人员发现，如果删除掉逻辑链，在相同的情况下，女巫只会做出不使用毒药的决定。在关键时候女巫不撒毒，好人阵营将失去一个抢轮次的机会，因为狼人每晚都能刀掉一名玩家。

在白天，相比夜晚单纯做决定，AI所需要思考的场景将更复杂了，还需要考虑如何站队（信任）和进行对抗。

来源：清华，AI信任关系图

下方为使用20轮经验包，上方为未使用经验包的结果。每一行序号代表该玩家信任谁，虚圈代表信任消失。

在使用经验包后，研究人员发现，好人阵营的AI更擅长搭建信任关系，特别是双向信任关系。能快速找到队友，或许是AI好人阵营胜率大幅提升的关键。

但也不乏有站错队的情况出现，例如表中3号村民玩家，在喂了20轮经验包后，反而站错了队，从头至尾一直信任二号狼人。

站错队的一大原因，是AI狼人学会了带节奏，将夜晚无法获得任何信息的平民拉入坑。

AI狼人为了带节奏，首先，会通过伪装身份，装成平民或者其他角色。为了保平民或自保，神职也有可能做出相似举动。

来源：清华，AI狼人试图伪装成平民，对话结果保留原意进行删减

而在白天投票阶段，AI狼人玩家也会扮演成“暴民”，对五号AI玩家平民进行冲锋，试图带节奏淘汰掉五号玩家。“

这里简单解释下什么是“暴民”，通常是指随意乱跳身份、胡乱发言节奏的平民，试图通过这些手段打乱局和势混淆场上视听，让自己不那么容易出局。

而另外一名AI狼人二号玩家选择当“怂狼”，不仅发言态度没攻击性，投票阶段也选择弃票，与一号AI狼人形成了战略互补。

来源：清华，AI一号狼人试图白天冲票带走五号玩家，对话结果留原意进行删减

在接下来的夜晚，一号AI狼人玩家选择杀掉五号玩家，但可惜三号AI守卫玩家似乎感受到了一号玩家的“杀意”，选择守护五号玩家，六号玩家女巫选择撒毒，将一号玩家带走。

来源：清华，AI一号玩家夜晚试图刀五号玩家，被AI三号玩家守卫挡刀，对话结果留原意进行删减

在如此狼人场面如此雪崩的情况下，在预言家还在的情况下，好人阵营几乎开始选择明牌打，狼人2也不久后被淘汰出局。

在论文结尾，清华大学研究人员表示，目前依然在探索如何教会大模型成为优秀的游戏玩家，例如将人类积累的游戏经验做成经验包，再喂给大模型，而这一部分研究尚未纳入本篇论文当中。

在进一步训练大模型后，清华研究团队将继续探索狼人杀等交流类游戏中，人类和AI孰强孰弱。

随着大模型快速迭代，相信不久后，引用更先进模型的AI狼人杀，将给人类玩家带来更多震撼。

(责任编辑：综合)

欧盟突击检查中国企业在欧办公室，商务部回应年内慈善信托新增备案规模逾6亿元百万元级产品频现