90后AI天才的大模型首战-蓝影头条

90后AI天才的大模型首战

[探索] 时间：2024-04-19 13:04:55 来源：蓝影头条作者：焦点点击：38次

采访｜邓咏仪杨轩

文｜邓咏仪

编辑｜杨轩苏建勋

站在核爆中心圈，大模是型首一种什么样的体验？

在这次ChatGPT引发的AI大爆炸中，做了十年堪称冷门的大模NLP（自然语言处理）的杨植麟，就处在这样一个位置。型首这位保送清华、大模程序设计课程满分的型首“少年天才”，在卡耐基梅隆大学读博士时，大模就已经作为第一作者发表的型首关于Transformer-XL与XLNet的两篇论文，成为本次AI大模型技术能够突破的大模重要一环。

“先是型首非常激动，好像被苹果砸中一样，大模”杨植麟对36氪说，型首随即又陷入沮丧，大模再想到可干的型首事情还很多，又“兴奋起来”。大模

这也是他新创办的第二家AI公司“月之暗面（Moonshot）”的由来。Moonshot这个名字，则来自英国著名摇滚乐队Pink Floyd的专辑《Dark Side of the Moon》。

杨植麟认为，做大模型如同登月工程一样，“月之暗面”意味着神秘，令人好奇和向往，同时又极具挑战难度。

事实上，月之暗面的核心团队曾参与到Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发中——这是一支在“登月”道路上已探索多年的队伍。而AI大模型，目前还在一个以技术能力定成败的阶段。

在这半年的国内大模型市场中，Moonshot显得尤为沉默，但并不妨碍投资人的蜂拥而至。36氪最新获得的消息是，月之暗面已经完成一轮超过2亿美元的融资，目前身处中国大模型创业公司融资额第一梯队。

成立半年多后，10月9日，Moonshot终于推出了首款大模型产品：智能助手Kimi Chat。这也是Moonshot在大模型领域做To C超级应用的第一次尝试。

Kimi Chat支持输入20万汉字，这是目前全球大模型产品中所能支持的最长上下文输入长度。这也代表着，Moonshot在长文本技术的探索突破到了一个新高度——对比当前市面上几家主流模型，Kimi Chat的上下文长度是Claude 100k的2.5倍（实测约8万字），GPT-4-32k的8倍（实测约2.5万字）。

如今市面上的大模型产品繁多，拓展了上下文长度的Kimi Chat，在使用上有什么不同？

最明显的是，你可以一次性给模型输入大量的信息，由模型理解进行问答和信息处理，有效减少幻觉问题。

比如，公众号的长文也可以交给Kimi Chat ，让它帮你总结分析：

发现了新的算法论文时，Kimi能够直接帮你根据论文复现代码：

快要考试了，直接把一整本教材交给Kimi，就可以让它陪你准备考试：

甚至，也可以只用一个链接就让它来扮演你喜爱的游戏角色，和你对话：

目前，Moonshot AI 的智能助手产品Kimi Chat已开放了内测。访问Moonshot.cn（或于文末扫描二维码），即可加入内测计划。

长文本：大模型落地的另一瓶颈

值得关注的一点是，不同于其他大模型公司拼参数、展示各种各样的行业案例，在Moonshot的首次发布会上，“长文本”成了绝对的主角。

“无论是文字、语音还是视频，对海量数据的无损压缩可以实现高程度的智能。而要有效提升大模型的性能，不仅要扩大模型参数，更要提升上下文长度，两者同样重要。”杨植麟表示。

大模型之所以能在智能水平有质的飞跃，是因为通过扩大参数规模，突破到了千亿级别，才能够让智能“涌现”（Emergence，指模型自主产生出复杂行为或特性）。

但如今，大模型落地更重要的瓶颈不是模型大小，而是在于上下文不够，文本长度不足会带来对模型能力的严重束缚。

一个典型问题是，如果遇到多轮对话或者需要复杂步骤的场景，往往会出现模型记不住的情况——讲了具体设定，但下一回合就忘记。比如，Character AI的用户就经常吐槽模型记不住关键信息：

这与计算机运行的原理类似：计算机依靠CPU进行计算；内存则存放了临时计算的数据，决定其运行速度。“如果说参数量决定了大模型支持多复杂的‘计算’，而能够接收多少文本输入（即长文本技术）则决定了大模型有多大的‘内存’，两者共同决定模型的应用效果。”他解释道。

这也是Moonshot在保持模型拥有千亿级参数的同时，首先将上下文长度先“拉满”的原因。

要想做到拓宽上下文长度（Context），在模型训练和推理侧都存在算力+显存的双重挑战。

比如，计算量会随着上下文长度的增加呈平方级增长——比如上下文增加32倍时，计算量实际会增长1000倍；而在推理方面，目前最高单机配置 80 GiB * 8 在面对 GPT-3 这类千亿参数级别的模型时，最多只能推理约5万字上下文长度。

但在Kimi Chat上，Moonshot团队通过创新的网络结构、改进算法策略等等，对模型训练的各个环节进行了上百项的优化，从而在千亿级参数下可以实现对超长文本的全文理解。

简单而言，Moonshot AI并不通过当前滑动窗口、降采样、小模型等对效果损害较大的“技术捷径”来实现长文本，而是研发基于大模型的长程注意力，以实现真正可用的超长文本技术。

让模型“记性”更好，会让大模型未来的应用场景拓宽不少。比如，律师、分析师等职业，就能让大模型分析长篇报告；像狼人杀这样需要基于大量信息来推理的游戏，大模型也能够胜任。

而在本次产品发布前，36氪曾与杨植麟进行过一次深谈。作为站在这次技术核爆中心圈的人，杨植麟谈起AI大模型，有种笃定感。对于产品之外的技术展望，他会不时用轻松的语气，抛出一些让人一愣的断言。

比如，“Next token prediction（预测下一个字段）是唯一的问题。”“只要一条道走到黑，就能实现通用泛化的智能。”

比如：“五年之内，大模型将持续保持较强的技术壁垒，不会Commoditize（变成平价的、没有壁垒的商品）。”

从LLM（大语言模型）到LLLM（长文本大语言模型），Kimi Chat只是Moonshot的第一步。不过，如今的Moonshot已经寄托着杨植麟对未来的一些很“黑镜”的预想：在未来，如果机器能够掌握一个人一生的信息，人们就会拥有自己的AI分身，这个AI分身共享了你的所有记忆，无异于另一个你。

以下为36氪与杨植麟的对话实录，经36氪编辑整理：

时隔七年，两次AI创业

36氪：先来聊聊这次产品发布吧。很多大厂、创业公司都会选择先发一个具体的大模型，开源或者闭源的都有。大模型已经火了半年后，Moonshot如今选择先发一个To C的智能助手产品。为什么？

杨植麟：因为我始终坚信以终为始，只有当大模型被多数人使用时，才会涌现出最多的智能。Moonshot会秉承以应用为导向的模型开发，我们并不想只是发布一个模型，以迅速获得科技圈可能的短期技术关注。

比如，“长上下文”这个技术的价值，可能很难第一时间让用户感知到。但通过Kimi智能助手，就可以直接触达用户。我们希望让技术成为用户日常生活中一旦接触就不可或缺的助手，以真实的反馈做来迭代模型，尽早地创造实际价值。

36氪：ChatGPT出来之后，这半年你的心情是怎么样的？

杨植麟：这一年来，我是百感交集。如果是什么可控核聚变的突破，那其实跟我也没什么关系，但这个事情（大语言模型）是我做了十年的事情，我觉得就好像是被苹果砸中一样。

ChatGPT刚发的时候，我非常激动，我好奇这个世界到底能做什么样的AI，我能多大程度去复制、甚至做得比人脑更好。

同时，我也陷入到非常沮丧的状态——因为这个事情也不是你做出来的对吧？我会开始想在这个浪潮里我还能贡献什么，又开始兴奋起来：现在是非常好的timing，不管发生什么，一定要做。

36氪：所以，ChatGPT算是直接促使你创立新公司“月之暗面”？

杨植麟：对。从一开始的激动到沮丧，再决定创业之后，我逐渐恢复理性思考，思考想要什么样的团队来做，现在是技术演进过程里的什么阶段，我们要做什么？

然后再开始焦虑——铺天盖地地，所有人都说要做大模型，那大模型到底能不能做？是不是做不了？

最后又会回到理性。我会去更长期地看这些个事情，短期内的大模型进展，比如东边发一个模型，西边发一个，其实都是噪音。GPT-4的水平在这儿（高一截），其他模型都是在下面，其实大家现在说“我比你高”“你比我高”，没什么意义。

我这半年都在思考底层逻辑，最后发现这件事还是很适合我们来做。

36氪：适合在什么地方？

杨植麟：每一次技术突破里会有三层的机会。

第一层机会，是被第一个找到第一性原则的人抓住，那就是OpenAI。这需要很强大的vision，非常高瞻远瞩，这是靠经验所支撑的。

第二层机会就是在技术创新期，能解决一些技术方向性的问题——比如long context（长上下文对话窗口）怎么做？能把技术做好的团队能抓住。

第三层是纯应用的机会，就是技术已经全部清楚了，不再需要考虑技术层面的事情，只做应用。我们可以抓住的是第二层机会，在这个层面我们拥有很好的积累和优势。

36氪：月之暗面想做的大模型，是怎么样的？

杨植麟：我们希望先把模型能力做到世界领先水平，同时也会聚焦C端的超级应用，通过产品连接技术与用户，从而共同创造通用智能，Kimi Chat只是我们的第一个产品尝试。

我们现在做的模型已经到千亿级，未来会是一个多模态大模型，当前会先把语言模型做好。

36氪：在做应用上，你们大概思考的方向是怎么样的？

杨植麟：我们还处在技术创新的阶段，所以我们会先持续追求世界级的技术突破，比如长上下文、多模态等。

而在产品层面，我们肯定是坚定在To C这一侧，希望能做头部的Super App。以ChatGPT和Character.ai为例，这两个产品已经积累了大量的数据和用户反馈，有大量的迹象证明已经通过这种的产品产生了新的入口，新一代AI在“有用“和”有趣“两个方向上，都会有巨大潜力。

我相信，无论是智能助手还是情感陪伴，我们都能通过技术为更多人解决工作和生活中的实际问题。

36氪：什么样的是真需求？

杨植麟：比如Character.AI的情感更多元化，他其实底层满足的是人的征服欲，我觉得征服是一个真正的刚需。

AI最后不会是一个完全同质化的东西。它不像电，在新加坡充电和中国充电是一样的。所以像Character.AI最后所实现智能可能比其他公司会更强，因为他们有数据能一直积累，后面可以做一些专业化，这也导致以后AI的毛利率会比以前的云计算要高。

36氪：好多大模型公司忙着在硅谷挖人，比如从OpenAI、Google、微软。你是怎么组建起月之暗面的团队的？

杨植麟：我们很多人还是重新招的。我们更多是找这种30岁左右，有很多一手实践经验的人。从去年12月开始，我就去了一趟海外，开始为招人做储备了。

36氪：海外的AI人才愿意回来吗？

杨植麟：我们在海外有office，其实两边还是可以相结合的。

36氪：现在月之暗面团队有多少人？你预想中的团队，会是什么样子？

杨植麟：我们的团队约60人，有很多技术专家，每个月都有在全球某个领域有显著影响力的人加入，我们在努力打造大模型公司里产品人才密度最高的团队。

互联网时代的技术和产品已经成熟分工，但我们希望产品团队能更直接地参与模型优化，大幅缩短创新周期。智能时代无论技术、产品、增长还是商业化，都存在创新的机会。我们的愿景是建立一个全新的组织，能与用户共情，也能用客观数据来定义美和智能标准，将科技与人文融为一体。

36氪：OpenAI会是这种组织的理想状态吗？

杨植麟：我觉得他们提供了很多很好的实践。比如他们就不搞赛马，这是非常重要的例子。

这并不是因为他们资源或者人不够。他们资源挺多，但是会把资源放到一个统一的scope下面。

比如，他们希望花10%的精力去探索一些新的东西，那会有一个团队在做这个事情，主线永远就只有这一个——这是非常重要的。并且，他们鼓励底层创新，每个人贡献想法。

36氪：现在不少人关注成本问题，这直接关系到工程化的成本，还有后续的商业化进展。现阶段，你最关注的是什么因素？

杨植麟：就是能不能尽快找到PMF，这是第一优先级。

36氪：现在不少大厂、创业公司都在发开源模型，Moonshot有开源计划吗？你怎么思考这个问题？

杨植麟：我们目前没有开源计划。我认为，开源和闭源在整个生态里面会扮演不同的角色，开源很大一个作用是在To B端的获客，如果想做头部的Super App，大家肯定都是用闭源模型去做的，在开源模型上做C端应用很难做出差异化。

36氪：你从博士阶段就已经开始创业，之前创立第一家AI公司“循环智能”的经验，会给你什么启发？

杨植麟：现在月之暗面还是处在第一阶段，更重要的任务是降低不可预测性等偏技术上的工作，其实不会太受到外部因素的影响。

但从大环境上来说，不可预测性肯定是要比之前更多了。几年前的年景更好，可以顺着市场做扩张，做营收；但市场不好时，反而是需要做成本控制、降低烧钱速度。这也是我从上一段创业经验学到最多的。

大模型很烧钱，把握好投入的速度，同时还要保证自己还是要拿出东西，有产品数据，是非常关键的问题。

预测下一个token是唯一问题

36氪：AI领域有几大方向：图像识别（CV）、自然语言处理（NLP）、机器学习（ML）。前几年CV方向更热闹，上一波AI四小龙（商汤、旷视、云从、依图）也都是这个方向。你的研究方向一直集中在NLP，为什么？

杨植麟：抛开偶然因素，还是有一些必然的原因。我觉得，Vision（视觉）方向其实更早地看到一些产业成果，但NLP可以去解决更多认知类的问题，让AI真正实现价值。

36氪：NLP怎么让AI真正发挥价值？

杨植麟：NLP相当于是从视觉的感知层面，进化到更有认知的层面。

像Midjourney这种AI绘画产品，它可能生成的图片特别好看，但它本质是一个没有大脑的画家——你不知道中美关系怎么样，不知道印第安人以前是怎么被奴役的。你需要知道这些历史，才有可能成为一个顶级画家。甚至最后不光只是画画，你还要做很多画画之外的事情。

从这个点来说，NLP会解决更难的、更有挑战性的问题，比如推理，它的存在会让AI的版图更加完整。

36氪：Transformer是你主攻的研究方向，它也是ChatGPT诞生的基础。Transformer的革命性意义在什么地方？

杨植麟：我比较幸运的地方在于，我博士有一半时间是在2017年之后。因为2017年Transformer出来了，这是一个超级巨大的分水岭。

Transformer架构的出现让整个NLP领域都发生了巨大的认知变化。有了这个东西之后，你就发现这里面可以做的东西实在太多了，突然一下子就给大家指明了方向。有很多之前完全无法实现的东西，它现在变得有可能了。

36氪：怎么理解这个“认知层面的变化”？

杨植麟：AI领域对语言模型的认知，存在三个阶段的变化：

2017年前，大家觉得语言模型有一些有限的作用，比如在这些语音识别、排序、语法、拼写等等小的场景里面可以做辅助，但用例（Use Case）都很小；

第二个阶段：Transformer、Bard出现后，语言模型可以做绝大部分的任务，但它还是一个辅助的角色——我有一个语言模型，AI工程师微调一下任务就好了；

到第三阶段，整个AI领域发展到最后，大家的认知会变成：所有东西其实都是语言模型，语言模型是唯一的问题，或者说是next token prediction（预测下一个字段）是唯一的问题。

这个世界其实就是一个硬盘模型，当人类文明数字化之后，所有人类文明之和就是硬盘的总和。输入的Token是语言，或者也可以是别的东西——只要能预测下一个Token是什么，那我就能实现了智能。

从思想到系统的层面，其实技术发生了非常大的变化，这里面有很多变量。然后你就可以在这个空间里面去看，怎么把这些技术做的更好。

36氪：从2017年Transformer出现到今年ChatGPT爆火，中间还有五年的时间。这五年里，你的重要工作——有关Transformer-XLNet的论文，其实也有被拒稿过。中间有过对自己研究路线的怀疑吗？

杨植麟：这个很有意思。当因为行业发生认知变化，而变化还没有调整过来的时候，会存在非共识。

部分人觉得非共识是错的，但其实他实际上是对的。OpenAI在这里面绝对是一个先驱，因为他们最早有这种正确的非共识，最早看到“语言模型是唯一的问题”这一点。

我们当时的研究效果非常好，能实现当时全世界最好的效果。但评审就问我们一个问题：就是说语言模型有什么用？你们好像没有证明他有用。

但是这个时候其实你要做的事情并不是说去寻求认同，而是说你要把真把那个事儿给做出来。

36氪：你说“唯一重要的问题就是预测下一个字段。”这个事儿在当时如果是非共识的话，你是怎么意识到这一点，并且坚信的？

杨植麟：坦白说，我在那个时候还没有完全坚信这个事情，直到现在我觉得它也不一定是个共识，而是在逐渐变成共识的过程中。

36氪：什么叫“预测下一个字段”，应该要怎么理解？

杨植麟：本质上，做下一个token的预测，其实等价于“对整个世界的这个概率去进行建模”，就是现在给你任何一个东西，你都能给他估算一个概率。

这个世界本来就是一个巨大的概率分布，里面有一些是不可建模的不确定性，你不知道下面会发生什么。但有一些是你能确定的，能排除掉一些东西的，这是一个通用的、对世界去进行建模的模型。有很多历史学家来对这个事情做过研究，比如Density Estimation（密度统计），大模型本质是在做这样一个事情。

但当时我只意识到这是个重要的问题，而没有意识到是唯一要解决的问题。

36氪：那是什么时候让你改变主意了？

杨植麟：2020年GPT-3出来的时候，那个时候有了更明确的证据。OpenAI的人最厉害的点是，他们观察到了更多的数据，再更早的时候真正去把模型参数、训练规模扩大，所以他们更早地知道只要一直scale（扩大规模），就可能解决所有的问题。

36氪：知道它是如此重要之后，这会怎么影响你的技术路线？

杨植麟：回到刚刚那一点，如果这个世界只有一个问题：要预测下一个字段，那么输入和输出其实是一样的——也就是“理解”和“生成”其实也是同一个问题。

几年前，我们自己也会区分，到底是要做理解模型还是生成模型，但现在不需要了。

36氪：不过，现在有很多团队的技术路线，可能会先做文字理解，在理解这一端做得更多些，生成可能会靠后一点。

杨植麟：这些思考方向不够本质。现在任何说“只能做理解而非生成”都是错误的方向。正确的方向应该是：理解和生成就是一个问题。如果能做很好的理解，那能做很好的生成，这两个应该是完全等价的。

36氪：相当于这两者无法分开来。

杨植麟：对的。现在就只有一个问题。比如说我能够去生成接下来10秒钟的视频，我那我必须对之前的这个视频有很好的理解，你得知道他发生了什么，这是一个什么样的story，接下来很有可能是什么样的演进，它是分不开的。

36氪：你对实现AGI（通用泛化的智能）有信心吗？

杨植麟：有没有信心取决于它的第一性原理，我觉得大家现在已经明白原理了，只有一个问题：就是预测下一个字段。一条道走到黑的话，我觉得就能实现。

但确实还存在一些“第二层面”问题，也就是具体的技术方向难题。但是这些都是小问题，并非原则性的，第二个层面就是我们要去攻克的。

人的一生不过是大量的信息

36氪：用一句简短的话来描述月之暗面的目标跟远景，你会怎么说？

杨植麟：长期的几个目标是：探索智能的极限，让AI有用，以及让每个人都能拥有真正普惠的AI。

36氪：“普惠的AI”怎么理解？

杨植麟：现在的一个问题是，很多时候AI的价值观是被一个处于中心的机构控制。一个模型表现成什么样子，完全是由平台来决定——TA觉得什么是“好的”，什么是价值观正确的答案。

但每个人会有自己的价值观。价值观是更底层的东西，它其实还包含很多可能——你的偏好，也就是你认为什么是对的，什么是错的。

每个人都应该要有这种个性化定制的机会，所以以后的AI也应该要拥有“对齐”的机会。（对齐Alignment，指确保AI系统的行为匹配预期的人类价值观和目标的过程）。当然，我们肯定要去设置安全底线，以及监管层面的东西。在这个底线的基础上，我们可以有很多个性化AI的机会。

36氪：个性化的AI，它的实现路径是什么？每个人都能训练一个代表自己的AI模型吗？

杨植麟：你刚说的训练是一种方式，但我认为可能后面也许不需要去训练，也许直接设置就可以了。

最终的一个可能形态是，AI会数字化的所有东西全部记录下来，你的手机、电脑上会有一个和你共生的AI Agent（AI代理、AI分身），它会知道所有一切你能知道的东西。

36氪：你在你的个人主页上写，你的所有的工作目标都是“让AI价值最大化”。这指的是什么？

杨植麟：最大的价值就是，最终每个人不用做自己不想做的事情，保留人性里面最精华的部分。

比如，我们这次谈话也可以不用面对面，而是有更高效的方式——比如由我们的AI Agent直接对话。在公司也是一样，现在的组织要花时间去定绩效、考核。其实这都会非常花时间。以后我们也许就不需要公司了，一个人的效率会高很多，也不用为了赚一点钱就非得要去上班，可以用AI来做很多工作。

要达到这样的效果肯定很难，但最终人类有可能实现生产最大化。最后，也许真正的共产主义会出现。

36氪：如果让你现在对未来做一个预测的话，你觉得十年之后我们这个社会会有什么样的变化？或者说AI对这个社会最大的变革，你觉得会来自什么方面？

杨植麟：十年有点难，五年可以说一说。

我觉得至少五年内大模型技术不会commoditize（指技术还会有壁垒，不会变成廉价的商品）。因为至少还有一大批模型没有出来，我们还没有真正看到视频大模型。

我觉得这两年可能是文本模型持续迭代的窗口。后再过三年，是视频模型持续迭代的窗口，这里始终是有技术壁垒的。

36氪：所以，视频大模型会是关键性的节点？

杨植麟：对的，这些节点都迈过后，会出现一个巨大的变革。

美国有一个公司叫Rewind（主打“记录一切”，让人类搜索一切在上看见过的所有内容），现在的产品能实现的效果，可能只是能问它：我上个月做了什么？它会记录下来，现在的效果还是比较浅层的。

以后的AI Agent会更加深度地实现个性化。比如，大模型会和你有共享的记忆，知道你所有的价值偏好，所有的价值取向。如果你让他写一个Q3的规划，他会基于已知的这些东西直接去写规划，而不需要知道Q2做了什么东西。

36氪：从文字到图片，再到视频大模型、Agent，要实现的关键是什么？

杨植麟：是context（上下文长度，也可以理解为模型单次能处理的信息量），这基本决定了AI能产生价值的上限。

如果大模型的context就是你的全部记忆，理论上，那它就可以做你现在做的全部事情。

对于大模型来说，最关键的一点就是，你到底能有多少context被捕捉到。这取决于视频模型的能力，如果模型能力很强，理论上你的手机和电脑加起来就差不多是你完整的context。

人的一生也不过是如此，我们每天就活在数字世界里面。可能除了我们现在这种线下对话，他可能捕捉不到，其他大部分都是都ok的。

36氪：如果真的达到这种状态，人类应该要怎么和机器共存？

杨植麟：我自己是比较乐观，就是说他在提供更多生产力的同时，他应该会创造很多新的岗位。

视频现在是大家花时间最多的地方，所以他肯定会对生产关系产生很大的影响。所以每个人可能都可以生产（视频），很多价值会被重新分配。

但这是一个反馈闭环时间比较长的事情。挑战在于，当前替代现有岗位的速度比创造新岗位的速度更快。核心问题在于，在理想的岗位没有被创造出来之前，我们如何解决一些社会问题。

36氪：普通人怎么去面对这次技术变革？这种变化继续下去，普通人应该做点什么？

杨植麟：我觉得最重要还是学习。不光是普通人，我觉得所有人，拥有最强终身学习的能力的人，以后才能够实现自己真正的价值。

另外一点是要open minded。我四五年就找过很多人说，要不要来一起做大模型，当时他们说我现在要做数字人，你不要跟我讲这些东西（笑）。所以人确实有时候还是会被自己认知所局限。无论我们对技术的态度如何，历史的发展都是超出个人意志的。因此，我们要不断的自我迭代，适应这个世界唯一不变的，就是变化本身。

(责任编辑：百科)

宝武清能源网荷储一体化绿色供电园区项目落地三门峡市示范区士砵亭食硬基維辛迪