商汤大模型观：告别“越大越好”-蓝影头条

商汤大模型观：告别“越大越好”

[知识] 时间：2024-04-30 00:13:56 来源：蓝影头条作者：焦点点击：58次

,越大越好效率优化决定了AI模型在产业服务端的核心竞争力。,商汤文｜《中国企业家》记者赵建凯,编辑｜李薇,图片来源｜受访者,上海漕河泾新兴技术开发区的写字楼大同小异，区别只在于写字楼的大模高低大小，以及外层玻璃幕墙颜色的型观深浅。但以中环路为界线，告别内侧的越大越好虹梅路1900号显得“格格不入”——从远处望去，这栋建筑就像一艘航空母舰停靠在路边。商汤,大模商汤科技就在这栋建筑里。楼下漕河泾开发区公园篮球场，型观部署了商汤AI技术支持的告别视觉动作捕捉系统，不仅可以对场上球员们的越大越好运球投篮姿势、跑动速度、商汤弹跳高度等竞技数据实时记录统计，大模还能抓取到比赛时的型观快攻回防、急停跳投等精彩瞬间。告别,在由ChatGPT引发的最新波次AI淘金热中，每家公司都在按照自己的方式行事。有卖“镐头、铲子”的，比如英伟达这类公司；也有专门卖“茶水”的，比如通过大规模人工方式给大模型训练做数据标注的……商汤科技则是要做AI行业的“原力场”。,,在商汤上海办公室里，商汤科技联合创始人、商汤科技大装置事业群总裁杨帆对《中国企业家》解释，“原力场”即把诸如AI原生基础设施、智能计算中心、算法优化服务、算力这些原力“封装”在大装置里，源源不断地输出给市场、客户、合作伙伴。,大装置是源于商汤对AI产业进化趋势的判断。“大概十年前，我们觉得AI产业在未来一定会形成分化。在分化的过程中，整个AI基础设施上的各个要素，以一种更加高效、低成本的方式，被提供给更多的人使用，从而降低AI基础设施的构建成本和使用门槛。”杨帆说。,商汤科技联合创始人、商汤科技大装置事业群总裁杨帆。,杨帆表示，大装置就是这种分化后的AI基础设施的称谓。它的目标与定位是，打造高效率、低成本、规模化的下一代AI基础设施与服务，赋能AI生产新范式。正如AI教父杨立昆所言：“通过增强人类智能，AI可能引发新的文艺复兴，或是启蒙运动的新阶段。”,不过，在杨帆看来，如火如荼的大模型已经告别“越大越好”的时代，业界开始将注意力转向提高模型效率的研究上，效率优化将真正决定AI模型在产业服务端的核心竞争力。,构成AI基础设施,人类又败给了AI机器人。,9月初，沃顿商学院的几位教授组织了一场“人机竞赛”，让MBA学生对战ChatGPT，各自想出一个对大学生有吸引力、售价不到50美元的新产品或服务的创意。,在15分钟内，MBA学生只想出了5个产品创意，而ChatGPT却生成了200个，包括100个自然生成和100个有示例提示创意。,最终结果显示，原始ChatGPT自动生成的产品平均购买概率是46.8%，有示例提示的ChatGPT生成的产品平均购买概率是49.3%，而MBA学生做成的产品，平均购买概率是40.4%。,这个最终结果令沃顿商学院教授兼创新研究管理所联席主席Christian Terwiesc大跌眼镜：“我一直以为创意是人类最擅长领域之一，但测试结果让人大吃一惊。”沃顿商学院有超过20年的产品设计和创新课程教学经验，已举办了十多次类似的产品创意竞赛。,竞赛结果一出，一些人极度亢奋，另一些人则极度悲观，认为AI已经进步到之前只有人类智力才能达到的程度，如今的AI终于超越了人类，并越来越有可能取而代之。,“这种把人与AIGC对立起来进行比赛，其实有一个误区。把AI机器和人去做比较，这个事情没有意义。”杨帆说，“我的个人观点是，不应该让人类去跟AI机器比创意，而是让大家都用GPT-4，人跟人来比创意，看两个MBA学生之间谁能用更短的时间做出更好的创意。”,按照杨帆的这套推理逻辑，与OpenAI的GPT-4比拼的，确实也不该是人类，而是要用别家公司的大型语言模型——例如，Meta的LLaMA模型、谷歌母公司Alphabet的LaMDA，或者与自己的前一个版本GPT-3来比。,特别是要在大模型的训练数据规模，海量数据中自我学习的算法高低，以及支持训练、学习计算能力的大小，三个关键指标上的着力比拼。,“今天的AI基础设施，就是数据、算法、算力‘三位一体’。”杨帆说，“商汤科技一直致力于AI基础设施的构建，也是基于这三个方面。”,杨帆强调，并不是因为最近AI大模型的火热，商汤科技才开始做AI基础设施的构建，商汤从诞生之日起就在做这件事情，“国内还没有人提‘AI基础设施’的时候，我们很早就提出来这个概念”，而这种AI基础设施的服务能力，对产业的价值巨大。,“如今的AI不再像以前那样，一个个单点位去解决各种各样的行业场景，而是以产业面、行业层覆盖的方式去解决。”杨帆说。,这种秋风扫落叶式的解决方案，虽然不能解决掉所有问题，但解决掉十个问题中的七个，难度并不大。,“数据”是最优先驱动力,类似ChatGPT这种的生成式AI，是以大型语言模型为基础的。通常情况下，这些模型通过吸收互联网上的大块内容来加以训练。这些内容可以是文本、图像、音频文件，也可以是其他类型的数据。而训练的目的，是让这些AI大模型可以解读人类用自然语言发出的指令，并在理解之后通过文本、图片，甚至音乐的形式，对人类的指令再做出回应。,非营利性研究机构Epoch AI预计，按照目前的吸收速度，到2026年，大模型将用尽互联网上的所有高质量文本内容。,训练大模型是一个烧钱的活计。仅仅GPT-4这一版本，训练总成本就达到了1亿美元左右。除去OpenAI及其融到的资金，截至今年3月份已经有500多家生成式AI创业公司，总共融资超过了110亿美元。,眼见得往大模型上一笔笔地大投入，就有人把这一波次AI技术浪潮称为“寒武纪大爆发”或者“AI淘金热”。这其中，不仅有微软、谷歌这样的科技巨头，也有Anthropic、Stability AI这样的创业公司。,目前来看，大公司在资金投入规模、计算能力，以及将基础研究成果快速转化为商业产品的速度，都要强于创业公司。,“最新这一波次的AI浪潮，要从2012年深度学习在学术上的突破算起。”杨帆说，“这一波次浪潮让人们感触最多的是，在各个产业甚至人们日常生活中，AI能够实际地商业化、产业化落地。”,如果把AI技术发展的时间尺度再调大一些，在这个世纪的20年中都遵循着一个基本的大逻辑，“那就是怎么样才能够让机器模型消化更多的数据，产生更多、更大的智能涌现。”杨帆说。,,AI大模型在最近3~5年中，一直以惊人的速度在增长。无论是规模还是算力越大越好，已经是当下AI行业的一致认知结果，也是行业的整体趋势。,2020年6月对外发布的GPT-3有1750 亿个参数，训练的时候需要用到数千个GPU芯片，在几周之内计算处理数千亿个字（单词）的文本，光电费一项就高达460万美元。而今年3月发布的GPT-4的参数规模是其上一版本的六倍，有1万亿个。,据Epoch AI的估计，在2022年，训练一个尖端大模型所需的计算能力每六到十个月就翻了一番。按照这个速度，到2026年，模型训练的成本可能会超过10亿美元——前提是，训练所需的数据不会在2026年被用尽。,“大模型为了消化更多的数据，就需要更大的算法结构、更大的参数量、更大的算力。”杨帆说，“AI发展的这十几年，模型消纳的数据量在持续增长，由此需要的算力也在持续增长。”,在他看来，AI的三个关键要素数据、算法、算力中，数据是最优先的驱动力。“模型输入的数据倒逼算法的提升，算法提升又倒逼算力的增强。三个要素共同形成规模化后，最终产出一个更好的智能涌现。”杨帆说。,大模型的核心竞争力,数据、算力高成本投入后形成的模型越大，在后期运行时的成本也就越大。,摩根士丹利银行在今年年初就给出测算，如果把谷歌一半的搜索工作替换成当下的GPT程序来处理的话，谷歌每年可能会额外损失60亿美元。模型越大，损失的钱就越多。,OpenAI公司的CEO山姆·阿尔特曼在今年4月份回顾AI大模型的发展历史时坦言：“我们正处于一个时代的终结点上。”这个时代就是AI模型越大越好的时代。,杨帆对此也有类似的判断。在他看来，近十几年来AI的发展脉络中，对数据、算力等因素的大规模的追求是一条明线，而真正决定核心竞争力的其实是那条暗线，即对效率的优化。,“这条暗线里，有大量的工程性、细节性的问题要解决，除了对算力有一定的要求，也还要一步一步地去做。”杨帆说。,业界已经开始将注意力转向提高模型效率的研究上，其中一个方法就是减少模型参数的数量，但用更多输入数据来训练现有的、规模更小的模型。这个方法的训练时间虽然更长，模型规模虽小，但运行速度会更快，使用成本也会更低。,另一个方法来自谷歌的一个研究团队。他们把大型通用模型所需的特定知识，分拣、提炼到一个规模相对较小的专用模型中。让大模型当老师，小模型当学生。在具体的训练过程中，研究人员要求“老师”回答问题，并要具体展示它自己是如何推理得出结论的。然后，再把大模型老师得出的答案和答案背后的推理逻辑，用来训练小模型学生模型。,通过这个老师言传身教的方法，能够训练一个只包含7.7亿个参数的小模型，而它在专门的逻辑推理任务上要优于拥有5400亿个参数的大模型。,杨帆给出的方法是，在输入训练数据时，数据科学家分拣、“清洁”出其中大量的低效、垃圾信息，目的是避免大模型“学傻了”。,“大模型对规模的追求，在一定程度上是数据、算力、电力等这些资源的堆积。但如果效率优化做得越好，在同等量资源投入时，就可以支撑对更大规模的追求目标。”杨帆说，“所以说，效率优化真正决定了AI模型在产业服务端的核心竞争力。”

(责任编辑：知识)

利物浦0華斯高對基斯奧馬