当前位置:当前位置:首页 >知识 >商汤大模型观:告别“越大越好” 正文

商汤大模型观:告别“越大越好”

[知识] 时间:2024-04-30 00:13:56 来源:蓝影头条 作者:焦点 点击:58次

    ,越大越好效率优化决定了AI模型在产业服务端的核心竞争力。,商汤文|《中国企业家》记者 赵建凯,编辑|李薇,图片来源|受访者,上海漕河泾新兴技术开发区的写字楼大同小异,区别只在于写字楼的大模高低大小,以及外层玻璃幕墙颜色的型观深浅。但以中环路为界线,告别内侧的越大越好虹梅路1900号显得“格格不入”——从远处望去,这栋建筑就像一艘航空母舰停靠在路边。商汤,大模商汤科技就在这栋建筑里。楼下漕河泾开发区公园篮球场,型观部署了商汤AI技术支持的告别视觉动作捕捉系统,不仅可以对场上球员们的越大越好运球投篮姿势、跑动速度、商汤弹跳高度等竞技数据实时记录统计,大模还能抓取到比赛时的型观快攻回防、急停跳投等精彩瞬间。告别,在由ChatGPT引发的最新波次AI淘金热中,每家公司都在按照自己的方式行事。有卖“镐头、铲子”的,比如英伟达这类公司;也有专门卖“茶水”的,比如通过大规模人工方式给大模型训练做数据标注的……商汤科技则是要做AI行业的“原力场”。,,在商汤上海办公室里,商汤科技联合创始人、商汤科技大装置事业群总裁杨帆对《中国企业家》解释,“原力场”即把诸如AI原生基础设施、智能计算中心、算法优化服务、算力这些原力“封装”在大装置里,源源不断地输出给市场、客户、合作伙伴。,大装置是源于商汤对AI产业进化趋势的判断。“大概十年前,我们觉得AI产业在未来一定会形成分化。在分化的过程中,整个AI基础设施上的各个要素,以一种更加高效、低成本的方式,被提供给更多的人使用,从而降低AI基础设施的构建成本和使用门槛。”杨帆说。,商汤科技联合创始人、商汤科技大装置事业群总裁杨帆。,杨帆表示,大装置就是这种分化后的AI基础设施的称谓。它的目标与定位是,打造高效率、低成本、规模化的下一代AI基础设施与服务,赋能AI生产新范式。正如AI教父杨立昆所言:“通过增强人类智能,AI可能引发新的文艺复兴,或是启蒙运动的新阶段。”,不过,在杨帆看来,如火如荼的大模型已经告别“越大越好”的时代,业界开始将注意力转向提高模型效率的研究上,效率优化将真正决定AI模型在产业服务端的核心竞争力。,构成AI基础设施,人类又败给了AI机器人。,9月初,沃顿商学院的几位教授组织了一场“人机竞赛”,让MBA学生对战ChatGPT,各自想出一个对大学生有吸引力、售价不到50美元的新产品或服务的创意。,在15分钟内,MBA学生只想出了5个产品创意,而ChatGPT却生成了200个,包括100个自然生成和100个有示例提示创意。,最终结果显示,原始ChatGPT自动生成的产品平均购买概率是46.8%,有示例提示的ChatGPT生成的产品平均购买概率是49.3%,而MBA学生做成的产品,平均购买概率是40.4%。,这个最终结果令沃顿商学院教授兼创新研究管理所联席主席Christian Terwiesc大跌眼镜:“我一直以为创意是人类最擅长领域之一,但测试结果让人大吃一惊。”沃顿商学院有超过20年的产品设计和创新课程教学经验,已举办了十多次类似的产品创意竞赛。,竞赛结果一出,一些人极度亢奋,另一些人则极度悲观,认为AI已经进步到之前只有人类智力才能达到的程度,如今的AI终于超越了人类,并越来越有可能取而代之。,“这种把人与AIGC对立起来进行比赛,其实有一个误区。把AI机器和人去做比较,这个事情没有意义。”杨帆说,“我的个人观点是,不应该让人类去跟AI机器比创意,而是让大家都用GPT-4,人跟人来比创意,看两个MBA学生之间谁能用更短的时间做出更好的创意。”,按照杨帆的这套推理逻辑,与OpenAI的GPT-4比拼的,确实也不该是人类,而是要用别家公司的大型语言模型——例如,Meta的LLaMA模型、谷歌母公司Alphabet的LaMDA,或者与自己的前一个版本GPT-3来比。,特别是要在大模型的训练数据规模,海量数据中自我学习的算法高低,以及支持训练、学习计算能力的大小,三个关键指标上的着力比拼。,“今天的AI基础设施,就是数据、算法、算力‘三位一体’。”杨帆说,“商汤科技一直致力于AI基础设施的构建,也是基于这三个方面。”,杨帆强调,并不是因为最近AI大模型的火热,商汤科技才开始做AI基础设施的构建,商汤从诞生之日起就在做这件事情,“国内还没有人提‘AI基础设施’的时候,我们很早就提出来这个概念”,而这种AI基础设施的服务能力,对产业的价值巨大。,“如今的AI不再像以前那样,一个个单点位去解决各种各样的行业场景,而是以产业面、行业层覆盖的方式去解决。”杨帆说。,这种秋风扫落叶式的解决方案,虽然不能解决掉所有问题,但解决掉十个问题中的七个,难度并不大。,“数据”是最优先驱动力,类似ChatGPT这种的生成式AI,是以大型语言模型为基础的。通常情况下,这些模型通过吸收互联网上的大块内容来加以训练。这些内容可以是文本、图像、音频文件,也可以是其他类型的数据。而训练的目的,是让这些AI大模型可以解读人类用自然语言发出的指令,并在理解之后通过文本、图片,甚至音乐的形式,对人类的指令再做出回应。,非营利性研究机构Epoch AI预计,按照目前的吸收速度,到2026年,大模型将用尽互联网上的所有高质量文本内容。,训练大模型是一个烧钱的活计。仅仅GPT-4这一版本,训练总成本就达到了1亿美元左右。除去OpenAI及其融到的资金,截至今年3月份已经有500多家生成式AI创业公司,总共融资超过了110亿美元。,眼见得往大模型上一笔笔地大投入,就有人把这一波次AI技术浪潮称为“寒武纪大爆发”或者“AI淘金热”。这其中,不仅有微软、谷歌这样的科技巨头,也有Anthropic、Stability AI这样的创业公司。,目前来看,大公司在资金投入规模、计算能力,以及将基础研究成果快速转化为商业产品的速度,都要强于创业公司。,“最新这一波次的AI浪潮,要从2012年深度学习在学术上的突破算起。”杨帆说,“这一波次浪潮让人们感触最多的是,在各个产业甚至人们日常生活中,AI能够实际地商业化、产业化落地。”,如果把AI技术发展的时间尺度再调大一些,在这个世纪的20年中都遵循着一个基本的大逻辑,“那就是怎么样才能够让机器模型消化更多的数据,产生更多、更大的智能涌现。”杨帆说。,,AI大模型在最近3~5年中,一直以惊人的速度在增长。无论是规模还是算力越大越好,已经是当下AI行业的一致认知结果,也是行业的整体趋势。,2020年6月对外发布的GPT-3有1750 亿个参数,训练的时候需要用到数千个GPU芯片,在几周之内计算处理数千亿个字(单词)的文本,光电费一项就高达460万美元。而今年3月发布的GPT-4的参数规模是其上一版本的六倍,有1万亿个。,据Epoch AI的估计,在2022年,训练一个尖端大模型所需的计算能力每六到十个月就翻了一番。按照这个速度,到2026年,模型训练的成本可能会超过10亿美元——前提是,训练所需的数据不会在2026年被用尽。,“大模型为了消化更多的数据,就需要更大的算法结构、更大的参数量、更大的算力。”杨帆说,“AI发展的这十几年,模型消纳的数据量在持续增长,由此需要的算力也在持续增长。”,在他看来,AI的三个关键要素数据、算法、算力中,数据是最优先的驱动力。“模型输入的数据倒逼算法的提升,算法提升又倒逼算力的增强。三个要素共同形成规模化后,最终产出一个更好的智能涌现。”杨帆说。,大模型的核心竞争力,数据、算力高成本投入后形成的模型越大,在后期运行时的成本也就越大。,摩根士丹利银行在今年年初就给出测算,如果把谷歌一半的搜索工作替换成当下的GPT程序来处理的话,谷歌每年可能会额外损失60亿美元。模型越大,损失的钱就越多。,OpenAI公司的CEO山姆·阿尔特曼在今年4月份回顾AI大模型的发展历史时坦言:“我们正处于一个时代的终结点上。”这个时代就是AI模型越大越好的时代。,杨帆对此也有类似的判断。在他看来,近十几年来AI的发展脉络中,对数据、算力等因素的大规模的追求是一条明线,而真正决定核心竞争力的其实是那条暗线,即对效率的优化。,“这条暗线里,有大量的工程性、细节性的问题要解决,除了对算力有一定的要求,也还要一步一步地去做。”杨帆说。,业界已经开始将注意力转向提高模型效率的研究上,其中一个方法就是减少模型参数的数量,但用更多输入数据来训练现有的、规模更小的模型。这个方法的训练时间虽然更长,模型规模虽小,但运行速度会更快,使用成本也会更低。,另一个方法来自谷歌的一个研究团队。他们把大型通用模型所需的特定知识,分拣、提炼到一个规模相对较小的专用模型中。让大模型当老师,小模型当学生。在具体的训练过程中,研究人员要求“老师”回答问题,并要具体展示它自己是如何推理得出结论的。然后,再把大模型老师得出的答案和答案背后的推理逻辑,用来训练小模型学生模型。,通过这个老师言传身教的方法,能够训练一个只包含7.7亿个参数的小模型,而它在专门的逻辑推理任务上要优于拥有5400亿个参数的大模型。,杨帆给出的方法是,在输入训练数据时,数据科学家分拣、“清洁”出其中大量的低效、垃圾信息,目的是避免大模型“学傻了”。,“大模型对规模的追求,在一定程度上是数据、算力、电力等这些资源的堆积。但如果效率优化做得越好,在同等量资源投入时,就可以支撑对更大规模的追求目标。”杨帆说,“所以说,效率优化真正决定了AI模型在产业服务端的核心竞争力。

(责任编辑:知识)

    相关内容
    精彩推荐
    热门点击
    友情链接