AI芯片变局：各大门派“围攻”英伟达-蓝影头条

AI芯片变局：各大门派“围攻”英伟达

[热点] 时间：2024-04-19 11:16:17 来源：蓝影头条作者：时尚点击：136次

21世纪经济报道记者倪雨晴、围攻实习生朱梓烨深圳报道

当ChatGPT在彼岸快速进化的芯片同时，国内的变局大模型应用也如火如荼。

“我们最近刚购买了百度文心一言的门派标准通用接口服务，业内采购需求非常旺盛。英伟”一家传统企业的围攻数字化负责人告诉21世纪经济报道记者。

他介绍道：“标准接口之外，芯片他们还提供云端部署（公有云）和本地化部署（私有云）两种服务。变局其中，门派云端部署的英伟基本费用是一年一个并发20万，有需求的围攻公司一年普遍会有10到20个并发，费用都是芯片在百万级别，本地化的变局私有云部署则需要1000万部署费用。”

可见，门派大规模地使用生成式AI依然成本高昂。英伟背后的两个事实是，AI订单持续增加、核心的硬件成本GPU水涨船高。

一位AI领域资深从业者甚至向21世纪经济报道记者直言：“你在为你没有见过的显卡付费。现在消费者使用的几乎所有AI类服务，全部都是由算法提供的，比如短视频的视频编辑系统、推荐系统都是由算法进行驱动，这些算法的底层全部都需要调用GPU。这就意味着，只要你刷抖音，你就在直接或间接地使用GPU。”

借着新东风，GPU代表者英伟达一举站上AI的“光明顶”。而AI江湖中的门派也在疯狂迭代，“围攻”光明顶。芯片巨头们蓄势待发，英特尔已经发布了Gaudi 2、即将推出Gaudi 3、正在研发Falcon Shores；AMD发布了MI300系列，MI400正在路上；国内的华为昇腾、以及AI芯片企业们也在提供算力新选择。

互联网大厂们也在加快自研步伐，亚马逊有机器学习训练芯片Trainium和推理芯片Inferentia；谷歌研发已久，今年发布了第五代定制张量处理器（TPU）芯片TPUv5e，用于大模型训练和推理；近日传微软将在下月发布AI芯片，代号“Athena”；甚至有消息称OpenAI也正在探索AI芯片的自研。

AI芯片的战场上，继续硝烟四起。

英特尔和AMD的猛攻

今年以来，英特尔和AMD带头“主攻”，在他们的年度大会，AI是绝对的主题词。从各自布局来看，其实两家都已有丰富的产品矩阵，AI芯片主要分为GPU、FPGA以及ASIC，英特尔和AMD通过收购和研发都覆盖了三种类型的芯片，但是两者侧重点有所不同。

从英特尔的动作看，今年最受关注的莫过于Gaudi系列，Gaudi属于ASIC类别。已经发布的Gaudi 2芯片是专为训练大语言模型而构建，采用7纳米制程，有24个张量处理器核心，并且英特尔还针对中国市场推出定制版的Gaudi 2，争夺市场的野心可见一斑。

值得注意的是，Gaudi系列芯片是基于英特尔之前收购的AI公司Habana，而规划中的AI新品Falcon Shores将在Habana的架构基础上，和英特尔原有的GPU等技术进行融合，因此Falcon Shores也备受业内关注。

对于FPGA业务，英特尔则在10月初宣布将其拆分，此前英特尔斥巨资收购了FPGA龙头Altera，数据中心一直是FPGA的重要发展市场，如今该业务即将“独立”并IPO。而负责英特尔FPGA的部门就是PSG（可编程解决方案事业部），英特尔表示，PSG预计将于2024年1月1日开始独立运营。

英特尔还预计，将在2024年第一季度财报中，将PSG作为一个独立的业务部门进行报告。在未来两到三年内，英特尔将保留多数股权，同时计划对PSG进行首次公开募股，并可能与私人投资者探讨加速业务增长的机会。

事实上，PSG的业绩颇为稳定，PSG团队预计在2023年推出15款新产品，目前已推出11款。FPGA产业也处于增长中，据第三方估计，FPGA市场将以复合年增长率（CAGR）超过9%的速度增长，从2023年的80亿美元收入增至2027年的115亿美元。剥离更多是因为英特尔在进行整体业务架构重组，欲通过此举让PSG更独立灵活地运作，获取更大的成长空间。

对于英特尔而言，其正在聚焦IDM新规划，重新回到制程节奏中，并在AI新空间上精进。在今年的on技术创新大会上，英特尔公司高级副总裁、英特尔中国区董事长王锐在接受21世纪经济报道记者等采访时谈道：“经常有人问我，谁是英特尔的竞争者？我一直说，英特尔的竞争对手是自己。任何一家大公司也都一样，当你不断前行的时候，经常就会自己把自己绊住。认识到问题后，然后找到一个策略去改变，到开始真正把这个引擎重新转起来，这是一个艰难的历程。”

她进一步表示：“Pat（英特尔CEO帕特·基辛格）回来之后，可以看到我们的里程碑说到做到，英特尔把自己的进度重新抓回了自己手中。外部的环境千变万化，我们有这么多的长处，只要把自己的执行力落实了，一定有机会。比如AI，我们希望跟自己的客户和生态系统一起去优化。”

在王锐看来，从Gaudi2、Gaudi3到Falcon Shores，再加上至强的AI应用，是英特尔未来加速器与AI计算发展的路线图，英特尔强调AI无所不在，就是在客户端、边缘端和云端也有AI。“几十年间大家都在推动AI发展，现在已经有很多到了梦已成真的时候。对于ChatGPT的热潮，我认为其实ChatGPT目前的这些应用只是一个非常短暂的中间步骤，以后会看到越来越多的应用。”王锐告诉记者。

再看AMD，今年6月，AMD发布用于训练大模型的GPU Instinct MI300系列，主要包括MI300A、MI300X两个版本。AMD CEO苏姿丰称，这是全球首款针对AI和高性能计算（HPC）的加速处理器（APU）加速器。同时，AMD正积极研发更为先进的MI400系列加速器。此外，在FPGA方面，AMD已经收购了赛灵思进行整合，来拓展数据中心市场。

日前，天风国际分析师郭明錤在社交平台上表示，AMD的AI芯片出货量预计在2024年、2025年快速增长。到2024年，AMD的AI芯片出货量（主要是MI300A）预计将达到英伟达出货量的约10%，微软有望成为 AMD AI 芯片的最大客户，紧随其后的是亚马逊。如果微软与AMD的合作进展顺利，AMD获得Meta和谷歌的订单，预计2025年AMD的AI芯片出货量将达到英伟达（基于CoWoS封装技术）的30%或更多。

同时，AMD也在积极布局AI领域，今年8月连续收购了两家AI企业，分别是AI软件公司Nod.ai与来自法国的AI初创公司Mipsology，以增强其人工智能软件的开发能力。根据公开信息，Nod.ai主要为大型数据中心运营商和其他客户提供优化的AI解决方案，已经开发了一个由开发者工具、库和模型组成的软件生态系统。而Mipsology是AMD的长期合作伙伴，此前一直为AMD开发AI推理与优化解决方案和工具，其旗舰产品为Zebra AI软件。

AMD总裁Victor Peng在接受媒体采访时表示，最新的收购是为了执行AMD“建立用AMD芯片开发的AI软件集合”的战略。在AMD计划大力投资于将使用其人工智能芯片所需的关键软件，这也被业内视为AMD追赶英伟达的策略之一。

互联网自研芯片大军

互联网企业是GPU的核心用户，但与此同时，巨头们早已开启自研AI芯片的道路。一方面是出于成本和多渠道供应的考量，另一方面也是针对自身业务需求定制从而强化竞争力，其AI芯片也基本用于公司业务，并不在公开市场销售。

近期的热点莫过于微软和OpenAI。据媒体报道，微软正在开发自己的AI芯片，该芯片最早将于下个月推出，芯片代号为“雅典娜（Athena）”，类似于英伟达的图形处理器，旨在训练和运行大型语言模型的数据中心服务器。若该芯片顺利推出，将减少微软对英伟达芯片的依赖并降低成本，据悉“Athena”的竞争目标剑指英伟达的H100 GPU。

早在今年5月，就已经有消息传出微软正在提供财务支持，以加强AMD研发AI芯片，并与之合作开发代号为“Athena”的自研AI芯片。报道还称相关计划从2019年已经开始进行，目前微软内部至少有 300名员工在从事代号为“Athena”的芯片研究计划。也可以看到，芯片厂商和互联网厂商的合作模式更深入、也更多元化。

在英伟达一卡难求、一卡千金的情况下，特斯拉创始人马斯克在财报会上直言，投资超过10亿美元用于D1芯片的研发，是因为特斯拉无法得到足够的英伟达GPU。如今，OpenAI都可能成为AI自研芯片的新晋者。

据媒体报道，OpenAI至少从去年开始讨论各种解决方案，以解决AI芯片成本高昂、短缺等问题。包括自行研发AI芯片、与英伟达在内的芯片商更密切合作、也包括评估潜在收购目标来加速开发，从而使AI芯片供应来源更多元化，而不受限于英伟达。

从一组数据就能看出训练大模型的GPU需求量之大。TrendForce集邦咨询向21世纪经济报道记者提供的数据显示，由于生成式AI必须投入巨量数据进行训练，为缩短训练就得采用大量高效能GPU。以ChatGPT背后的GPT模型为例，其训练参数从2018年约1.2亿个到2020年已暴增至近1800亿个，预估GPU需求量约2万颗，未来迈向商用预计可达3万颗（以英伟达A100为主）。

事实上，以亚马逊和谷歌为代表的互联网巨头早已躬身入局。以谷歌为例，TPU的研发已久，最新推出的第五代芯片TPUv5e，用于大模型训练和推理，与上一代芯片相比，TPUv5e每一美元的训练性能提高2倍，每一美元的推理性能提高2.5倍。这一新品也被谷歌云形容为“超级计算机”，强调将性能与成本降低相结合，使更多的组织能够训练和部署更大更复杂的AI模型。

而TPU也和谷歌的云服务紧密结合，同时谷歌云还将推出由英伟达 H100 GPU提供动力的A3 VM，能够在前一代A2 上提供三倍的训练性能。作为AI老将，谷歌从云端、终端、芯片、大模型、平台工具等等，进行了全覆盖。它和微软一样，既是云计算的重要参与方，也是应用集大成者，在生成式AI的普及趋势下，先行者谷歌还将如何落地AI也是关注焦点。

再看亚马逊，作为全球的云计算王者，其也在持续迭代自研芯片。此前，亚马逊发布了基于自研的AI训练芯片Trainium和推理芯片Inferentia。亚马逊表示，采用了Trainium的云服务器将大模型训练成本降低了50%，最多可以将30000个Trainium芯片连接起来提供超过6 exaflops的算力集群，连接带宽可高达1600Gbps，与之相较目前AI服务器之间连接带宽最高水平约为3200Gbps，Inferentia2则针对大模型推理进行优化，将推理的性价比提高了40%。

亚马逊云科技全球产品副总裁Matt Wood在今年接受媒体采访时曾谈道，芯片仅是整个AI图景的一部分，一方面，客户可以在亚马逊云科技的云上使用英伟达等公司的芯片；另一方面，自研AI训练芯片Trainium在网络互联等领域仍有显著优势，并降低了成本。

再看国内，BAT等巨头均已入场，比如百度旗下的昆仑芯片，瞄准的是云端AI通用芯片；阿里已经推出高性能推理AI芯片含光系列；腾讯自研的AI推理芯片紫霄，已经量产并在多个头部业务落地，目前在腾讯会议实时字幕上已实现全量上线；字节跳动此前也表示在组建相关团队，在AI芯片领域做一些探索。

IDC亚太区研究总监郭俊丽向21世纪经济报道记者表示，近日互联网巨头通过自研AI芯片，与包括英伟达在内的其他芯片制造商更密切地合作，想要在英伟达之外实现供应商多元化，同时获得更好的控制权，提升产品适配性，更好匹配产品开发节奏。

她进一步分析道：“长期来看，这一趋势对英伟达的业务会造成影响，但不会太大。因为对于互联网企业来说，芯片设计生产将面临一些挑战。”

其一是芯片设计技术复杂，高算力芯片的结构非常复杂，计算单元、存储访问以及芯片互联都需要丰富的经验和慎重的考量；其二是软件生态非常关键，英伟达长时间建设的CUDA生态，是迄今为止最发达、最广泛的生态系统，也是深度学习库最有力的支持。要想撼动其地位，具有一定难度；其三是芯片生产具有挑战，获得产能、保持良率、先进封装技术等环节也是各大技术巨头要解决的问题。

“总体而言，想要撼动英伟达的垄断地位，并不是一朝一夕的事。各大科技巨头要想在AI算力芯片上突围，就必须在专利、核心技术、人才建设、生态建设等方面不断积累，并获得突破。采用自研+采购可能是一个更加合适的策略。”郭俊丽总结道。

英伟达的AI版图

当前，英伟达仍稳坐GPU王座。近日英伟达的最新路线图被曝光，Arm和x86架构的芯片都会更新。多位业内人士向记者表示，产品更加强大，代际的差距进一步拉大。

一方面，GPU的需求还在增加。集邦咨询预估到2025年，全球若以等同ChatGPT的超大型AIGC产品5款、Midjourney的中型AIGC产品有25款，以及 80款小型AIGC产品估算，上述所需的运算资源至少为145600~233700颗英伟达的A100 GPU。

目前主要由搭载NVIDIA A100、H100、AMD MI300，以及大型CSP业者如Google、AWS等自主研发ASIC的AI服务器成长需求较为强劲，2023年AI服务器出货量（包含搭载GPU、FPGA、ASIC等）出货量预估近120万台，年增率近38%，AI芯片出货量同步看涨，可望成长突破五成。

另据研究机构Omdia透露，英伟达在2023年第二季度出货了900吨 H100显卡，据估算一块 H100 显卡的重量大约是3公斤。因此，可以推算出英伟达在第二季度卖出了大约30万块H100显卡，这是一个巨大的数字。Omdia表示，预计英伟达在未来几个季度将销售大致相同数量的GPU，因此该公司预计今年将销售约3600吨的H100 GPU，也就是每年大约有120万个H100 GPU。

另一方面，除了硬件的供不应求，今年英伟达在AI领域的投资和云计算方面的布局同样瞩目。

英伟达为了保证自身在AI领域内持续领先，除了要在技术方面更新算力更强的芯片外，也在参与人工智能生态领域的其他环节。今年英伟达强化了收购投资之路，据21世纪经济报道记者不完全统计，今年以来英伟达已投资收购了十余家人工智能方面的初创企业，试图完善在AI领域产业链多个环节的布局。

随后英伟达又展开了多项投资，整体来看，英伟达的投资主要分为四个类别，一是云服务提供商，二是AI软件与应用企业，三是AI芯片公司，四是与“AI+”合作的其他领域企业。

在云服务商方面，英伟达在4月参与了CoreWeave公司2.21亿美元的B轮融资，同时又在7月被媒体报道将以3亿美元入股云提供商Lambda Labs，此项交易接近达成。

而在AI软件企业方面，英伟达的投资更是频繁多元。早在今年2月，英伟达就宣布收购了人工智能初创公司OmniML，主要产品是Omnimizer，一个旨在快速、轻松地大规模进行AI优化的平台。通过OmniML所提供的技术与产品，机器学习模型能够小型化，且能够在边缘设备上运行，而不是依赖云计算。

在3月英伟达参与了专注人工智能模型开发领域的Adept公司3.5亿美元的B轮融资；随后在6月到7月先后投资了三家大语言模型开发企业Cohere、Inflection AI与来自德国的Aleph Alpha，分别参与了这三家公司2.7亿美元的投资，13亿美元的融资，以及1.12亿美元的融资。

除此之外，英伟达也参与了AI视频编辑器企业Runway1.41亿美元的融资，OpenAI的知名对手以色列人工智能初创公司AI21 labs在今年1.55亿美元的C轮融资，以及一家试图构建AI代理工具平台的公司Imbue2亿美元的投资。

近来英伟达的投资方向也越发多元，参与了AI芯片初创公司Enfabrica1.25亿美元的融资之外，还投资了一家医药公司Recursion与一家机器人公司Recursion。可见在英伟达在AI生态中的布局积极关注软件与应用方面的企业，但同时也将棋子下在了更广阔的AI合作应用领域。

在原有的AI基础上，英伟达进一步拓宽护城河。尤其是在云计算领域，英伟达也在通过自己的方式进入到云服务市场。今年英伟达提出了云服务的解决方案NVIDIA AI foundations，企业可以通过在 NVIDIA DGX Cloud 快速采用生成式AI。英伟达创始人黄仁勋表示要做“AI界的台积电”。台积电为芯片设计公司大大降低了生产门槛，英伟达也要做代工厂的角色，通过和大模型厂商、云厂商合作提供高性价比的云服务。

英伟达在8月份的季度报告中表示，向开发人工智能或虚拟现实应用程序的公司出售软件是一个潜在的3000亿美元的收入机会。公司首席财务官Colette Kress也在季度财报电话会议上指出，软件业务每年创造数亿美元的收入，与芯片业务相比只是九牛一毛，但仍有望增长。

面对软硬件同样强大的英伟达，不论半导体还是互联网巨头，想要在短期内超越英伟达并非易事。

以英伟达和AMD的竞争为例，拓墣产业研究的报告就指出，2022年第四季以前英伟达、AMD Data Center营收趋势相当一致，营收规模也基本保持同样差距，然2023年英伟达显著受惠AI热潮，2023年第一季、第二季Data Center营收分别年增14%、171%，与AMD大幅拉开差距。

AMD在2023年第二季陷入衰退(-11%)，主要原因为AMD Data Center营收主要来自于一般服务器(以CPU为主)，反而受到A1服务器的排挤效应影响，若2023年第四季MI300系列产品能如期量产的话将有望改善。而2022年英伟达营收来源即以Data Center（数据中心）为主，2023年比重更进一步攀升至76%，2023下半年在AI芯片出货量持续增加下比重将进一步上升。

一次又一次穿越历史周期的英伟达，正在AI高峰上加固，AMD等多个阵营正在发起新攻势，攀登中的挑战者门派还在增加，AI变局也将继续。

(责任编辑：热点)

小伙租房失联留满屋垃圾熏吐房主内幕曝光简直太意外了韩国一客机途经台湾空域时紧急迫降