可并行运行 128 个 LLaMA 2 7B 流，开发者测试苹果 M2 Ultra 芯片模型推理表现-蓝影头条

当前位置：当前位置：首页 >焦点 >可并行运行 128 个 LLaMA 2 7B 流，开发者测试苹果 M2 Ultra 芯片模型推理表现正文

可并行运行 128 个 LLaMA 2 7B 流，开发者测试苹果 M2 Ultra 芯片模型推理表现

[焦点] 时间：2024-04-26 16:06:41 来源：蓝影头条作者：焦点点击：180次

10 月 13 日消息，可并据 Y Combinator 论坛消息，行运行个芯片名为 Georgi Gerganov 开发者日前使用苹果 M2 Ultra 芯片，流开进行了一系列 LLaMA 模型推理测试，测试测试显示该芯片在并行运行 128 个 Llama 2 7B 流时，苹果效果较佳。模型

▲ 图源 Georgi Gerganov 在 GitHub 披露的推理测试表现

据悉，LLaMA 模型推理测试强调内存带宽，表现而非计算能力，可并而苹果的行运行个芯片 M2 Ultra 芯片号称“内存带宽达 800GB/s”，因此推理时效果良好。流开

▲ 图源 Georgi Gerganov 在 GitHub 披露的测试测试表现

不过虽然 M2 Ultra 芯片的内存带宽具有优势，但用户最多只能获得 192 GB RAM，苹果用户花费 5600 美元（注：国行 44999 人民币）购买搭载 M2 Ultra 芯片及 192GB 运行内存的模型 Mac Studio，价格足够买一台“拥有 1TB RAM、推理搭载 RTX 4090 的 PC”。

▲ 图源 Y Combinator

▲ 图源苹果官网

Georgi Gerganov 据此认为，如果用户的工作负载（如推理）不需要超过 192 GB，那么选择相关机器时可以更重视“内存带宽”表现，但如果用户有其他工作需求，则可以看看相对应价格的 PC。

参考

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，所有文章均包含本声明。

(责任编辑：焦点)

唐志书任北京中医药大学校长傅明执法上海德比马宁出任浙江vs国安VAR裁判