H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM 模型-蓝影头条

当前位置：当前位置：首页 >娱乐 >H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM 模型正文

H100 推理性能最高提升 8 倍，英伟达发布 TensorRT-LLM 模型

[娱乐] 时间：2024-04-30 23:55:56 来源：蓝影头条作者：知识点击：186次

IT之家 9 月 9 日消息，理性英伟达今天宣布推出名为 TensorRT-LLM，高提是升倍一个深度优化的开源库，能够在 Hopper 等 AI GPU 上加速所有大语音模型的英伟推理性能。,模型,英伟达目前已经和开源社区合作，利用 SmoothQuant、理性FlashAttention 和 fMHA 等尖端技术，高提实现 AI 内核来优化其 GPU，升倍可以加速 GPT-3（175 B），英伟Llama Falcom（180 B）和 Bloom 模型。模型,理性,TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案，允许工作独立于其他任务进入和退出 GPU。高提,升倍,,该方案允许同一 GPU 在处理大型计算密集型请求时，动态处理多个较小的英伟查询，提高 GPU 的模型处理性能，可以让 H100 的吞吐量加快 2 倍。,在性能测试中，英伟达以 A100 为基础，对比了 H100 以及启用 TensorRT-LLM 的 H100，在 GPT-J 6B 推理中，H100 推理性能比 A100 提升 4 倍，而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。,,在 Llama 2 中，H100 推理性能是 A100 的 2.6 倍；而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。,,IT之家在此附上报告原文，感兴趣的用户可以深入阅读。

(责任编辑：休闲)

汤尤杯八强提前出炉客机因机组成员矛盾应急滑梯放出东航致歉