H100 推理性能最高提升 8 倍,英伟达发布 TensorRT-LLM

[焦点] 时间:2024-05-07 06:21:50 来源:蓝影头条 作者:综合 点击:61次
9 月 9 日消息,理性英伟达今天宣布推出名为 TensorRT-LLM,高提是升倍一个深度优化的开源库,能够在 Hopper 等 AI GPU 上加速所有大语言模型的英伟推理性能。

英伟达目前已经和开源社区合作,理性利用 SmoothQuant、高提FlashAttention 和 fMHA 等尖端技术,升倍实现 AI 内核来优化其 GPU,英伟可以加速 GPT-3(175 B),理性Llama Falcom(180 B)和 Bloom 模型。高提

TensorRT-LLM 的升倍亮点在于引入了名为 In-Flight batching 的调度方案,允许工作独立于其他任务进入和退出 GPU。英伟

该方案允许同一 GPU 在处理大型计算密集型请求时,理性动态处理多个较小的高提查询,提高 GPU 的升倍处理性能,可以让 H100 的吞吐量加快 2 倍。

在性能测试中,英伟达以 A100 为基础,对比了 H100 以及启用 TensorRT-LLM 的 H100,在 GPT-J 6B 推理中,H100 推理性能比 A100 提升 4 倍,而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。

在 Llama 2 中,H100 推理性能是 A100 的 2.6 倍;而启用 TensorRT-LLM 的 H100 性能是 A100 的 4.6 倍。

在此附上报告原文,感兴趣的用户可以深入阅读。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

(责任编辑:时尚)

    相关内容
    精彩推荐
    热门点击
    友情链接