在英语任务上,布开Qwen-72B在MMLU基准测试取得开源模型最高分;中文任务上,分性Qwen-72B在C-Eval、通义CMMLU、千问GaokaoBench等基准得分超越GPT-4;数学推理方面,亿参源部越闭源Qwen-72B在GSM8K、数模MATH测评中断层式领先其他开源模型;代码理解方面,型宣Qwen-72B在HumanEval、布开MBPP等测评中的分性表现大幅提升,代码能力有了质的通义飞跃。
据介绍,Qwen-72B可以处理最多32k的长文本输入,在长文本理解测试集LEval上取得了超越ChatGPT-3.5-16k的效果。研发团队优化了Qwen-72B的指令遵循、工具使用等技能,使之能更好地被下游应用集成。比如,Qwen-72B搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制AI助手,要求大模型扮演某个角色或者执行特定的回复任务。
随着Qwen-72B的开源,通义千问还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型。(文猛)
责任编辑:吴剑
(责任编辑:探索)