Llama2 7B中文魔改PK:「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调

[休闲] 时间:2024-05-02 06:19:52 来源:蓝影头条 作者:探索 点击:99次

      机器之心 SOTA!中文指令指令模型社区专栏  ,魔改作者:Jiying,专栏编辑:之乎、 雅芳、雅意小土同学,百万,本专栏由机器之心SOTA!模型社区出品,集微每周日于机器之心公众号持续更新。伶荔扩量预,词增探索 Llama2 7B 中文汉化模型,雅意百万中文指令集魔改、训练FlagAlpha采用Lora微调+合并原权重、微调伶荔扩词+增量预训练+指令微调后,中文指令指令中文能力如何?,魔改Meta 发布的 Llama 2,是雅意新的 SOTA 开源大型语言模型(LLM)。Meta 表示 Llama 2 在众多外部基准测试中都优于其他开源的百万语言模型,包括推理、集微编程、伶荔扩量预熟练程度与知识测验。与第一版 Llama 相比,Llama 2 允许商业使用。,该版本包含基础和对话两种模型,每种模型有 3 种参数大小:7B、13B 和 70B:,基础模型:在 2 万亿个标记上训练,上下文长度是 Llama 1 的两倍。训练语料相比 LLaMA 多出 40%,上下文长度是由之前的 2048 升级到 4096,可以理解和生成更长的文本。,对话版本:Llama 2 使用公开的在线数据进行预训练。然后通过使用监督微调创建 Llama-2-chat 的初始版本。接下来,Llama-2-chat 使用人类反馈强化学习 (RLHF) 进行迭代细化,其中包括拒绝采样和近端策略优化 (PPO)。,Llama2 一经发布后,中文 Llama2 的一些工作便高效地卷了起来,例如在 Llama2 基础上做中文指令微调,让模型能够对齐中文能力;或是进行增量预训练/继续预训练+指令微调中文 SFT。,在本期实测中,我们将对比 10B 以下 LLama2 base/Chat 版本和中文魔改模型的效果。参与实测的模型是 LLama2 7B、 LLama2 7B chat、YaYi-7B-LLama2、FlagAlpha-LLama2-Chinese-7B-Chat、伶荔 Chinese-LLaMa-2-7B。,以上模型均部署在某国内头部公有云厂商的云服务器上进行的实测,硬件资源情况如下:,CPU&内存:12核(vCPU) 92 GiB,GPU:NVIDIA V100 32GB,实测结果总体分析,基于 Meta 对 LLama 2 关于 推理、编程、熟练程度与知识测验能力的信心,我们在逻辑推理、代码注释、文本生成、文本摘要、常识问答维度上实测模型的中文表现。为应对可能存在的数据泄露问题,我们实测的所有任务都是从生活中搜集的,不来源于任何公开的测评基准。,7B 魔改的 Llama2 模型到底能不能使?实测发现雅意在百万指令集微调后,给出的中文代码注释就非常的标准了;伶荔采用扩词+继续预训练+指令微调后,中文文本处理能力强;FlagAlpha 的中文魔改采用了中文指令+Lora微调并与原 Llama2 7B 的权重合并,生成的中文回答准确性高,语言文字精准、逻辑清晰;,具体,从实测结果我们得到以下几点分析(具体实测结果在本文的下部分章节呈现):,1) Llama2 本身对中文的支持较弱,在本次实测中无法正确回答我们测试的中文问题。例如,在文本摘要实测题上,Llama2 7B 无法理解题目并提取出文字概要。,2)Llama2 base 在回答中文问题上表现差别大。Llama 2 7B 生成的回答中英文夹杂,Llama2-7B-chat 生成的回答是全英文内容,没有“用中文回答”的能力。,3)在本期实测任务中,中文魔改后的模型完成中文任务的能力整体明显上升。FlagAlpha、伶荔、雅意,都能不同程度的答对我们的问题,Llama2 base 和魔改后的差别就像答卷 0 分和答卷 70、80 或 100 分的区别。,4)在魔改后的模型中,FlagAlpha Chinese Llama2 7B-chat 表现较好,答题准确性搞,阐述的语言文字精准、逻辑清晰。通过查阅该模型的公开资料,猜测原因在于“由于 Llama2 本身的中文对齐较弱,其采用中文指令集,对 llama-2-7b-chat-hf 进行了 LoRA 微调,使其具备较强的中文对话能力”。,5)在魔改后的模型中,雅意和伶荔的表现都略逊与 FlagAlpha Chinese Llama2 7B-chat。但是二者的中文任务完成能力基本合格,从我们的角度来看,都算完成了各项任务,毕竟人类来答一些文本概要、数学逻辑的问题,回答的语言也未必是完美的,答题的逻辑可能也会有一点混乱。所以我们认为,雅意和伶荔都是成功的中文魔改版本。,6)雅意和伶荔的代码相关能力和文本处理能力明显不同。雅意更偏向于代码能力,给出的代码注释非常标准,相对应的,伶荔给出的代码注释就无法达到标准。另一方面,伶荔文本处理能力更强,伶荔给出的文本生成相关的结果文字都更加优美一些,当然,这个对比只能是 85 分和 90 分的区别,雅意和伶荔的中文能力都是不错的。,,实测结果 # Llama2 7B base,在逻辑推理、代码注释、文本生成、文本摘要、常识问答这 5 道中文题中,Llama2 7B base 全部答错,比如第一道数学推理题, Llama2 7B 无法理解题目,生成的回答跟题目没有关系,是一段中英文夹杂内容。文本生成、摘要和常识题目的回答情况跟推理题差不多。,实测结果 # LLama2-7B-Chat,Llama2-7B-chat 的 5 道题目也全部回答错误了,生成的回答都是纯英文内容。但在 chat 版本中,仔细阅读英文回答,看起来模型似乎能理解题目的意思了,但是后面跟着的答案并不正确。,从回答正确性角度来讲,Llama2-7B-chat 要优于 Llama2-7B,特别是常识能力的题,实际上 chat 版本给出的答案是差不多的(差不多的意思是它说的这只鸟并不是最小的鸟,但是它答题的方式是对的)。,实测结果 # FlagAlpha Chinese LLama2 7B-chat,5 道题目,该模型都给出了准确的回答,同时回答问题语序通顺、用词准确。汉化后的 Llama2-7B 可以精准的理解了全部的推理、摘要、常识、生成和代码注释任务,并给出了正确答案。,特别是文本摘要这道题目,该模型生成的摘要内容准备,唯一不足是超字数,该模型忽略了题目中“30 字以内的要求”。但从语文角度来讲,“上游梅里雪山覆盖大片原始森林”这一句可以略掉,摘要抓住最重点“最重要的水土保持屏障”即可。,实测结果 # YaYi-7B-LLama2,Yayi-7B-Llama2 的结果比 FlagAlpha Chinese Llama2-7B-chat 稍差,但也基本正确的完成了全部任务。只是在给出的答案的正确性、语句通顺性、标准中文表述的准确性等方面都稍差。二者之间的比较就类似初中语文水平和小学五六年级的语文水平。当然我们不能说五六年级水平回答的就是错误的,但是明显会感觉初中水平给出的答案读起来更加顺畅一些。,5 个任务中,代码注释任务的完成情况是最好的,其完整度甚至超过 FlagAlpha Chinese Llama2-7B-chat。所以我们猜测 Yayi-7B-Llama2 的中文文本处理能力稍弱,例如文本摘要、文本生成、推理等。,实测结果 # 伶荔 Chinese-LLaMa-2-7B,伶荔与雅意的整体表现相差不多,都属于能答对但是总让人觉得中文的能力仍有待提高。但是二者的不同之处在于,伶荔的代码注释能力稍差,或者说,伶荔这道代码注释题基本没能够正确给出注释。但是伶荔的文本生成、推理和回答常识问题的能力还可以。所以我们猜测,伶荔的中文文本处理相关能力较强。

(责任编辑:热点)

    相关内容
    精彩推荐
    热门点击
    友情链接