Llama2 7B中文魔改PK：「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调-蓝影头条

当前位置：当前位置：首页 >休闲 >Llama2 7B中文魔改PK：「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调正文

Llama2 7B中文魔改PK：「雅意」百万指令集微调 VS「伶荔」扩词+增量预训练+指令微调

[休闲] 时间：2024-05-02 06:19:52 来源：蓝影头条作者：探索点击：99次

机器之心 SOTA！中文指令指令模型社区专栏 ,魔改作者：Jiying,专栏编辑：之乎、雅芳、雅意小土同学,百万,本专栏由机器之心SOTA！模型社区出品，集微每周日于机器之心公众号持续更新。伶荔扩量预,词增探索 Llama2 7B 中文汉化模型，雅意百万中文指令集魔改、训练FlagAlpha采用Lora微调+合并原权重、微调伶荔扩词+增量预训练+指令微调后，中文指令指令中文能力如何？,魔改Meta 发布的 Llama 2，是雅意新的 SOTA 开源大型语言模型（LLM）。Meta 表示 Llama 2 在众多外部基准测试中都优于其他开源的百万语言模型，包括推理、集微编程、伶荔扩量预熟练程度与知识测验。与第一版 Llama 相比，Llama 2 允许商业使用。,该版本包含基础和对话两种模型，每种模型有 3 种参数大小：7B、13B 和 70B：,基础模型：在 2 万亿个标记上训练，上下文长度是 Llama 1 的两倍。训练语料相比 LLaMA 多出 40%，上下文长度是由之前的 2048 升级到 4096，可以理解和生成更长的文本。,对话版本：Llama 2 使用公开的在线数据进行预训练。然后通过使用监督微调创建 Llama-2-chat 的初始版本。接下来，Llama-2-chat 使用人类反馈强化学习 (RLHF) 进行迭代细化，其中包括拒绝采样和近端策略优化 (PPO)。,Llama2 一经发布后，中文 Llama2 的一些工作便高效地卷了起来，例如在 Llama2 基础上做中文指令微调，让模型能够对齐中文能力；或是进行增量预训练/继续预训练+指令微调中文 SFT。,在本期实测中，我们将对比 10B 以下 LLama2 base/Chat 版本和中文魔改模型的效果。参与实测的模型是 LLama2 7B、 LLama2 7B chat、YaYi-7B-LLama2、FlagAlpha-LLama2-Chinese-7B-Chat、伶荔 Chinese-LLaMa-2-7B。,以上模型均部署在某国内头部公有云厂商的云服务器上进行的实测，硬件资源情况如下：,CPU&内存：12核（vCPU） 92 GiB,GPU：NVIDIA V100 32GB,实测结果总体分析,基于 Meta 对 LLama 2 关于推理、编程、熟练程度与知识测验能力的信心，我们在逻辑推理、代码注释、文本生成、文本摘要、常识问答维度上实测模型的中文表现。为应对可能存在的数据泄露问题，我们实测的所有任务都是从生活中搜集的，不来源于任何公开的测评基准。,7B 魔改的 Llama2 模型到底能不能使？实测发现雅意在百万指令集微调后，给出的中文代码注释就非常的标准了；伶荔采用扩词+继续预训练+指令微调后，中文文本处理能力强；FlagAlpha 的中文魔改采用了中文指令+Lora微调并与原 Llama2 7B 的权重合并，生成的中文回答准确性高，语言文字精准、逻辑清晰；,具体，从实测结果我们得到以下几点分析（具体实测结果在本文的下部分章节呈现）：,1） Llama2 本身对中文的支持较弱，在本次实测中无法正确回答我们测试的中文问题。例如，在文本摘要实测题上，Llama2 7B 无法理解题目并提取出文字概要。,2）Llama2 base 在回答中文问题上表现差别大。Llama 2 7B 生成的回答中英文夹杂，Llama2-7B-chat 生成的回答是全英文内容，没有“用中文回答”的能力。,3）在本期实测任务中，中文魔改后的模型完成中文任务的能力整体明显上升。FlagAlpha、伶荔、雅意，都能不同程度的答对我们的问题，Llama2 base 和魔改后的差别就像答卷 0 分和答卷 70、80 或 100 分的区别。,4）在魔改后的模型中，FlagAlpha Chinese Llama2 7B-chat 表现较好，答题准确性搞，阐述的语言文字精准、逻辑清晰。通过查阅该模型的公开资料，猜测原因在于“由于 Llama2 本身的中文对齐较弱，其采用中文指令集，对 llama-2-7b-chat-hf 进行了 LoRA 微调，使其具备较强的中文对话能力”。,5）在魔改后的模型中，雅意和伶荔的表现都略逊与 FlagAlpha Chinese Llama2 7B-chat。但是二者的中文任务完成能力基本合格，从我们的角度来看，都算完成了各项任务，毕竟人类来答一些文本概要、数学逻辑的问题，回答的语言也未必是完美的，答题的逻辑可能也会有一点混乱。所以我们认为，雅意和伶荔都是成功的中文魔改版本。,6）雅意和伶荔的代码相关能力和文本处理能力明显不同。雅意更偏向于代码能力，给出的代码注释非常标准，相对应的，伶荔给出的代码注释就无法达到标准。另一方面，伶荔文本处理能力更强，伶荔给出的文本生成相关的结果文字都更加优美一些，当然，这个对比只能是 85 分和 90 分的区别，雅意和伶荔的中文能力都是不错的。,,实测结果 # Llama2 7B base,在逻辑推理、代码注释、文本生成、文本摘要、常识问答这 5 道中文题中，Llama2 7B base 全部答错，比如第一道数学推理题， Llama2 7B 无法理解题目，生成的回答跟题目没有关系，是一段中英文夹杂内容。文本生成、摘要和常识题目的回答情况跟推理题差不多。,实测结果 # LLama2-7B-Chat,Llama2-7B-chat 的 5 道题目也全部回答错误了，生成的回答都是纯英文内容。但在 chat 版本中，仔细阅读英文回答，看起来模型似乎能理解题目的意思了，但是后面跟着的答案并不正确。,从回答正确性角度来讲，Llama2-7B-chat 要优于 Llama2-7B，特别是常识能力的题，实际上 chat 版本给出的答案是差不多的（差不多的意思是它说的这只鸟并不是最小的鸟，但是它答题的方式是对的）。,实测结果 # FlagAlpha Chinese LLama2 7B-chat,5 道题目，该模型都给出了准确的回答，同时回答问题语序通顺、用词准确。汉化后的 Llama2-7B 可以精准的理解了全部的推理、摘要、常识、生成和代码注释任务，并给出了正确答案。,特别是文本摘要这道题目，该模型生成的摘要内容准备，唯一不足是超字数，该模型忽略了题目中“30 字以内的要求”。但从语文角度来讲，“上游梅里雪山覆盖大片原始森林”这一句可以略掉，摘要抓住最重点“最重要的水土保持屏障”即可。,实测结果 # YaYi-7B-LLama2,Yayi-7B-Llama2 的结果比 FlagAlpha Chinese Llama2-7B-chat 稍差，但也基本正确的完成了全部任务。只是在给出的答案的正确性、语句通顺性、标准中文表述的准确性等方面都稍差。二者之间的比较就类似初中语文水平和小学五六年级的语文水平。当然我们不能说五六年级水平回答的就是错误的，但是明显会感觉初中水平给出的答案读起来更加顺畅一些。,5 个任务中，代码注释任务的完成情况是最好的，其完整度甚至超过 FlagAlpha Chinese Llama2-7B-chat。所以我们猜测 Yayi-7B-Llama2 的中文文本处理能力稍弱，例如文本摘要、文本生成、推理等。,实测结果 # 伶荔 Chinese-LLaMa-2-7B,伶荔与雅意的整体表现相差不多，都属于能答对但是总让人觉得中文的能力仍有待提高。但是二者的不同之处在于，伶荔的代码注释能力稍差，或者说，伶荔这道代码注释题基本没能够正确给出注释。但是伶荔的文本生成、推理和回答常识问题的能力还可以。所以我们猜测，伶荔的中文文本处理相关能力较强。

(责任编辑：热点)

《暗区突围》代理人版本上线全新版本PV曝光莱万:你永远不能低估皇马凯恩想破我纪录很难