120 亿参数 Stable LM 2 上线即开源:2 万亿 token 训练,碾压 Llama 2 70B

[娱乐] 时间:2024-04-27 19:40:36 来源:蓝影头条 作者:探索 点击:113次

Stability AI 推出 Stable LM 2 12B 模型,亿参压作为其新模型系列的数SM上进一步升级,该模型基于七种语言的线即n训 2 万亿 Token 进行训练,拥有更多参数和更强性能,开源据称在某些基准下能超越 Llama 2 70B。练碾

继 16 亿轻量级 Stable LM 2 推出之后,亿参压12B 参数的数SM上版本在今天亮相了。

见状,线即n训不少网友纷纷喊话:干的开源漂亮!但,练碾Stable Diffusion 3 啥时候出啊?

总得来说,Stable LM 2 12B 参数更多,开源性能更强。练碾120 亿参数版本包含了基础模型和指令微调模型,并在七种多语言,高达 2 万亿 Token 数据集上完成训练。

在基准测试中,其性能赶超 Llama 2 70B 等开源模型。

官博介绍,最新版本的模型兼顾了性能、效率、内存需求和速度,同时继续采用了 Stable LM 2 1.6B 模型的框架。

通过这次更新,研究人员还为开发者提供了一个透明而强大的工具,以推动 AI 语言技术的创新。

模型地址:https://huggingface.co/ stabilityai / stablelm-2-12b

虽然目前只支持 4K 的上下文窗口,但你先别急。

Stability AI 表示很快就会推出更长的版本,并且可以第一时间在 Hugging Face 上获取。

120 亿参数即可实现 SOTA

Stable LM 2 12B 是一个专为处理多种语言任务设计的高效开源模型,它能够在大多数常见硬件上流畅运行。

值得一提的是,Stable LM 2 12B 可以处理通常只有大模型才能完成的各种任务。

比如混合专家模型(MoE),往往需要大量的计算和内存资源。

此外,指令微调版本在工具使用,以及函数调用展现出强大的能力,可以适用于各种用途,包括作为检索 RAG 系统的核心部分。

性能评估

在性能方面,参与对比的有 Mixtral(MoE,总共 47B / 激活 13B)、Llama2(13B 和 70B)、Qwen 1.5(14B)、Gemma(8.5B)和 Mistral(7B)。

根据 Open LLM Leaderboard 和最新修正的 MT-Bench 基准测试的结果显示,Stable LM 2 12B 在零样本以及少样本的任务上展现了出色的性能。

MT Bench

Open LLM Leaderboard

Open LLM Leaderboard

0-Shot NLP Tasks

在这个新版本中,他们将 StableLM 2 系列模型扩展到了 12B 类别,提供了一个开放、透明的模型,在功率和精度方面丝毫不打折扣。

Stable LM 2 1.6B 技术报告

最初发布的 Stable LM 2 1.6B 已经在 Open LLM 排行榜上取得了领先地位,证明了其在同类产品中的卓越性能。

论文地址:https://arxiv.org/ abs / 2402.17834

模型预训练

训练大模型(LLM)的第一阶段主要是学习如何利用大量不同的数据源来预测序列中的下一个 token,这一阶段也被称之为训练。

它使模型能够构建适用于基本语言功能甚至更高级的生成和理解任务的通用内部表示。

训练

研究人员按照标准的自回归序列建模方法对 Stable LM 2 进行训练,以预测下一个 token。

他们从零开始训练模型,上下文长度为 4096,受益于 FlashAttention-2 的高效序列并行优化。

训练以 BFloat16 混合精度进行,同时将 all-reduce 操作保持在 FP32 中。

数据

模型性能受训练前数据设计决策的影响,包括源选择和采样权重。

训练中所用的数据均为公开数据,大部分训练数据由其他 LLM 训练中使用的数据源组成,其中包括德语(DE)、西班牙语(ES)、法语(FR)、意大利语(IT)、荷兰语(NL)和葡萄牙语(PT)的多语言数据。

仔细选择不同数据域的混合比例至关重要,尤其是非英语数据和代码数据。下图展示了 Stable LM 2 预训练数据集中各领域有效训练词块的百分比。

分词器

研究人员使用了 Arcade100k,这是一个从 OpenAI 的 tiktoken.cl100k_base 扩展而来的 BPE 标记器,其中包括用于代码和数字拆分处理的特殊 token。

词库由 100,289 个 token 组成,在训练过程中被填充为最接近的 64 的倍数(100,352),以满足 NVIDIA A100 设备上推荐的 Tensor Core 对齐方式。

架构

该模型在设计上与 LLaMA 架构类似,下表显示了一些关键的架构细节。

其中,与 LLaMA 的主要区别如下:

1. 位置嵌入

  • 旋转位置嵌入应用于头嵌入尺寸的前 25%,以提高后续吞吐量

2. 归一化

  • 相对于 RMSNorm,LayerNorm 具有学习偏置项

3. 偏置

  • 从前馈网络和多头自注意层中删除了键、查询和值预测以外的所有偏置项。

模型微调

有监督微调(SFT)

研究人员在 Hugging Face Hub 上公开的一些指令数据集上对预训练模型进行微调。

尤其是使用了 UltraChat、WizardLM、SlimOrca、ShareGPT、Capybara、Deita 和 MetaMathQA 会话数据集,样本总数为 826,938 个。

直接偏好优化(DPO)

直接偏好优化(Direct Preference Optimization,简称 DPO)是 Zephyr-7B、Neural-Chat-7B 和 Tulu-2-DPO-70B 等近期强模型的基本工具。

在应用 SFT 后,通过 DPO 对得到的模型进行微调。

在这个阶段,他们使用 UltraFeedback 和 Intel Orca Pairs 这两个数据集,并通过删除了排名并列的配对、内容重复的配对以及所选回应得分低于 80% 的配对来过滤数据集。

实验结果和基准测试

少样本和零样本评估

研究人员通过流行基准评估了 Stable LM 2 的少样本和零样本能力,并将结果与类似大小的开源预训练模型进行了比较。下表列出了模型评估结果。

可以看出,Stable LM 2 1.6B (stablelm-2-1-6b)的性能明显优于其他基础模型。

同样,经过指令微调的版本(stablelm-2-1-6b-dpo)比微软的 Phi-1.5 平均提高了 2%,但在几发准确率上却落后于更大的 Phi-2.0。与谷歌的 Gemma 2B(2.5B 参数)相比,性能也有显著提高。

多语种评估

通过在 ChatGPT 翻译版本的 ARC、HS、TQA 和 MMLU 上进行评估,来评估在多语言环境下的知识和推理能力。

此外,还使用了机器翻译的 LAMBADA 数据集测试了下一个单词的预测能力。

下表为 zero-shot 测试结果,可以看出与规模是其两倍的模型相比,Stable LM 2 的性能更加出众。

MT 基准评估

他们还在流行的多轮基准 MT-Bench 上测试了模型的对话能力。

Stable LM 2 1.6B 显示出具有竞争力的性能,与 MT-Bench 上的大型模型能力相当甚至更好。

虽然该模型落后于 Mistral 7B Instruct v0.2(比 Stable LM 2 大 4 倍多)等更强大的模型,但该模型提供了更好的聊天性能,并以较大优势击败了 Phi-2、Gemma 2B 和 TinyLLaMA 1.1B 这两个大模型。

参考资料:

  • https://stability.ai/news/introducing-stable-lm-2-12b

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

(责任编辑:知识)

    相关内容
    精彩推荐
    热门点击
    友情链接