StreamingLLM 框架问世,号称“可让大模型处理无限长度文本”

[探索] 时间:2024-05-02 19:43:20 来源:蓝影头条 作者:综合 点击:70次
10 月 6 日消息,框架可让麻省理工学院联合 Meta AI 的问世研究人员日前开发了一款名为 StreamingLLM 的框架,为大语言模型可能遇到的大模度文 RAM 与泛化问题提出了一系列解决方案,号称能够“让语言模型处理无限长度的型处限长文本内容”。

▲ 图源 GitHub

StreamingLLM 的理无研究重点,是框架可让想解决实现流式语言模型(Efficient Streaming Language Models,ESLM)的问世障碍,特别是大模度文“长时间互动的多轮对话场景”中可能出现的问题。

研究人员指出,型处限长这种流式语言模型主要存在两大挑战:

第一个挑战:在解码阶段,理无获取 token 的框架可让键(Key)值(Value)状态会消耗大量的 RAM。

第二个挑战:目前流行的问世大语言模型,难以泛化适用“超过训练序列长度”的大模度文长文本。

注意到,型处限长过去有许多研究试图解决上述挑战,理无像是“扩展注意力窗口”,让语言模型能够处理超出预训练序列长度的长文本;或是建立一个固定大小的活动窗口,只关注最近 token 的键值状态,确保 RAM 使用率和解码速度保持稳定,但若遇到“序列长度超过缓存大小”时,这个策略就会失效。

而当前流式语言模型最大的挑战是“如何不消耗过多 RAM 且不损害模型性能的前提下,处理长文本输入”。

StreamingLLM 对此采取的策略是“运用注意力下沉现象”,研究人员观察到,在自回归语言模型中,无论特定 token 和语言模型本身的相关性如何,如果对代 token 分配了大量的注意力。这些获得高度注意力的 token,就会表现出注意力下沉的现象,即便这些 token 在语义上不重要,但他们仍然获得模型强烈关注(即给予特定 token 内容大量注意力,从而获得模型大部分的关注,而这些特定 token 内容包含“下沉 token 的键值”,从而确保无论输入序列有多长,模型的注意力计算都能维持稳定)。

▲ 图源 GitHub

StreamingLLM 的重要贡献,在于其提出一个简单且高效的解决方案,使语言模型不需微调就可以处理无限长度的文本。从而解决当前语言模型在流式应用的困境。虽然未来流式语言模型势在必行,但由于 RAM 效率的限制,以及模型在处理长序列的性能问题,相关模型发展仍受到挑战。

经研究团队证实,StreamingLLM 能够让 Llama 2、MPT、Falcon 和 Pythia 可靠地处理高达 400 万 token 的文本,能够为流式语言模型提供更多部署方面的可能性。

参考

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

(责任编辑:时尚)

    相关内容
    精彩推荐
    热门点击
    友情链接