阿里云开源通义千问多模态视觉模型 Qwen-VL,号称“远超同等规模通用模型表现”

[百科] 时间:2024-05-04 11:50:01 来源:蓝影头条 作者:娱乐 点击:67次
8 月 25 日消息,阿里阿里云今日推出了大规模视觉语言模型 Qwen-VL,云开源通义千远超目前已经在 ModeScope 开源,问多早前曾报道,模态模型模型阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。视觉

据悉,同等通用Qwen-VL 是规模一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,表现相较于此前的阿里 VL 模型,其除了具备基本的云开源通义千远超图文识别、描述、问多问答及对话能力之外,模态模型模型还新增了视觉定位、视觉图像中文字理解等能力。同等通用

▲ 图源 ArXiv 论文

Qwen-VL 以 Qwen-7B 为基座语言模型,规模在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率。

官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。

▲ 图源 modelscope

此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”,对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。

▲ 图源 modelscope

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,所有文章均包含本声明。

(责任编辑:知识)

    相关内容
    精彩推荐
    热门点击
    友情链接