阿里巴巴发布多模态Qwen3.5混合专家模型
阿里巴巴集团发布了一款人工智能模型,声称在某些任务上能够超越GPT-5.2和Claude 4.5 Opus。
这款名为Qwen3.5的新算法已在Hugging Face平台以开源许可证形式发布。
默认情况下,Qwen3.5能够处理多达262,144个Token的提示。开发者通过自定义配置可以将这一数量提升近四倍。提示内容可以包含超过210种语言和方言的文本,以及数据可视化等图像。
Qwen3.5采用混合专家模型架构,这意味着它由多个针对不同任务优化的神经网络组成。当大语言模型接收到提示时,它会使用其中10个神经网络来生成答案。仅激活模型的部分组件来处理提示,比让输入通过所有人工神经元更加节省硬件资源。Qwen3.5总共拥有3970亿个参数,其中每个提示使用170亿个参数。
阿里巴巴还为该模型配备了其他几种旨在提升效率的优化技术。
大语言模型的注意力头是用于确定在做决策时需要考虑哪些数据点的机制,通常呈二次方增长。这意味着将提示中的数据量翻倍,生成响应所需的RAM会增加四倍。Qwen3.5将标准的二次方注意力头与所谓的线性注意力头相结合,后者需要的内存要少得多。
该模型还使用了另一种名为门控增量网络的效率提升技术。这项技术结合了门控和增量规则这两种深度学习技术。
门控技术使大语言模型能够从内存中移除任务不需要的数据,从而降低硬件使用率。增量规则则是反向传播算法的一个版本,大语言模型在训练期间使用它来学习新任务。它简化了模型在学习过程中更新参数的方式。去年,英伟达研究人员确定,将这两种方法结合起来可以减少训练大语言模型所需的硬件数量。
阿里巴巴在30多个基准测试中将Qwen3.5与GPT-5.2和Claude 4.5 Opus进行了比较。该模型在IFBench测试中表现优于两者,这项测试衡量大语言模型遵循用户指令的能力。在其他情况下,Qwen3.5击败了其中一个大语言模型但未超过另一个。例如,它在HMMT推理基准上超过了Claude 4.5 Opus的得分,但落后于GPT-5.2。
阿里巴巴表示,Qwen3.5在处理多模态数据方面也很擅长。它在多个视觉推理和编程基准测试中超越了专门为图像分析任务构建的模型Qwen3-VL。
常见问题Q&A
Q1:Qwen3.5模型有什么特别之处?
A:Qwen3.5是阿里巴巴发布的混合专家模型,拥有3970亿个参数,支持超过210种语言和方言,能处理文本和图像等多模态数据,在某些任务上声称超越GPT-5.2和Claude 4.5 Opus。
Q2:混合专家模型架构有什么优势?
A:混合专家模型由多个针对不同任务优化的神经网络组成,处理提示时只激活其中10个神经网络,比运行所有人工神经元更节省硬件资源,提高了处理效率。
Q3:Qwen3.5在基准测试中表现如何?
A:在30多个基准测试中,Qwen3.5在IFBench指令遵循测试中超越了GPT-5.2和Claude 4.5 Opus,在其他测试中表现不一,有时超越其中一个但不如另一个模型。
来源:SiliconANGLE
相关链接
经典培训课程
企业AI知识库搭建与运营培训课程
呼叫中心AI知识库培训课程
个人知识体系构建能力课程
书籍和资料
《卓越密码如何成为专家》
《你的知识需要管理》
免费电子书《企业知识管理实施的正确姿势》
免费电子书《这样理解知识管理》