小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio

小K
2025年9月19日2025年9月19日
行业动态

小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio

9月19日，小米正式开源首个原生端到端语音模型——Xiaomi-MiMo-Audio，它基于创新预训练架构和上亿小时训练数据，首次在语音领域实现基于ICL的少样本泛化，并在预训练观察到明显的“涌现”行为。

据介绍，在通用语音理解及对话等多项标准评测基准中，MiMo-Audio大幅超越了同参数量的开源模型，取得7B最佳性能；在音频理解基准MMAU的标准测试集上，MiMo-Audio超过Google闭源语音模型Gemini-2.5-Flash；在面向音频复杂推理的基准Big Bench Audio S2T任务中，MiMo-Audio同样超越了OpenAI闭源的语音模型GPT-4o-Audio-Preview。

背景信息：端到端模型是一种通过单一模型直接将输入数据映射到输出结果的AI架构，其核心优势在于消除中间模块分割，现已在自动驾驶、语音交互等领域广泛应用。

‌背景信息：

端到端模型定义与特征‌

黑箱化处理‌：通过单一模型完成从原始输入（如传感器数据）到最终输出（如车辆控制指令）的完整映射，避免传统分模块处理的信息损耗。‌‌

‌端到端模型工作机制‌

‌实时交互优化‌：语音领域通过同步生成文本和音频标记，解决传统级联方案的时延问题，如Mini-Omni模型实现毫秒级响应。‌‌

‌数据处理闭环‌：采用“长期记忆+短期记忆”训练架构，通过强化学习持续优化决策精度。‌‌

相关链接

企业AI知识库搭建与运营培训课程
 呼叫中心AI知识库培训课程
 个人知识体系构建能力课程

知识库知识管理系统

企业AI知识管理知识库软件系统清单
 个人知识管理软件AI知识库系统清单

知识管理中心KMCenter

小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio

‌背景信息：

相关链接

知识库知识管理系统

上一篇

下一篇

小K

发表回复取消回复

联系KMCenter

小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio

小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio

‌背景信息：

相关链接

知识库知识管理系统

上一篇

下一篇

小K

发表回复 取消回复

发表回复取消回复