微软也发布开源推理模型Phi-4-multimodal与Phi-4-mini

微软也发布开源推理模型Phi-4-multimodal与Phi-4-mini

800_auto

微软于 2025 年 2 月 27 日正式发布了 Phi-4 家族具有推理能力的两款新模型:Phi-4 多模态(Phi-4-multimodal)和 Phi-4 迷你(Phi-4-mini)。

这两款模型分别针对多模态和文本任务进行了优化,展现了强大的性能和高效的应用能力。

Phi-4 多模态(Phi-4-multimodal)

Phi-4 多模态是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型,参数量为 56 亿。

该模型通过新颖的模态扩展方法,利用 LoRA 适配器和特定模态路由器,实现了语音、视觉和文本输入的无缝结合。
关键特性

多模态能力:Phi-4 多模态能够同时处理语音、视觉和文本输入,支持多种模态的交互任务。

语音任务表现:在自动语音识别(ASR)和语音翻译(S...

点击查看剩余70%

{{collectdata}}

网友评论