微软也发布开源推理模型Phi-4-multimodal与Phi-4-mini-BFW编程笔记

微软也发布开源推理模型Phi-4-multimodal与Phi-4-mini

800_auto

微软于 2025 年 2 月 27 日正式发布了 Phi-4 家族具有推理能力的两款新模型：Phi-4 多模态（Phi-4-multimodal）和 Phi-4 迷你（Phi-4-mini）。

这两款模型分别针对多模态和文本任务进行了优化，展现了强大的性能和高效的应用能力。

Phi-4 多模态（Phi-4-multimodal）

Phi-4 多模态是微软首款集成语音、视觉和文本处理的统一架构多模态语言模型，参数量为 56 亿。

该模型通过新颖的模态扩展方法，利用 LoRA 适配器和特定模态路由器，实现了语音、视觉和文本输入的无缝结合。
关键特性

多模态能力：Phi-4 多模态能够同时处理语音、视觉和文本输入，支持多种模态的交互任务。

语音任务表现：在自动语音识别（ASR）和语音翻译（S...

点击查看剩余70%

打赏博主×