阿里开源7b多模态端对端大模型Qwen2.5-Omni-7B,能听、看、说、写

阿里开源7b多模态端对端大模型Qwen2.5-Omni-7B,能听、看、说、写

800_auto

阿里巴巴于2025年3月27日发布了Qwen2.5-Omni-7B模型,并在Hugging Face上开源。

这是一个端到端的全模态大模型,能够同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。

该模型采用了全新的Thinker-Talker架构,Thinker类似于大脑,负责处理和理解输入,生成高级表示和文本;Talker则类似于发...

点击查看剩余70%

{{collectdata}}

网友评论