无问芯穹开源3B端侧模型，具备全模态理解能力-清一色财经

无问芯穹开源3B端侧模型，具备全模态理解能力

清一色 • 2024年12月16日 15:11 • 互联网 • 阅读 34013

　　清一色科技讯 12月16日下午消息，无问芯穹宣布开源端上智能一体化解决方案中的小模型——端侧全模态理解模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。

　　据介绍，Megrez-3B-Omni选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸，结构规整，推理速度最高领先同精度模型300%。此外，还同时具备图片、音频、文本三种模态数据处理能力，且在三个模态的多种测评基准中取得最优性能。

　　在图像理解方面，Megrez-3B-Omni虽然体积仅为3B，但综合性能可以超过34B的LLaVA-NeXT-Yi-34B模型，是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。

　　在语音理解方面，Megrez-3B-Omni 不仅支持中、英文语音输入，还能处理复杂的多轮对话场景，支持对输入图片或文字的语音提问，实现不同模态间的自由切换。

　　在文本理解方面，Megrez-3B-Omni在没有牺牲模型文本处理能力情况下，将上一代14B大模型的能力压缩至3B规模，显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上，取得端上模型最优精度。

　　据悉，目前Megrez-3B-Omni处于能力预览阶段，接下来无问芯穹将持续迭代Megrez系列，提升自动化水平至“edge device use”效果，让用户只需要给出简单的语音指令，就可完成端侧设备设置或应用操作。（文猛）

无问芯穹开源3B端侧模型，具备全模态理解能力

©本文为清一色官方代发，观点仅代表作者本人，与清一色无关。清一色对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议，请读者仅作参考，并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络，如侵犯到著作权人的权利，请与我们联系（微信/QQ:1074760229）。转载请注明出处：清一色财经