清一色科技讯 12月16日下午消息,无问芯穹宣布开源端上智能一体化解决方案中的小模型——端侧全模态理解模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。
据介绍,Megrez-3B-Omni选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,推理速度最高领先同精度模型300%。此外,还同时具备图片、音频、文本三种模态数据处理能力,且在三个模态的多种测评基准中取得最优性能。
在图像理解方面,Megrez-3B-Omni虽然体积仅为3B,但综合性能可以超过34B的LLaVA-NeXT-Yi-34B模型,是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。
在语音理解方面,Megrez-3B-Omni 不仅支持中、英文语音输入,还能处理复杂的多轮对话场景,支持对输入图片或文字的语音提问,实现不同模态间的自由切换。
在文本理解方面,Megrez-3B-Omni在没有牺牲模型文本处理能力情况下,将上一代14B大模型的能力压缩至3B规模,显著降低了计算成本、提升了计算效率。在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上,取得端上模型最优精度。
据悉,目前Megrez-3B-Omni处于能力预览阶段,接下来无问芯穹将持续迭代Megrez系列,提升自动化水平至“edge device use”效果,让用户只需要给出简单的语音指令,就可完成端侧设备设置或应用操作。(文猛)
©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经