视觉语言模型
-
通过一组单词构建视觉语言模型可能性研究
本文将介绍在我们拟发表的ICLR 2023 Oral论本文将介绍在我们拟发表的ICLR 2023 Oral论文中有关视觉语言模型对文本语言描述的局限性问题及改进方案。文中有关视觉语言模型对文本语言描述的局限性问题及改进方案。
-
5620 亿参数!谷歌发布史上最大“通才”AI 模型 PaLM-E,可让机器人自主执行多种任务
PaLM-E 是迄今为止已知的最大 VLM(视觉语言模型)。作为一种多模态具身 VLM,它不仅可以理解图像,还能理解、生成语言,执行各种复杂的机器人指令而无需重新训练。它还展示出了强大的涌现能力(模型有不可预测的表现)。