视觉
-
具身智能的视觉-语言-动作模型:综述
基于预训练的视觉基础模型、大语言模型(LLMs)和视觉-语言模型(VLMs)的成功,视觉-语言-动作模型已经证明其在应对这些挑战方面的能力。
-
基于分层自监督学习将视觉Transformer扩展到千兆像素图像
研究者引入了一种新的ViT架构,称为分层图像金字塔变换器 (HIPT),它利用WSI中固有的自然分层结构,使用两个级别的自监督学习来学习高分辨率图像表示。
-
自动驾驶第一性之纯视觉静态重建
纯视觉的标注方案的核心在于高精度的pose重建。我们采用Structure from motion (SFM) 的pose重建方案,来保证重建精度。
-
HuggingFace教你怎样做出SOTA视觉模型
从收集阶段开始,就应注意要选择多种类型的数据,如Idefics2就使用的数据就包括三类——图文对齐的文档(如网页)、图像-文本对(如图片标题),以及带OCR标注的PDF文档。
-
又被 OpenAI 截胡,Google推出开源视觉语言模型:PaliGemma
总结来说,PaliGemma 是一个强大的视觉语言模型,适用于多种需要视觉和语言结合的应用场景,特别是在图像处理和自然语言处理领域。
-
超越ORB-SLAM3!SL-SLAM:低光、严重抖动和弱纹理场景全搞定
这里介绍了一种多功能的混合视觉SLAM系统,旨在提高在诸如低光条件、动态光照、弱纹理区域和严重抖动等挑战性场景中的适应性。
-
揭秘DeDoDe v2:如何革新关键点检测技术,让AI“眼”更明亮?
在人工智能领域,关键点检测技术一直是计算机视觉研究的重要课题。近期,来自Linköping大学、Chalmers大学、香港中文大学以及Texas A&M大学的科研团队,成功推出了DeDoDe v2——一款革新性的关键点检测器。今天,就让我们一起揭开DeDoDe v2的神秘面纱,看看它是如何引领科技前沿,让AI的“眼睛”更加明亮。
-
一览Occ与自动驾驶的前世今生!首篇综述全面汇总特征增强/量产部署/高效标注三大主题
本文首先介绍了基于视觉的三维占用预测的背景,并讨论了这项任务中的挑战。
-
最新综述!万字长文彻底搞懂单目3D车道线检测
在人工智能的推动下,自动驾驶技术近年来取得了快速发展,逐渐重塑了人类交通运输的范式。配备了一系列传感器,自动驾驶车辆模仿人类的视觉和听觉等感知能力,以感知周围环境并解释交通场景以确保安全导航。
-
颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑
颜水成团队联合新加坡国立、南洋理工大学共同开源了Vitron模型,持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。
-
3D视觉绕不开的点云配准!一文搞懂所有主流方案与挑战
在过去的几十年里,人们提出了越来越多的点云配准方法,从经典的ICP算法到与深度学习技术相结合的解决方案。
-
华为天才少年谢凌曦:关于视觉识别领域发展的个人观点!
计算机视觉识别领域的发展如何?华为天才少年谢凌曦分享了万字长文,阐述了个人对其的看法。
-
美图AI视觉创作工具上新,涂抹+关键词,变废为宝!
正如WHEE的相关负责人表示,“AI改图流程非常简单,用户只需要上传图片,手动涂抹想要重新编辑的区域再输入相应的关键词,就能在保持图像主体特征的前提下,进行任意编辑。”
-
聊聊视觉惯性里程计的IMU预积分模型
在VIO开源框架(如VINS-MONO)中,IMU预积分部分属于前端部分,是在采集了IMU数据之后就立刻进行的运算。
-
让视觉语言模型搞空间推理,谷歌又整新活了
视觉语言模型虽然强大,但缺乏空间推理能力,最近 Google 的新论文说它的 SpatialVLM 可以做,看看他们是怎么做的。