编码器
-
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
多模态预训练方法具有很强的性能优势(例如,一个模型可以原生理解多种模态),但也有缺点。例如,无法解决如何在预训练后添加新模态的问题,也缺乏灵活性,因为添加另一种模态需要从头开始训练一个新的模型,并进行超参数搜索,以获得模态之间的最佳训练数据混合比。
-
VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
Meta 研究者提出了另外一种改进思路 —— 利用 SAM 的掩码图像预训练 (SAMI)。这是通过利用 MAE 预训练方法和 SAM 模型实现的,以获得高质量的预训练 ViT 编码器。
-
抖音直播新一代BVC编码器正式亮相
视频编码是整个技术体系的基座,编码效率的显著提升,能够在同等码率下极大提高画质,从而改善用户体验。
-
用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大
插帧、过拟合、语义感知、GAN……你想过这些“脑洞”或AI算法,也能被用到编解码器上面吗?
-
BT - Unet:生物医学图像分割的自监督学习框架
BT-Unet采用Barlow twin方法对U-Net模型的编码器进行无监督的预训练减少冗余信息,以学习数据表示。之后,对完整网络进行微调以执行实际的分割。
-
构建基于Transformer的推荐系统
基于编码器的自注意力Transformer非常擅长预测自然语言生成任务的下一个字符,因为它们可以注意到给定字符周围的标记/字符的重要性。为什么我们不能应用这个概念来预测任何用户喜欢的给定物品序列中的下一个项目呢?这种推荐问题可以归类为基于物品的协同过滤。
-
抖音视频编码器优化
抖音实现了业界首次的世界杯比赛支持 4K HDR 10-bit 直播,其内容信息量相较于以往有极大提升,对编码器的实时性提出了更高要求。
-
再续面向跨语言的操作系统日志异常检测技术研究与实现
LaBSE模型由两个共享参数的12层堆叠双向Transformer编码器组成,包括 768个隐藏层和一亿一千万个参数组成,主要是基于注意力机制实现的。
-
深度学习项目示例 使用自编码器进行模糊图像修复
图像模糊是由相机或拍摄对象移动、对焦不准确或使用光圈配置不当导致的图像不清晰。
-
单个Transformer信息检索,谷歌用可微搜索索引打败双编码器模型
谷歌提出基于 Transformer 的可微文本检索索引,明显优于双编码器模型等强大基线,并且还具有强大的泛化能力,在零样本设置中优于 BM25 基线。
-
清华IEEE论文:利用新型训练方法,帮自动驾驶决策摆脱「路侧干扰」
该论文提出了一种新的训练方法,即允许自动编码器从输入图像中提取有用的特征,并将其应用到端到端自动驾驶方法中,以忽略不相关的路边目标。