数据集
-
如何使用小型自动生成的数据集训练编码LLM
本文介绍了WaveCoder模型,该模型可以使用更少示例训练高效的编码LLM。
-
谷歌AI视频再出王炸!全能通用视觉编码器VideoPrism,性能刷新30项SOTA
谷歌团队推出「通用视觉编码器」VideoPrism,在3600万高质量视频字幕对和5.82亿个视频剪辑的数据集上完成了训练,性能刷新30项SOTA。
-
LogitMat:不需要数据的推荐系统
推荐系统诞生于 1992 年的一篇论文。自推荐系统诞生以来,无数的科学家和工程师为这一领域倾注了心血。
-
使用核模型高斯过程(KMGPs)进行数据建模
核模型高斯过程(KMGPs)作为一种复杂的工具可以处理各种数据集的复杂性。他通过核函数来扩展高斯过程的传统概念。本文将深入探讨kmgp的理论基础、实际应用以及它们所面临的挑战。
-
基于Python实现大规模光栅人口数据可视化
本文旨在探讨如何使用Python语言实现包括全球、国家和城市级别的跨多个尺度的地理空间人口数据的可视化。
-
2023年五个自动化EDA库推荐
EDA或探索性数据分析是一项耗时的工作,但是由于EDA是不可避免的,所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形,而是获得对数据集的理解,并获得对变量之间的分布和相关性的初步见解。
-
一文详看大模型长文本如何评估:四大主流评测数据集的任务设计、数据集构建方案
本文主要针对长文本评估,梳理了当前具有代表性的长文本评测,包括Zero-SCROLLS、L-Eval、LongBench以及loge四个基准。
-
Python时间序列分析库介绍:statsmodels、tslearn、tssearch、tsfresh
在本文中,我们将介绍四个主要的Python库——statmodels、tslearn、tssearch和tsfresh——每个库都针对时间序列分析的不同方面进行了定制。这些库为从预测到模式识别的任务提供了强大的工具,使它们成为各种应用程序的宝贵资源。
-
Vaex助力高效处理大规模数据集
Vaex是一个功能强大的数据科学库,可应对处理大规模数据集的挑战。借助其惰性计算的方法、高性能运算和交互式可视化功能,Vaex能够高效地操作、分析和可视化可能无法装入内存的大型数据集。
-
AI实时解读大脑信号,7倍速还原图像关键视觉特征,LeCun转发
训练上,研究人员用了一个名叫THINGS-MEG的数据集,包含了4个年轻人(2男2女,平均23.25岁)观看图像时记录的MEG数据。这些年轻人一共观看了22448张图像(1854种类型),每张图像显示时间为0.5秒,间隔时间为0.8~1.2秒,其中有200张图片被反复观看。
-
AmodalSynthDrive:一个用于自动驾驶的合成非模态感知数据集
本文介绍了AmodalSynthDrive:一个用于自动驾驶的合成非模态感知数据集。与人类不同,即使在部分遮挡的情况下,人类也可以毫不费力地估计物体的整体,而现代计算机视觉算法仍然发现这一方面极具挑战性。
-
三个主要降维技术对比介绍:PCA, LCA,SVD
随着数据集的规模和复杂性的增长,特征或维度的数量往往变得难以处理,导致计算需求增加,潜在的过拟合和模型可解释性降低。降维技术提供了一种补救方法,它捕获数据中的基本信息,同时丢弃冗余或信息较少的特征。
-
AmodalSynthDrive:一个用于自动驾驶的合成非模态感知数据集
本文介绍了AmodalSynthDrive:一个用于自动驾驶的合成非模态感知数据集。与人类不同,即使在部分遮挡的情况下,人类也可以毫不费力地估计物体的整体,而现代计算机视觉算法仍然发现这一方面极具挑战性。
-
八步学会使用Pandas进行数据清洗
你已成功使用Pandas清洗了第一个数据集。在处理复杂数据集时,你可能会遇到其他挑战。然而,本文介绍的基本技术将帮助你入门,并为开始数据分析做好准备。
-
七步为基于图像的AI项目准备数据集
本文和您讨论可用来创建数据集的七个典型步骤,以便了解数据集大小的重要性、可能出现的数据遗漏、以及将数据集转化为数据库等要素。