如何使用小数据集改进深度学习模型?

本文将讨论在不用更多数据的情况下改进深度学习模型的四种方法。

本文将讨论在不用更多数据的情况下改进深度学习模型的四种方法。

译者 |布加迪

审校 |孙淑娟

众所周知,深度学习模型对数据的需求量很大。为深度学习模型提供的数据越多,它们的表现就越好。遗憾的是,在大多数实际情形下,这是不可能的。您可能没有足够的数据,或者数据过于昂贵而无法收集。

如何使用小数据集改进深度学习模型?

本文将讨论在不用更多数据的情况下改进深度学习模型的四种方法。

为什么深度学习需要这么多数据?

深度学习模型之所以引人注目,是由于它们可以学习了解复杂的关系。深度学习模型包含多个层。每一层都学习了解复杂性逐步递增的数据表示。第一层可能学习检测简单的模式,比如边缘。第二层可能学习查看这些边缘的模式,比如形状。第三层可能学习识别由这些形状组成的对象,依此类推。

每层由一系列神经元组成,它们又连接到前一层中的每个神经元。所有这些层和神经元意味着有大量参数需要优化。所以好的方面是深度学习模型拥有强大的功能。但不好的方面意味着它们容易过拟合。过拟合是指模型在训练数据中捕捉到过多的干扰信号,无法适用于新数据。

有了足够的数据,深度学习模型可以学习检测非常复杂的关系。不过,如果您没有足够的数据,深度学习模型将无法理解这些复杂的关系。我们必须有足够的数据,那样深度学习模型才能学习。

但是如果不太可能收集更多的数据,我们有几种技术可以克服。

1. 迁移学习有助于用小数据集训练深度学习模型。

迁移学习是一种机器学习技术,您可以拿来针对一个问题训练的模型,将其用作解决相关的不同问题的起点。

比如说,您可以拿来针对庞大狗图像数据集训练的模型,并将其用作训练模型以识别狗品种的起点。

但愿第一个模型学到的特征可以被重用,从而节省时间和资源。至于两种应用有多大不同,没有相应的经验法则。但是,即使原始数据集和新数据集大不相同,照样可以使用迁移学习。

比如说,您可以拿来针对猫图像训练的模型,并将其用作训练模型以识别骆驼类型的起点。但愿在第一个模型中找出四条腿的功能可能有助于识别骆驼。

想进一步了解迁移学习,可以参阅​​《自然语言处理的迁移学习》​​​。如果您是Python程序员,可能还会发觉​​《使用Python实际动手迁移学习》​​很有帮助。

2. 尝试数据增强

数据增强是一种技术,您可以拿现有数据生成新的合成数据。

比如说,如果您有一个狗图像数据集,可以使用数据增强来生成新的狗图片。您可以通过随机裁剪图像、水平翻转、添加噪点及其他几种技术做到这一点。

如果您有一个小数据集,数据增强大有益处。通过生成新数据,可以人为地增加数据集的大小,为您的深度学习模型提供更多可使用的数据。

这些​​关于深度学习的讲义​​有助于您深入了解数据增强。

3. 使用自动编码器

自动编码器是一种用于学习低维度数据表示的深度学习模型。

当您有一个小数据集时,自动编码器很有用,因为它们可以学习将您的数据压缩到低维度空间中。

有许多不同类型的自动编码器。变分自动编码器(VAE)是一种流行的自动编码器。VAE 是一种生成式模型,这意味着它们可以生成新数据。这大有帮助,因为您可以使用VAE生成类似于训练数据的新数据点。这是增加数据集大小而无需实际收集更多数据的好方法。

原文标题:How to Improve Deep Learning Models With Small Datasets

©本文为清一色官方代发,观点仅代表作者本人,与清一色无关。清一色对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议,请读者仅作参考,并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络,如侵犯到著作权人的权利,请与我们联系(微信/QQ:1074760229)。转载请注明出处:清一色财经

(0)
打赏 微信扫码打赏 微信扫码打赏 支付宝扫码打赏 支付宝扫码打赏
清一色的头像清一色管理团队
上一篇 2023年5月6日 02:35
下一篇 2023年5月6日 02:35

相关推荐

发表评论

登录后才能评论

联系我们

在线咨询:1643011589-QQbutton

手机:13798586780

QQ/微信:1074760229

QQ群:551893940

工作时间:工作日9:00-18:00,节假日休息

关注微信