2022前展望大模型的未来，周志华、唐杰、杨红霞这些大咖怎么看？

清一色 • 2023年5月5日 20:08 • 人工智能 • 阅读 17969

28 日，阿里巴巴达摩院发布 2022 十大科技趋势。其中，“大模型参数竞赛进入冷静期，大小模型将在云边端协同进化”的断言，在 AI 圈备受关注。 2021-12-29 21:00:42 人工智能AI 工信部发布机器人产业“十四五”规划： 2035年规上制造业将普及数字化《机器人规划》提出，到2025年，中国将成为全球机器人技术创新策源地、高端制造集聚地和集成应用新高地，机器人产业营业收入年均增长超过20%，制造业机器人密度实现翻番。 2021-12-29 15:21:09 机器人十四五制造业 AI从局部应用到规模化成为“AI驱动型”企业近期德勤人工智能研究院发布了两个AI重磅报告，《企业人工智能应用现状报告》和《AI案例精选》。 2021-12-29 14:57:47 德勤人工智能AI驱动型企业餐饮服务设备行业的主要趋势餐饮服务设备行业正在快速创新，以应对大型商业厨房和餐厅不断变化的需求。即将到来的更先进、更智能的技术将影响餐饮服务设备行业的发展趋势。 2021-12-29 12:13:09 机器人人工智能物联网隐藏在眼睛里的市场，虹膜识别喜迎百亿蓝海！随着人工智能不断走热，生物识别技术备受关注。尤其是2020年以来，在疫情无接触因素影响下，生物识别技术更是成为生产生活防疫关键。 2021-12-29 11:15:08 人工智能AI虹膜识别 IEEE年终AI大盘点：网友教会GPT-3骂人、DeepMind再造机器人 2021年即将过去，IEEE Spectrum盘点了今年的十大AI新闻。在过去的一年里，AI模型训练成本起飞、GPT-3从网友那儿学会了「阴阳怪气」，此外，研究人员还总结了AI绕不过去的七大弱点。 2021-12-29 10:08:43 AI 数据人工智能行代码干掉 Debug 和 Print，助力算法学习本文介绍了怎么使用 pysnooper 工具，pysnooper 不仅可以少一些 debug 和 print，更能帮助理解算法题。 2021-12-29 06:54:24 Debug Print工具中国教授研发人工智能“检察官”，犯罪识别率97%，目前正在测试最近，“中国教授研发人工智能检察官”的新闻，受到了许多外国网友的关注。在世界范围内，鲜有AI被应用于司法领域。 2021-12-29 06:18:49 人工智能检察官犯罪识别经逆向工程，Transformer「翻译」成数学框架 | 25位学者撰文在本文中，由 25 位研究者参与撰写的论文，尝试采用最原始的步骤逆向 transformer。 2021-12-28 18:37:46 Transformer数据人工智能空气输入法！浙大最新研究：空中动动手指就能给智能手表输入文本浙江大学开发了这样一个名叫AirText的应用，只需你动动手指和手腕，手表就确识别空中字符，错误率低至3.9%。 2021-12-28 18:31:33 人工智能AI开发构建机器人流程自动化(RPA)的基础知识和优秀实践机器人流程自动化(RPA)在全球范围内的使用已对业务生产力产生了重大而积极的影响。据德勤称，RPA已成为“全球业务服务领导者的重中之重”。 2021-12-28 14:28:01 人工智能AI机器人人工智能师之相似问的编写相似问是为了完善机器人教育的一种手段，相似问同原始语料一样，都是机器人学习的对象，是提供模型训练的材料。 2021-12-28 14:07:03 人工智能相似问机器人阿里巴巴达摩院2022十大科技趋势发布：人工智能或将解决风光电并网难题阿里巴巴达摩院发布2022十大科技趋势，这是达摩院连续第四年发布前沿科技趋势预测。 2021-12-28 13:55:22 科技人工智能技术三分钟回顾，2021年12月无人机领域动态一览如今，在人工智能、5G等技术的助力下，我国无人机发展正走在高速增长的快车道。今年12月，无人机行业便出现不少融资、推新等活动，接下来我们不妨一起来看一下吧! 2021-12-28 10:54:30 人工智能AI无人机年底自动驾驶成果丰，发展后续闯关一条龙！自动驾驶商用发展迎来进一步提速，2022年前景令人憧憬。不过，在欣喜于取得成果的同时，我们也不能过于乐观而忽略问题。理性的看，自动驾驶汽车载人出行规模化商用仍非短期能实现的目标。就当前的技术、法规和基础设施条件，封闭式/低速场景仍是落地首选，全面上路估计还需5-10 2021-12-28 10:51:32 自动驾驶技术安全 3 个问题、7 位CXO，围绕「自动驾驶」来了场头脑风暴针对种种纷繁复杂的行业现象，七位来自自动驾驶行业上下游的企业代表齐聚第四届全球智能驾驶峰会圆桌论坛，共同探讨中国自动驾驶产业发展现状。 2021-12-28 10:36:08 自动驾驶数据人工智能秒秒钟揪出张量形状错误，这个工具能防止ML模型训练白忙一场韩国首尔大学的研究者就开发出了一款“利器”——PyTea。据研究人员介绍，它在训练模型前，能几秒内帮助你静态分析潜在的张量形状错误。 2021-12-28 10:08:33 模型人工智能工具 PyTorch | 优化神经网络训练的十七种方法本文介绍在使用 PyTorch 训练深度模型时最省力、最有效的 17 种方法。该文所提方法，都是假设你在 GPU 环境下训练模型。 2021-12-28 08:48:54 PyTorch神经网络人工智能人工智能与现代香水的研发香水一直是人类的一部分。气味向社会传递其他人认为令人愉快或不愉快的信号。香水能够激活影响记忆、表现和情绪的大脑区域。调香师长期以来一直利用这些知识，并在他们的感官的帮助下创造出在他们看来可以吸引异性注意力的香水。 2021-12-27 16:06:20 人工智能香水嗅觉 AI论文激增，出现引用10万+的ResNet是好是坏？这研究有结论了当一个领域的规模越来越大，每年发表的论文越多越多时，对于该领域来说，是好事还是坏事呢？ 2021-12-27 16:02:41 AI 数据人工智能三方面协同发力，人工智能助力智慧交通发展！促进交通发展迈上数字化、信息化、智慧化新台阶，无疑是实现交通高质量发展的必由之路。而这其中，对于人工智能技术的融合应用更是尤为关键。 2021-12-27 15:45:12 人工智能AI深度学习人工智能技术助推现代农业发展目前，人工智能技术已经应用到了农学方面。因此，有关专家认为：人工智能技术有助于推动我国现代农业的快速发展。 2021-12-27 15:43:24 人工智能AI 神经辐射场去掉「神经」，训练速度提升100多倍，3D效果质量不减加州大学伯克利分校、谷歌、加州大学圣地亚哥分校的研究者提出了一种名为「NeRF」的 2D 图像转 3D 模型，可以利用少数几张静态图像生成多视角的逼真 3D 图像。

28 日，阿里巴巴达摩院发布 2022 十大科技趋势。其中，“大模型参数竞赛进入冷静期，大小模型将在云边端协同进化”的断言，在 AI 圈备受关注。

岁末年初之际，让我们回顾大模型的过去，展望大模型的未来。

28 日，阿里巴巴达摩院发布 2022 十大科技趋势。其中，“大模型参数竞赛进入冷静期，大小模型将在云边端协同进化”的断言，在 AI 圈备受关注。

[[442921]]

2021 是大模型爆发之年，我们见证了大模型的惊艳，但也了解了目前大模型的一些局限，如显著的高能耗等问题。

达摩院认为，超大规模预训练模型是从弱人工智能向通用人工智能的突破性探索，解决了传统深度学习的应用碎片化难题，但性能与能耗提升不成比例的效率问题限制了参数规模继续扩张。

接下来，人工智能研究将从大模型参数竞赛走向大小模型的协同进化，大模型向边、端的小模型输出模型能力，小模型负责实际的推理与执行，同时小模型再向大模型反馈算法与执行成效，让大模型的能力持续强化，形成有机循环的智能体系。

周志华、唐杰、杨红霞等多位学界、业界代表性专家，对此发表了评论。

大模型接下来会如何发展？岁末年初之际，让我们回顾大模型的过去，展望大模型的未来。

大小模型将承担不同角色

南京大学计算机科学与技术系主任兼人工智能学院院长周志华

[[442922]]

大模型一方面在不少问题上取得了以往难以预期的成功，另一方面其巨大的训练能耗和碳排放是不能忽视的问题。个人以为，大模型未来会在一些事关国计民生的重大任务上发挥作用，而在其他一些场景下或许会通过类似集成学习的手段来利用小模型，尤其是通过很少量训练来 “复用” 和集成已有的小模型来达到不错的性能。

我们提出了一个叫做 “学件” 的思路，目前在做一些这方面的探索。大致思想是，假设很多人已经做了模型并且乐意放到某个市场去共享，市场通过建立规约来组织和管理学件，以后的人再做新应用时，就可以不用从头收集数据训练模型，可以先利用规约去市场里找找看是否有比较接近需求的模型，然后拿回家用自己的数据稍微打磨就能用。这其中还有一些技术挑战需要解决，我们正在研究这个方向。

另一方面，有可能通过利用人类的常识和专业领域知识，使模型得以精简，这就要结合逻辑推理和机器学习。逻辑推理比较善于利用人类知识，机器学习比较善于利用数据事实，如何对两者进行有机结合一直是人工智能中的重大挑战问题。麻烦的是逻辑推理是严密的基于数理逻辑的 “从一般到特殊”的演绎过程，机器学习是不那么严密的概率近似正确的 “从特殊到一般”的归纳过程，在方法论上就非常不一样。已经有的探索大体上是以其中某一方为倚重，引入另一方的某些成分，我们最近在探索双方相对均衡互促利用的方式。

站在 2022，展望大模型的未来

清华大学计算机系教授，北京智源人工智能研究院学术副院长唐杰

[[442923]]

2021 年，超大规模预训练模型（简称大模型）成为国际人工智能前沿研究和应用的热点，发展迅速也面临系列挑战。最新发布的《达摩院 2022 十大科技趋势》将 “大小模型协同进化” 列为 AI 模型发展的新方向，提出“大模型参数竞赛进入冷静期，大小模型将在云边端协同进化”，值得业界关注。站在年末岁初，让我们一起回望大模型的 2021，展望它的 2022 和更远未来。

一、超大规模预训练模型迅速发展但也面临系列挑战

2021 年 8 月，斯坦福大学成立基础模型研究中心（CRFM）并将 BERT、GPT-3 和 CLIP 等基于大规模数据进行训练并可以适应广泛下游任务的模型统称为 “基础模型”。虽然这个概念在学术界引起了不少争议，有学者对于模型是否具有“基础性” 提出了质疑，但是应该看到，这些模型所表现出的能够更好处理现实世界复杂性的能力，使得它们变得愈发重要。

产业界持续推动大模型研发，并不断将模型的规模和性能推向新高。1 月，OpenAI 发布大规模多模态预训练模型 DALL·E 和 CLIP，谷歌发布 1.6 万亿规模预训练语言模型 Switch Transformer，10 月，微软和英伟达发布 5300 亿规模的 Megatron-Turing 自然语言生成模型 MT-NLG。另外，大模型应用也在不断丰富，目前全球基于 GPT-3 的商业应用已有几百个，随着近期 GPT-3 全面开放 API 申请和微调功能，GPT-3 应用生态也将加速形成。

2021 年也是我国超大规模预训练模型发展的“元年”，目前，已有智源研究院、鹏城实验室、中科院自动化所、阿里、百度、华为、浪潮等科研院所和企业研相继发出“悟道”、“盘古”、“紫东 · 太初”、M6、PLUG、ERNIE 3.0 等大模型。

虽然国内外超大规模预训练模型取得了较大进展，但是同时也应认识到，大模型发展还有很多亟待解决的重要问题。例如，预训练模型的理论基础尚未明确（如大模型智能的参数规模极限存在吗），大模型如何高效、低成本的应用于实际系统；其次构建大模型需要克服数据质量、训练效率、算力消耗、模型交付等诸多障碍；最后目前大部分大模型普遍缺乏认知能力的问题，这也是部分学者质疑这类模型能否被称为 “基础模型” 的原因之一。能否通过大模型实现更通用的智能？怎么实现？这些都需要学术界和产业界不断探索。

二、大模型打造数据与知识双轮驱动的认知智能

人工智能经过数十年的发展，历经符号智能、感知智能两个时代，目前来到第三代人工智能即认知智能的大门口。认知智能不仅要求基于大数据的深度学习及对应的感知识别，还要求机器具有认知和推理能力，要让机器具备与人接近的常识和逻辑，这就对数据与知识的融合提出了迫切需求。

回顾人工智能的发展，1968 年图灵奖获得者 Edward Feigenbaum 研发出世界首个专家系统 DENDRAL；1999 年互联网发明人、图灵奖获得者 Tim Berners-Lee 爵士提出语义网的概念；图灵奖获得者 Yoshua Bengio 在 2019 年 NeurIPS 大会的主题报告中指出，深度学习应该从感知为主向基于认知的逻辑推理和知识表达方向发展，这个思想和清华大学张钹院士提出的第三代人工智能思路不谋而合。同期，美国国防部高级研究计划局（DARPA）发布 AI NEXT 计划，核心思路是推进数据计算与知识推理融合的计算，还委托了伯克利等机构，开展 SYMBOLIC - NEURAL NEWORK（符号加神经网络计算）研究，其目的就是要加快推进这一进程。

总的来说，研究数据与知识融合的双轮驱动 AI 时代已经到来，核心是利用知识、数据、算法和算力 4 个要素，不仅是使用数据驱动的方法来建构模型，还需要将用户行为、常识知识以及认知联系起来，主动 “学习” 与创造。

智源研究院研发的 “悟道” 大模型是我国具有代表性的超大规模预训练模型，探索了大模型研发的另外一条路径，旨在打造数据与知识双轮驱动的认知智能，建立超越图灵测试的通用机器认知能力，让机器像人一样“思考”。

在大模型研发过程中，我们初步定义了大模型需要具备的 9 种机器认知能力（T9 准则）：

1. 适应与学习能力：机器具有一定的模仿能力，能够通过模仿和反馈学习人的语言和行为；

2. 定义与情境化能力：机器能够根据感知上下文场景做出反应（语言和行为反馈），并保证反应的一致性；

3. 自我系统的准入能力：机器具有一个稳定的人设（如：稳定的心理大五人格），在生成对待事物的观点时，不会随意改变自己的观点和情感倾向；

4. 优先级与访问控制能力：机器具有能发现自我观点的矛盾和纠结，但最终能做出一个选择，并在后续行为中保持一致；

5. 召集与控制能力：机器能主动搜索与自身人设一致或者符合自身利益的内容（新闻），并对其进行正面评论；反之也能搜索与自身人设相违背的内容，并对其进行反驳；

6. 决策与执行能力：机器能主动搜索内容信息、统计其他机器与人的观点与倾向，根据自身人设做出对自己有利的决策并执行；

7. 错误探测与编辑能力：机器能自动对无法判断的事物进行假设，并进行追踪，如果发现假设错误或者假设不完备，能自动进行编辑修正；

8. 反思与自我监控能力：机器具有自动校验能力，如果发现执行的操作不正确，具有自我监控和修正的能力；

9. 条理与灵活性之间的能力：机器能够自动规划和保证执行操作之间的条理性；同时如果发现条理不正确的时候，具有一定灵活性，可以修正自己的行为。

要全面实现以上 9 种机器认知能力还有很长的路要走，但我们坚信下一个人工智能浪潮的兴起必然伴随着认知智能的实现，让机器具有推理、解释、认知能力，在多项人类感知与认知任务中超越图灵测试。大模型已经在认知智能发展上进行了一年的探索，并取得阶段进展。

三、大模型的未来

《达摩院 2022 十大科技趋势》提出，大小模型将在云边端协同进化。大模型向边、端的小模型输出模型能力，小模型负责实际的推理与执行，同时小模型再向大模型反馈算法与执行成效，让大模型的能力持续强化，形成有机循环的智能体系。这一观点富有启发性，而且有助于大模型从实验室走向规模化的产业应用。

在我看来，未来大规模研究将更加注重原始创新，围绕认知智能以及高效应用等多个角度展开。

在认知智能方面，模型参数不排除进一步增加的可能，甚至到百万亿、千万亿规模，但参数竞赛本身不是目的，而是要探究进一步性能提升的可能性。大模型研究同时注重架构原始创新，通过模型持续学习、增加记忆机制、突破三元组知识表示方法等方法进一步提升万亿级模型的认知智能能力。在模型本身方面，多模态、多语言、面向编程的新型模型也将成为研究的重点。

在高效应用方面，将大大降低大模型使用门槛，让大模型用起来，促进中小企业形成 “大模型 + 少量数据微调” 的 AI 工业化开发模式。主要实现：

1）降成本：降低模型在预训练、适配下游任务、推理过程中的算力消耗；

2）提速度：通过模型蒸馏、模型裁剪等手段提升千亿或以上规模模型推理速度 2 个数量级；

3）搭平台：通过搭建一站式开发及应用平台提供从在线模型构建、在线模型部署、应用发布的全流程预训练服务，能够支持成百上千个应用的开发与部署，相信后续大模型的广泛应用将成为赋智我国经济高质量发展的关键助推剂。

思考的快与慢，与下一代人工智能

阿里巴巴达摩院人工智能科学家杨红霞

[[442924]]

人工智能学者一直试图从大脑工作模式中汲取灵感，但大脑究竟如何思考是非常复杂的课题。诺贝尔经济学奖获得者丹尼尔 · 卡内曼教授的《思考, 快与慢》指出，人的思考有两种模式。我们很多时候下意识地作出反应，是快的模式。举个例子，如果每天从家到公司的路线一模一样，就不需要做太多思考，沿着原路走就行，这是快思考。什么是慢思考？突然有一天，公司和家之间在修路，需要重新规划路径，这时就不得不进行慢思考。

基于大脑思考的模式，解决下一代人工智能的核心认知推理问题，是我们团队近几年最重要的目标。GPT-3 激发了大家投入大模型研发的巨大热情，但由于大模型的能耗和效率问题，学界又对是否一定要用大模型提出疑问。通过大量的实际探索，我们认为，大模型和小模型可以协同发展，分别承担慢思考和快思考的任务。云上能容纳海量知识的大模型，就像超级大脑，有能力进行慢思考，而在端上与大模型协同的小模型可以执行快思考。

近年来，随着预训练技术在深度学习领域的飞速发展，预训练大模型（大模型）逐渐走进人们的视野，成为人工智能领域的焦点。大模型在文本、图像处理、视频、语音等多个 AI 领域实现较大突破进展，并逐渐成为 AI 的基础模型（Foundation Model），同时大模型也在积极与生命科学领域进行结合，包括在蛋白质、基因等方向取得进展，并在细胞分类、基因调控关系发现、细菌耐药性分析等任务中前景广阔。可以认为大模型是目前解决推理认知问题最先进的工具，不过预训练大模型还有亟待突破的几个课题，比如：

1、目前的主流实践是先通过训练大模型（Pretrained Model），得到参数规模大、精度高的模型后，再基于下游任务数据，通过剪枝、微调的方法（Finetune）将模型的体积压缩，在基本不损失精度的情况下减轻部署的压力，目前业界还没找到通用的、直接训练小型模型就能得到较满意精度的办法；

2、训练千亿、万亿模型动辄就上千张 GPU 卡，给大模型的推广和普惠带来了很大的挑战；

3、预训练模型 Pretrain 阶段参数量大，目前主要采用大量非结构化数据进行训练，如何与知识等结构化数据进行结合，让模型更加有效地实现认知推理，也是一个非常大的挑战。

在解决大模型亟待突破的课题方面，我们做了不少尝试，可供业界参考。今年 11 月，我们发布了全球首个 10 万亿参数的多模态大模型 M6，相比去年发布的 GPT-3，实现同等参数模型能耗仅为其 1%，降低了大模型实现门槛，推动了普惠 AI 的发展。今年 10 月我们对外开放的云服务化平台是目前业界覆盖下游任务最广泛的平台，涵盖各项单模态和跨模态的理解及生成任务。目前，M6 已在阿里巴巴超 50 余个不同业务场景中应用。

未来，除了通过低碳化发展绿色 AI、平台化应用推进普惠 AI 以及突破认知推理等技术外，我们希望大模型还能积极探索与科学应用的结合，潜在科学应用方向可能包括脑神经连接图谱绘制、脑机接口、透明海洋等领域。

在形成更高效、更广泛的智能体系上，大小模型在云边端协同进化带来了新的可能性。在边端与大模型协同的小模型执行快思考方面，我们也进行了积极探索和规模化落地。大模型可以向边、端小模型的输出，让小模型更容易获取通用的知识与能力，小模型专注在特定场景做极致优化，提升了性能与效率；同时小模型向大模型反馈执行成效，解决了过去大模型数据集过于单一的问题，最后全社会不需要重复训练相似的大模型，模型可以被共享，算力与能源的使用效率得以最大化。这一模式有望构建下一代人工智能的基础设施，在让人工智能的通用能力进一步提升。

经历符号主义的衰落与深度学习的繁荣，我们来到了新的路口。科技的进程往往由天才般的灵感与极大量的实践推进，人工智能的演进也是如此，在收敛与发散之间不断寻找突破口。大模型是一个令人激动的里程碑，接下来该走向何方，我们或许可以继续向自身追问，在快思考与慢思考中获取新的启示。

©本文为清一色官方代发，观点仅代表作者本人，与清一色无关。清一色对文中陈述、观点判断保持中立，不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。本文不作为投资理财建议，请读者仅作参考，并请自行承担全部责任。文中部分文字/图片/视频/音频等来源于网络，如侵犯到著作权人的权利，请与我们联系（微信/QQ:1074760229）。转载请注明出处：清一色财经