CAAI名誉理事长李德毅：可交互、会学习、自成长是智能农机的硬核

发布一下 2023年01月04日 21:41 0 0

近日，在以“农业无人农场”为主题的中国工程科技论坛上，中国工程院院士，欧亚科学院院士，中国人工智能学会和中国指挥与控制学会名誉理事长，中科原动力首席科学家李德毅院士应邀做题为《机器具身交互智能》的演讲。李德毅院士表示，智能机器不但把人从繁重的、重复性劳动中解脱出来，更好地符合相应工作岗位规范化要求，更重要的是可以暴力计算，人机交互协同创新。他认为，智能农机的硬核已经跃过了算力、算法和数据阶段，可交互、会学习、自成长是新一代智能机器的硬核。未来，教机器学习、作业，和机器一同学习、作业，将成为人们生活和工作的常态。机器和科学家、工程师可一同作出发明发现和创造。

本次报告的主要内容是将“具身智能”结合农机展开，分为以下三个部分：

1、深度学习应该在和外界实时的交互和迭代中完成。

2、通过具身控制和自动调节确保机器行为与环境的协同。

3、可交互、会学习、自成长是智能农机的硬核。

李德毅

CAAI名誉理事长

中国工程院院士

欧亚科学院院士

以下为李德毅院士演讲实录：

具身智能来源于英语Embodied Intelligence，由人工智能之父艾伦·麦席森·图灵（Alan Mathison Turing）于1948年提出，embodied即人体的，intelligence即智能，结合在一起即具身的、离不开人体的智能。同时，图灵还提出了另一个与其相对的概念Disembodied Intelligence，即体外智能、离开人体的智能，克劳德·艾尔伍德·香农（Claude Elwood Shannon）等人在1956年的达特茅斯会议上把该概念定义为人工智能（Artificial Intelligence）。

本次报告的题目——机器具身交互智能（Interactive Embodied Intelligence of Machines），即在具身智能的基础上加上交互（interactive）一词，以体现交互的重要性。

近日，OpenAI发布的ChatGPT人工智能模型能以对话的形式与人类进行互动，其能否替代Google搜索引起了科研人员的激烈讨论。其实，Chat就是谈话、聊天，麦拉宾法则指出，人的交互过程中有55%的信息通过视觉传达，如仪表、姿态、肢体语言等；有38%的信息通过听觉传达，如说话的语气、情感、语调、语速等；剩下只有7%来自纯粹的语义，而ChatGPT还是靠语义输入的，这部分仅占人类交互中的7%。

因此，交互在具身认知当中起很大的作用，具身智能是人类认知的源泉和归宿。人类认知始于行为和模仿，最早的肌体语言导致形象思维，行为是智能的外化表现，称为具身智能。肢体动作是无声的语言，舞者用行为表现艺术，机器用行为体现互动，汽车防抱死刹车系统（ABS）能够使车体动力学行为更快更准，智能灵巧手给老人端茶喂饭，表现出行为的温柔；无人驾驶的轮式机器人进入城市交通流中，如果行为动作怪异，不能识别交警手语和路人请求打车手势，人们是不会允许它上路的；车身必须体现出良好的位置感、方向感和地理认知能力，有良好的空间运动学行为，表现出的具身智能和驾驶员开车类似才能被认可，智能农机亦然。

一、深度学习应该在和外界实时的交互和迭代中完成

学习的结果是记忆，记忆智能优先于计算智能。深度学习的贡献在于使人工智能走上了一个新的台阶，打破了“算法长期被困在程序里”的封闭局面，打破了需要预写程序通过编译才能获得智能的传统方法，用标注代替记忆，从大数据中直接获得分类知识，用数据修改算法中的参数，开辟了机器学习的新纪元。

但深度学习存在先天的不可解释性，因此具有一定的局限性，目前主要体现在以下7个方面：

1、所有训练样本都是第三、第四等多方视角发散提供的，不具有时间序贯性，不是从机器本体的“我”出发、同一视角的主动感知；

2、鲜有多通道跨模态感知，尤其是视觉、语言和肢体行为的跨模态感知；

3、标注不可或缺且成本高，被戏说为“有多少人工，才有多少智能”；

4、没有体现注意力选择，没有得到当前工作记忆和长期记忆对新观察的指导；

5、通用性和鲁棒性差，存在数据偏见，容易受到对抗样本的欺骗；

6、采用超大模型、超大参数预训练大型神经网络，计算成本昂贵；

7、一旦部署于应用，就无法在运行时在线学习新知识。如果要求机器视觉识别新的图像对象，必须对模型修改并在新的数据上重新训练，智能难以自成长。

图灵奖获得者杨立昆（Yann LeCun）对深度学习的未来提出了一个工作设想，如图所示：模型含配置器、感知、世界模型、成本函数、短时记忆、行为者6个模块。核心是配置器的生成和调度，感知模块接收物理世界的传感器信号，估计当前系统状态；成本模块以能量最小为目标评价机器的行为；短时记忆负责提取世界模型的记忆，同时可加强或者微修饰世界模型，行为者模块根据当前系统状态计算动作指令并执行。这个模型很好，但缺少了人对机器的控制和交互，深度学习应该在和外界实时的交互和迭代中完成。

二、通过具身控制和自动调节确保机器行为与环境的协同

农机在田间耕作时要跟土地协同、田埂协同、植物协同。那么，怎样通过具身控制和自动调节，确保机器行为与环境的协同？

“图灵可计算”开创了机器暴力计算的先河。公元前200年，阿基米德把1700年前的圆周率精度从3.1提升到3.14，公元500年，祖冲之求得π值为3.141592，总计用了2400年，按图灵可计算模型设计的计算机把圆周率提升到小数点10¹²位，仅仅用了70年。算力的提升体现出图灵的伟大、暴力计算的伟大、暴力思维的伟大，但图灵机也有自身的局限。

机器具身智能中不可或缺的是多通道的跨模态交互。行为交互最能体现机器认知的试探和反馈，认知的机器要能在与环境的互动过程中学习和成长。但冯诺依曼计算机架构中只有输入/输出，且输出相比输入具有一定的时滞性，没有多通道跨模态的感知交互，这成为用计算机做智能机器的一个致命弱点，人类到了发明认知机的时候了。

认知的全部活动是“感知-认知-行为”的螺旋上升过程，认知不可能独立于感知和行为，我们要克服图灵机的两个局限：（1）孤立了认知，忽视了机器具身与环境的交互；（2）孤立了计算，忽视了记忆。

学习是一个交互的过程，其中有指导学习，还有自主学习。自然进化使人类具有了丰富的瞬时记忆，工作记忆和长期记忆的生物学基础，使人类有了时间的概念。时间是人类认知的奠基石，记忆保持了认知的连续和累积，人类才有了文明，才有了历史。人类靠记忆形成边界来约束思维，记忆先于计算、优于计算；因此，各智其智、智人之智、智智与共、多元认知、兼容并包，才是常态。我们不应该总是停留在“智能就是计算”的奇点上。

图灵24岁之后18年的学术思想使他成为“人工智能之父”。在42年的生命中，他24岁时写了图灵机，然后从24岁到42岁的18年间，他都在研究人工智能。他在1950年发表的历史文献《计算机械与智能》中，开宗明义地要大家考虑机器能否思维，他分析并驳斥了9种对思维机器的反对意见，主张教机器学习，只要机器在语言行为(对话)上和人没有明显差别，就是能思维或有智能了，这就是后来所称的“图灵测试”。他认为可以编制一个“儿童程序”，然后对其进行教育，以达到成人的智力水平。

但图灵的这一主张在全球包括中国，都没有得到足够的重视。以“儿童程序”为例，如何才能使其体现基因遗传的“幼儿认知核”？如何对机器进行教育，怎样指导机器的学习，如何让它自主学习？目前的研究还很不够。如果回顾图灵的9种反对思维机器意见的驳斥，会发现其与对当前人们对机器的恐惧的批评基本是同样的。

控制论之父诺伯特·维纳于1948年提出《控制论：动物和机器中控制与交互的科学》，他认为：“如果我们使用一台机器来实现我们的目标，但又不能有效地干预其运作方式......那么我们最好能确定输入给机器的目标是我们真正所预期的。” 因此，麦卡锡认为：“人工智能本应该叫控制论，就是智能的自动化。” 诺伯特·维纳强调：“控制就是追求熵减，通过负反馈来确保机器具身行为智能的稳定性。”自动控制是强化学习的发源地，任何奖罚函数，可以与偏差为零的反馈控制等价。

我的团队十几年来一直致力于实现机器驾驶脑，其架构与图灵奖获得者杨立昆提出的架构实际上具有异曲同工之妙，如图所示。

在瞬时记忆里我们强调：定位传感器，特别是北斗&GPS等定位设备，要求能够达到厘米级导航；车姿传感器包括车身的加速度，速度；视觉传感器看图像，雷达传感器看距离、看路权。把这些信息进行跨模态的交互融合，形成当前的驾驶态势图，送入工作记忆。在人脑中还有长期记忆，即要有驾驶地图、交通规则、各类记忆棒。除此以外，还要有人机交互，要完成路径规划，要通过学习思维完成自主决策，要通过汽车的控制平台、三个总线执行汽车的运动行为。我们认为：深度学习将来要在实时的交互和迭代中完善和成长，不能仅仅是预训练、预编程。

ChatGPT在训练过程中高薪聘请了“提示工程师”，同理在农业机械自动驾驶中也需要“指导工程师”，即让农业技术专家来教授农业机械进行无人化作业。如图所示，物理空间用蓝色表示，认知空间用浅咖色表示，整个学习、推理过程都在物理空间和认知空间中进行。

在认知空间中，进行情境感知、跨模态融合形成瞬时记忆，在工作记忆中，通过当前态势的“判断黑板”，在记忆约束下进行计算，进而在当前环境下进行推理，如路口等待、超车换道等行为决策，同时在长期记忆里进行记忆提取，使用注意力选择、路权来改变当前的驾驶态势。而在物理空间中要实现车身控制，则由运动姿态传感器进行数据反馈，通过作业行为的反馈，使车身能够按决策行动，同时也感知周边环境数据，根据环境变化动态调整认知空间的输入。

因此，上图实际上是“感知-认知-行为”的物理模型架构图，通过嵌套的控制回路，人与机器能有效沟通完成预设任务，即“指导工程师”的任务——人教机器学，机器自主学，机器逐渐地理解人设定的任务目标，其统一的过程可称为使命对齐，精准完成作业，具身体现智能。

三、可交互、会学习、自成长是智能农机的硬核

智能农机的硬核已经跃过了算力、算法和数据阶段，更重要的是交互、学习和自成长。可交互、会学习、自成长是新一代智能机器的硬核。

回顾一下，农耕时代的工具和工业时代的机器为什么不会思维？

农耕时代工具的二要素说。工具里有实体物质和虚体结构，结构直接寄生在物质上，形成硬构体。什么是结构寄生在物质上？以农耕时代的轮子为例，轮子取自于天然的树干，人们用煣的工艺把它弯曲，使其符合圆的标准，并固定它的结构。这样一来它就不是一个简单的物质材料，而是一个工具，叫做轮子。在人类历史上，轮子的作用是可以跟火的发明相提并论的。

工业时代机器的三要素说。机器里有物质、能量和结构，结构直接寄生在物质和能量上，形成硬构体。以时钟为例，挥动的钟摆是一个结构，它直接寄生在物质和能量上，可以实现精准地走；蒸汽机、发动机的发明，都是把结构寄生在物质、能量上。可惜的是，工业时代的机器没有利用时间，以钟表为例，钟表的时间仅仅是其表面上一个读数。所以，爱因斯坦对时间的定义非常重要：时间仅是钟表表面的一个读数，因为其对钟表本身精致的运作没有做出贡献。

智能时代机器的四要素说。智能时代发生了重要的变化，智能时代机器的生命观可分为认知和行为两个层面来理解。智能时代的机器里有物质、能量、结构和时间；物质和能量是物理层面的真实存在，结构和时间是认知层面的抽象思维，用结构思维物质在空间的拓扑（几何）关系，用时间思维物质的运动与变化、能量的流动与转换。结构和时间寄生在物质和能量上成为硬构体，机器里中信息是大量的软构体，体现了精神，它们寄生在硬构体或者已有的其他软构体之上，可自举和自我复用，机器的秩序显示出维持自身和产生有序事件的能力，体现出思维和行为两个方面。以自动驾驶汽车为例，其硬构体包括车的底盘、集成电路芯片、驾驶脑，软构体（软件）包括驾驶脑程序、地图、交通规则等。因为有了时间，所以有了维持秩序的能力，机器能够实现自举的自动化工作，所以思维得以进行。

上图体现了物质、能量、结构和时间的关系：上半部分是认知空间，表示思维；下半部分是物理空间，表示行为。中间部分很重要，表示结构和时间寄生在物质和能量上形成硬构体。如轮子就是这样的硬构体，硬构体填补了物质和能量之间的鸿沟，使得信息和物质难舍难分。当前的集成电路芯片就是硬构体的爆品，成为人工智能“卡脖子”的代表。软构体非常丰富，有底层的，有上层的。软构体是思维的要素，支撑形象思维、逻辑(语言)思维和直觉思维，体现人的想象力和创造力，体现精神世界，有空间感、时间感和层次感。如果要为底层软构体命名，可称为符号、字母、笔划、数字、前后、左右、上下、顺序、快慢等。软构体不是自然语言，因为孩子没有学会语言之间已经有了思维，语言学家称之为“心语”。而概念、消息、信息和知识都是上层软构体，是物理世界在认知空间的镜像和上层建筑，是虚拟的现实。语言是人类思维的上层工具或常用载体。当前，人们把认知空间中想象的现实称为虚拟世界，把认知空间称为元宇宙。这样一来，我们用硬构体、软构体的思想填补了物质、能量和信息之间的鸿沟，物质、能量、结构和时间之间的纠缠状态，可类比为“薛定谔的猫”。

那么，智能到底是物质的还是精神的？以音乐为例：作曲家创造的乐谱是软构体，表达的是信息、情感、技巧、艺术、风格和人文；同一首乐谱可在不同硬构体（乐器）上表现出来，可用小提琴、二胡、钢琴、架子鼓等多种硬构体来支撑，不变的却是这个乐谱。乐谱是精神的、虚拟的、非物质的；人们在物理空间听到的乐曲是物质的、具身的，是客观存在的声音艺术，蕴含了物质、能量、结构和时间，这四要素的组合体现了美，也体现了知行合一。同时，硬构体可以局部软化成软构体，如虚拟机器人、虚拟主持人等；软构体也可以局部固化成硬构体，如图所示的实体机器人，中科原动力公司研发的可交互、会学习、自成长的轮式机器人等。物质和精神是互通的，但软件不能定义一切。

按照薛定谔的观点，用活细胞的物理观来解释什么是生命，他认为生命是机器。按照他的思路，我们来解释机器为什么可以当做生命，称之为机器的生命观。如上图所示，生命的物理层对应机器的物质层，生命的生化层对应机器的能量和时钟，生命的生理层对应机器的电子电路和机器指令，生命的心理层对于机器的操作系统和中间件，生命的认知层对应机器的高层软件和数据。这就体现出物质、能量、结构、时间四要素的重要性：时钟依赖能量，时间依赖时钟，秩序依赖时间，软构体寄生在硬构体上，机器自举实现思维自动化，自我复用实现认知自成长。机器运行靠程序，程序靠时序，软件靠交互，时序和交互产生负熵，机器赖负熵为生。时钟不停，与外界交互不息，思维和认知不会停止。

通过查询了200多种关于“智能”的定义，我们认为，对于智能的定义可以放宽一些，不论是智能、认知或者思维，都可笼统地定义为：培养和传承解释解决预设问题的学习能力，以及解释解决现实问题的能力。

在认知空间里，能够实现认知思维能力，要通过计算智能和记忆智能；在物理空间里，能够实现具身交互能力，要通过感知智能和行为智能。感知与认知之间是不断地循环往复的。感知智能中的时空识别代表位置、导航和时间同步，以及还包括目标识别、人脸识别等。培养和传承解释解决预设问题的能力，其本质就是学习。学习是现实问题的一个子集，当问题得到解决后可形成知识，机器可以接受指导学习，同时自主学习。只有解释、解决了预设问题后，解决、解释现实问题能力才会增强，因此要解决在哪里、怎么做、为什么、是什么这四个问题。

智能农机在田间的学习和作业，包括先入为主、赋予任务、引导、释疑、解惑、交互认知、监督等有指导的学习。而自主学习是把指导学习的结果转为长期记忆的重要环节，例如复习功课、消化理解。如果简单地把指导学习称为有监督学习，自主学习称为无监督学习就过于简单化了。

因此，智能农机的学习应当包括三个环节：（1）农机手操作、机器人学习；（2）机器人操作，农机手干预；（3）机器人作业、机器人自学习。这三个过程不断循环迭代，实现有指导学习、半/弱指导学习、自主学习。事实上，所有的机器学习过程都应如此，过去的研究过分看重了L0到L5自动化的实现，而忽视了学习、交互和成长。

以商汤公司的“元萝卜”象棋博弈机器人为例，胡荣华、谢靖、顾博文三代象棋冠军与“元萝卜”博弈，机器人内置26关难度的棋力对战，设有100多个残局应对，自主观察棋局变化，推算走棋招数，取棋落子，拥有毫米级操作精度，秒级时间响应，“手眼”协同，走法干净，节奏紧凑，“三秦棋王”李小龙称赞“元萝卜”是一个非常好的对手和陪练。“元萝卜”已不再是一个”AlphaGo“的程序了，它是一个实体机器人，有手臂可以放棋子，有眼睛可以看棋盘，它最近打败了很多冠军，而它每下一盘棋实际上就接受了一次图灵测试。那么，有感知、有认知、有行为、可交互的“元萝卜”博弈机器人为什么没有语音交互呢？它会学习吗？如果把它放到一个象棋研究院，或跟象棋高手学习，它能够实现自成长、自创造吗？

具身智能在一次次图灵对话测试中迭代成长。图灵对话测试具有多样化和常态化的特点，而所有机器工作语言的原语言都是自然语言，因此图灵提出用对话来做图灵测试是非常有见解的。语言能力是机器智能的杰出表现，而特定领域机器工作语言的语音、文字、符号具有限制性，用自然语言表达的公理来约束，其在一定程度上可以被形式化，以数学为甚、物理学次之，均服从哥德尔的不完备定理。因此机器思维先要把其工作语言形式化，只有形式化才可机械化，而后自动化。一旦自动化，思维的深度就一定会超越人。

如上图所示，图灵测试可应用于多个学科和领域。在社区聊天，可以做对话的图灵测试；在文学语言中，可以做虚拟演员的图灵测试；在游戏语言中可以做围棋的图灵测试；在数学语言中可以做机器定理证明；在美术语言中可以做机器作画的图灵测试；在唐诗宋词中可以做机器写作图灵测试；在法律语言可以做机器律师咨询的图灵测试；那么，在物理学语言里我们可以做智能农机的图灵测试，因此智能农机要一定要有语音交互，未来图灵对话测试一定会多样化、常态化。

思维的本质是抽象和联想，更多的是软构体的创立和连接。智能机器在常态化的图灵测试中学习，变为具身的智能。机器越来越多地取代人类曾经的许多智力和技巧工作，对各行各业特定岗位上的机器的教育训练是个并不轻松的任务。教机器学习、作业，和机器一同学习、作业，将成为人们生活和工作的常态。学习的结果是去微调机器里的长期记忆，即微调人工智痕细胞的网络拓扑，自主学习是把工作记忆转化为长期记忆的重要环节，可喜的是机器可以大批量复制，而且机器自身又可以持续学习。与机器交互，人教机器，机器教人，协同创新，总有一天出现机器工程师创造出新材料的配方，机器科学家提出新的假设，驱动产生新的科学发现。

机器具身交互智能，是从学习到创造的智能。智能机器之于人类智能，就如同曾经的望远镜之于天文学家、显微镜之于生物学家。机器延伸和拓展了人的记忆智能和计算智能，不但把人从繁重的、重复性劳动中解脱出来，更好地符合相应工作岗位规范化要求，更重要的是可以暴力计算，人机交互协同创新，机器和科学家、工程师可一同作出发明、发现和创造，至于是不是机器做出的创造，人们已经不再计较。

作者李德毅院士

未经授权严禁转载及翻译

本文地址：http://0561fc.cn/198150.html