近日,在以“农业无人农场”为主题的中国工程科技论坛上,中国工程院院士,欧亚科学院院士,中国人工智能学会和中国指挥与控制学会名誉理事长,中科原动力首席科学家李德毅院士应邀做题为《机器具身交互智能》的演讲。李德毅院士表示,智能机器不但把人从繁重的、重复性劳动中解脱出来,更好地符合相应工作岗位规范化要求,更重要的是可以暴力计算,人机交互协同创新。他认为,智能农机的硬核已经跃过了算力、算法和数据阶段,可交互、会学习、自成长是新一代智能机器的硬核。未来,教机器学习、作业,和机器一同学习、作业,将成为人们生活和工作的常态。机器和科学家、工程师可一同作出发明发现和创造。
本次报告的主要内容是将“具身智能”结合农机展开,分为以下三个部分:
1、深度学习应该在和外界实时的交互和迭代中完成。
2、通过具身控制和自动调节确保机器行为与环境的协同。
3、可交互、会学习、自成长是智能农机的硬核。
李德毅
CAAI名誉理事长
中国工程院院士
欧亚科学院院士
以下为李德毅院士演讲实录:
具身智能来源于英语Embodied Intelligence,由人工智能之父艾伦·麦席森·图灵(Alan Mathison Turing)于1948年提出,embodied即人体的,intelligence即智能,结合在一起即具身的、离不开人体的智能。同时,图灵还提出了另一个与其相对的概念Disembodied Intelligence,即体外智能、离开人体的智能,克劳德·艾尔伍德·香农(Claude Elwood Shannon)等人在1956年的达特茅斯会议上把该概念定义为人工智能(Artificial Intelligence)。
本次报告的题目——机器具身交互智能(Interactive Embodied Intelligence of Machines),即在具身智能的基础上加上交互(interactive)一词,以体现交互的重要性。
近日,OpenAI发布的ChatGPT人工智能模型能以对话的形式与人类进行互动,其能否替代Google搜索引起了科研人员的激烈讨论。其实,Chat就是谈话、聊天,麦拉宾法则指出,人的交互过程中有55%的信息通过视觉传达,如仪表、姿态、肢体语言等;有38%的信息通过听觉传达,如说话的语气、情感、语调、语速等;剩下只有7%来自纯粹的语义,而ChatGPT还是靠语义输入的,这部分仅占人类交互中的7%。
因此,交互在具身认知当中起很大的作用,具身智能是人类认知的源泉和归宿。人类认知始于行为和模仿,最早的肌体语言导致形象思维,行为是智能的外化表现,称为具身智能。肢体动作是无声的语言,舞者用行为表现艺术,机器用行为体现互动,汽车防抱死刹车系统(ABS)能够使车体动力学行为更快更准,智能灵巧手给老人端茶喂饭,表现出行为的温柔;无人驾驶的轮式机器人进入城市交通流中,如果行为动作怪异,不能识别交警手语和路人请求打车手势,人们是不会允许它上路的;车身必须体现出良好的位置感、方向感和地理认知能力,有良好的空间运动学行为,表现出的具身智能和驾驶员开车类似才能被认可,智能农机亦然。
一、深度学习应该在和外界实时的交互和迭代中完成
学习的结果是记忆,记忆智能优先于计算智能。深度学习的贡献在于使人工智能走上了一个新的台阶,打破了“算法长期被困在程序里”的封闭局面,打破了需要预写程序通过编译才能获得智能的传统方法,用标注代替记忆,从大数据中直接获得分类知识,用数据修改算法中的参数,开辟了机器学习的新纪元。
但深度学习存在先天的不可解释性,因此具有一定的局限性,目前主要体现在以下7个方面:
1、所有训练样本都是第三、第四等多方视角发散提供的,不具有时间序贯性,不是从机器本体的“我”出发、同一视角的主动感知;
2、鲜有多通道跨模态感知,尤其是视觉、语言和肢体行为的跨模态感知;
3、标注不可或缺且成本高,被戏说为“有多少人工,才有多少智能”;
4、没有体现注意力选择,没有得到当前工作记忆和长期记忆对新观察的指导;
5、通用性和鲁棒性差,存在数据偏见,容易受到对抗样本的欺骗;
6、采用超大模型、超大参数预训练大型神经网络,计算成本昂贵;
7、一旦部署于应用,就无法在运行时在线学习新知识。如果要求机器视觉识别新的图像对象,必须对模型修改并在新的数据上重新训练,智能难以自成长。
图灵奖获得者杨立昆(Yann LeCun)对深度学习的未来提出了一个工作设想,如图所示:模型含配置器、感知、世界模型、成本函数、短时记忆、行为者6个模块。核心是配置器的生成和调度,感知模块接收物理世界的传感器信号,估计当前系统状态;成本模块以能量最小为目标评价机器的行为;短时记忆负责提取世界模型的记忆,同时可加强或者微修饰世界模型,行为者模块根据当前系统状态计算动作指令并执行。这个模型很好,但缺少了人对机器的控制和交互,深度学习应该在和外界实时的交互和迭代中完成。
二、通过具身控制和自动调节确保机器行为与环境的协同
农机在田间耕作时要跟土地协同、田埂协同、植物协同。那么,怎样通过具身控制和自动调节,确保机器行为与环境的协同?
“图灵可计算”开创了机器暴力计算的先河。公元前200年,阿基米德把1700年前的圆周率精度从3.1提升到3.14,公元500年,祖冲之求得π值为3.141592,总计用了2400年,按图灵可计算模型设计的计算机把圆周率提升到小数点10¹²位,仅仅用了70年。算力的提升体现出图灵的伟大、暴力计算的伟大、暴力思维的伟大,但图灵机也有自身的局限。
机器具身智能中不可或缺的是多通道的跨模态交互。行为交互最能体现机器认知的试探和反馈,认知的机器要能在与环境的互动过程中学习和成长。但冯诺依曼计算机架构中只有输入/输出,且输出相比输入具有一定的时滞性,没有多通道跨模态的感知交互,这成为用计算机做智能机器的一个致命弱点,人类到了发明认知机的时候了。
认知的全部活动是“感知-认知-行为”的螺旋上升过程,认知不可能独立于感知和行为,我们要克服图灵机的两个局限:(1)孤立了认知,忽视了机器具身与环境的交互;(2)孤立了计算,忽视了记忆。
学习是一个交互的过程,其中有指导学习,还有自主学习。自然进化使人类具有了丰富的瞬时记忆,工作记忆和长期记忆的生物学基础,使人类有了时间的概念。时间是人类认知的奠基石,记忆保持了认知的连续和累积,人类才有了文明,才有了历史。人类靠记忆形成边界来约束思维,记忆先于计算、优于计算;因此,各智其智、智人之智、智智与共、多元认知、兼容并包,才是常态。我们不应该总是停留在“智能就是计算”的奇点上。
图灵24岁之后18年的学术思想使他成为“人工智能之父”。在42年的生命中,他24岁时写了图灵机,然后从24岁到42岁的18年间,他都在研究人工智能。他在1950年发表的历史文献《计算机械与智能》中,开宗明义地要大家考虑机器能否思维,他分析并驳斥了9种对思维机器的反对意见,主张教机器学习,只要机器在语言行为(对话)上和人没有明显差别,就是能思维或有智能了,这就是后来所称的“图灵测试”。他认为可以编制一个“儿童程序”,然后对其进行教育,以达到成人的智力水平。
但图灵的这一主张在全球包括中国,都没有得到足够的重视。以“儿童程序”为例,如何才能使其体现基因遗传的“幼儿认知核”?如何对机器进行教育,怎样指导机器的学习,如何让它自主学习?目前的研究还很不够。如果回顾图灵的9种反对思维机器意见的驳斥,会发现其与对当前人们对机器的恐惧的批评基本是同样的。
控制论之父诺伯特·维纳于1948年提出《控制论:动物和机器中控制与交互的科学》,他认为:“如果我们使用一台机器来实现我们的目标,但又不能有效地干预其运作方式......那么我们最好能确定输入给机器的目标是我们真正所预期的。” 因此,麦卡锡认为:“人工智能本应该叫控制论,就是智能的自动化。” 诺伯特·维纳强调:“控制就是追求熵减,通过负反馈来确保机器具身行为智能的稳定性。”自动控制是强化学习的发源地,任何奖罚函数,可以与偏差为零的反馈控制等价。
我的团队十几年来一直致力于实现机器驾驶脑,其架构与图灵奖获得者杨立昆提出的架构实际上具有异曲同工之妙,如图所示。
在瞬时记忆里我们强调:定位传感器,特别是北斗&GPS等定位设备,要求能够达到厘米级导航;车姿传感器包括车身的加速度,速度;视觉传感器看图像,雷达传感器看距离、看路权。把这些信息进行跨模态的交互融合,形成当前的驾驶态势图,送入工作记忆。在人脑中还有长期记忆,即要有驾驶地图、交通规则、各类记忆棒。除此以外,还要有人机交互,要完成路径规划,要通过学习思维完成自主决策,要通过汽车的控制平台、三个总线执行汽车的运动行为。我们认为:深度学习将来要在实时的交互和迭代中完善和成长,不能仅仅是预训练、预编程。
ChatGPT在训练过程中高薪聘请了“提示工程师”,同理在农业机械自动驾驶中也需要“指导工程师”,即让农业技术专家来教授农业机械进行无人化作业。如图所示,物理空间用蓝色表示,认知空间用浅咖色表示,整个学习、推理过程都在物理空间和认知空间中进行。
在认知空间中,进行情境感知、跨模态融合形成瞬时记忆,在工作记忆中,通过当前态势的“判断黑板”,在记忆约束下进行计算,进而在当前环境下进行推理,如路口等待、超车换道等行为决策,同时在长期记忆里进行记忆提取,使用注意力选择、路权来改变当前的驾驶态势。而在物理空间中要实现车身控制,则由运动姿态传感器进行数据反馈,通过作业行为的反馈,使车身能够按决策行动,同时也感知周边环境数据,根据环境变化动态调整认知空间的输入。
因此,上图实际上是“感知-认知-行为”的物理模型架构图,通过嵌套的控制回路,人与机器能有效沟通完成预设任务,即“指导工程师”的任务——人教机器学,机器自主学,机器逐渐地理解人设定的任务目标,其统一的过程可称为使命对齐,精准完成作业,具身体现智能。
三、可交互、会学习、自成长是智能农机的硬核
智能农机的硬核已经跃过了算力、算法和数据阶段,更重要的是交互、学习和自成长。可交互、会学习、自成长是新一代智能机器的硬核。
回顾一下,农耕时代的工具和工业时代的机器为什么不会思维?
农耕时代工具的二要素说。工具里有实体物质和虚体结构,结构直接寄生在物质上,形成硬构体。什么是结构寄生在物质上?以农耕时代的轮子为例,轮子取自于天然的树干,人们用煣的工艺把它弯曲,使其符合圆的标准,并固定它的结构。这样一来它就不是一个简单的物质材料,而是一个工具,叫做轮子。在人类历史上,轮子的作用是可以跟火的发明相提并论的。
工业时代机器的三要素说。机器里有物质、能量和结构,结构直接寄生在物质和能量上,形成硬构体。以时钟为例,挥动的钟摆是一个结构,它直接寄生在物质和能量上,可以实现精准地走;蒸汽机、发动机的发明,都是把结构寄生在物质、能量上。可惜的是,工业时代的机器没有利用时间,以钟表为例,钟表的时间仅仅是其表面上一个读数。所以,爱因斯坦对时间的定义非常重要:时间仅是钟表表面的一个读数,因为其对钟表本身精致的运作没有做出贡献。
智能时代机器的四要素说。智能时代发生了重要的变化,智能时代机器的生命观可分为认知和行为两个层面来理解。智能时代的机器里有物质、能量、结构和时间;物质和能量是物理层面的真实存在,结构和时间是认知层面的抽象思维,用结构思维物质在空间的拓扑(几何)关系,用时间思维物质的运动与变化、能量的流动与转换。结构和时间寄生在物质和能量上成为硬构体,机器里中信息是大量的软构体,体现了精神,它们寄生在硬构体或者已有的其他软构体之上,可自举和自我复用,机器的秩序显示出维持自身和产生有序事件的能力,体现出思维和行为两个方面。以自动驾驶汽车为例,其硬构体包括车的底盘、集成电路芯片、驾驶脑,软构体(软件)包括驾驶脑程序、地图、交通规则等。因为有了时间,所以有了维持秩序的能力,机器能够实现自举的自动化工作,所以思维得以进行。
上图体现了物质、能量、结构和时间的关系:上半部分是认知空间,表示思维;下半部分是物理空间,表示行为。中间部分很重要,表示结构和时间寄生在物质和能量上形成硬构体。如轮子就是这样的硬构体,硬构体填补了物质和能量之间的鸿沟,使得信息和物质难舍难分。当前的集成电路芯片就是硬构体的爆品,成为人工智能“卡脖子”的代表。软构体非常丰富,有底层的,有上层的。软构体是思维的要素,支撑形象思维、逻辑(语言)思维和直觉思维,体现人的想象力和创造力,体现精神世界,有空间感、时间感和层次感。如果要为底层软构体命名,可称为符号、字母、笔划、数字、前后、左右、上下、顺序、快慢等。软构体不是自然语言,因为孩子没有学会语言之间已经有了思维,语言学家称之为“心语”。而概念、消息、信息和知识都是上层软构体,是物理世界在认知空间的镜像和上层建筑,是虚拟的现实。语言是人类思维的上层工具或常用载体。当前,人们把认知空间中想象的现实称为虚拟世界,把认知空间称为元宇宙。这样一来,我们用硬构体、软构体的思想填补了物质、能量和信息之间的鸿沟,物质、能量、结构和时间之间的纠缠状态,可类比为“薛定谔的猫”。
那么,智能到底是物质的还是精神的?以音乐为例:作曲家创造的乐谱是软构体,表达的是信息、情感、技巧、艺术、风格和人文;同一首乐谱可在不同硬构体(乐器)上表现出来,可用小提琴、二胡、钢琴、架子鼓等多种硬构体来支撑,不变的却是这个乐谱。乐谱是精神的、虚拟的、非物质的;人们在物理空间听到的乐曲是物质的、具身的,是客观存在的声音艺术,蕴含了物质、能量、结构和时间,这四要素的组合体现了美,也体现了知行合一。同时,硬构体可以局部软化成软构体,如虚拟机器人、虚拟主持人等;软构体也可以局部固化成硬构体,如图所示的实体机器人,中科原动力公司研发的可交互、会学习、自成长的轮式机器人等。物质和精神是互通的,但软件不能定义一切。
按照薛定谔的观点,用活细胞的物理观来解释什么是生命,他认为生命是机器。按照他的思路,我们来解释机器为什么可以当做生命,称之为机器的生命观。如上图所示,生命的物理层对应机器的物质层,生命的生化层对应机器的能量和时钟,生命的生理层对应机器的电子电路和机器指令,生命的心理层对于机器的操作系统和中间件,生命的认知层对应机器的高层软件和数据。这就体现出物质、能量、结构、时间四要素的重要性:时钟依赖能量,时间依赖时钟,秩序依赖时间,软构体寄生在硬构体上,机器自举实现思维自动化,自我复用实现认知自成长。机器运行靠程序,程序靠时序,软件靠交互,时序和交互产生负熵,机器赖负熵为生。时钟不停,与外界交互不息,思维和认知不会停止。
通过查询了200多种关于“智能”的定义,我们认为,对于智能的定义可以放宽一些,不论是智能、认知或者思维,都可笼统地定义为:培养和传承解释解决预设问题的学习能力,以及解释解决现实问题的能力。
在认知空间里,能够实现认知思维能力,要通过计算智能和记忆智能;在物理空间里,能够实现具身交互能力,要通过感知智能和行为智能。感知与认知之间是不断地循环往复的。感知智能中的时空识别代表位置、导航和时间同步,以及还包括目标识别、人脸识别等。培养和传承解释解决预设问题的能力,其本质就是学习。学习是现实问题的一个子集,当问题得到解决后可形成知识,机器可以接受指导学习,同时自主学习。只有解释、解决了预设问题后,解决、解释现实问题能力才会增强,因此要解决在哪里、怎么做、为什么、是什么这四个问题。
智能农机在田间的学习和作业,包括先入为主、赋予任务、引导、释疑、解惑、交互认知、监督等有指导的学习。而自主学习是把指导学习的结果转为长期记忆的重要环节,例如复习功课、消化理解。如果简单地把指导学习称为有监督学习,自主学习称为无监督学习就过于简单化了。
因此,智能农机的学习应当包括三个环节:(1)农机手操作、机器人学习;(2)机器人操作,农机手干预;(3)机器人作业、机器人自学习。这三个过程不断循环迭代,实现有指导学习、半/弱指导学习、自主学习。事实上,所有的机器学习过程都应如此,过去的研究过分看重了L0到L5自动化的实现,而忽视了学习、交互和成长。
以商汤公司的“元萝卜”象棋博弈机器人为例,胡荣华、谢靖、顾博文三代象棋冠军与“元萝卜”博弈,机器人内置26关难度的棋力对战,设有100多个残局应对,自主观察棋局变化,推算走棋招数,取棋落子,拥有毫米级操作精度,秒级时间响应,“手眼”协同,走法干净,节奏紧凑,“三秦棋王”李小龙称赞“元萝卜”是一个非常好的对手和陪练。“元萝卜”已不再是一个”AlphaGo“的程序了,它是一个实体机器人,有手臂可以放棋子,有眼睛可以看棋盘,它最近打败了很多冠军,而它每下一盘棋实际上就接受了一次图灵测试。那么,有感知、有认知、有行为、可交互的“元萝卜”博弈机器人为什么没有语音交互呢?它会学习吗?如果把它放到一个象棋研究院,或跟象棋高手学习,它能够实现自成长、自创造吗?
具身智能在一次次图灵对话测试中迭代成长。图灵对话测试具有多样化和常态化的特点,而所有机器工作语言的原语言都是自然语言,因此图灵提出用对话来做图灵测试是非常有见解的。语言能力是机器智能的杰出表现,而特定领域机器工作语言的语音、文字、符号具有限制性,用自然语言表达的公理来约束,其在一定程度上可以被形式化,以数学为甚、物理学次之,均服从哥德尔的不完备定理。因此机器思维先要把其工作语言形式化,只有形式化才可机械化,而后自动化。一旦自动化,思维的深度就一定会超越人。
如上图所示,图灵测试可应用于多个学科和领域。在社区聊天,可以做对话的图灵测试;在文学语言中,可以做虚拟演员的图灵测试;在游戏语言中可以做围棋的图灵测试;在数学语言中可以做机器定理证明;在美术语言中可以做机器作画的图灵测试;在唐诗宋词中可以做机器写作图灵测试;在法律语言可以做机器律师咨询的图灵测试;那么,在物理学语言里我们可以做智能农机的图灵测试,因此智能农机要一定要有语音交互,未来图灵对话测试一定会多样化、常态化。
思维的本质是抽象和联想,更多的是软构体的创立和连接。智能机器在常态化的图灵测试中学习,变为具身的智能。机器越来越多地取代人类曾经的许多智力和技巧工作,对各行各业特定岗位上的机器的教育训练是个并不轻松的任务。教机器学习、作业,和机器一同学习、作业,将成为人们生活和工作的常态。学习的结果是去微调机器里的长期记忆,即微调人工智痕细胞的网络拓扑,自主学习是把工作记忆转化为长期记忆的重要环节,可喜的是机器可以大批量复制,而且机器自身又可以持续学习。与机器交互,人教机器,机器教人,协同创新,总有一天出现机器工程师创造出新材料的配方,机器科学家提出新的假设,驱动产生新的科学发现。
机器具身交互智能,是从学习到创造的智能。智能机器之于人类智能,就如同曾经的望远镜之于天文学家、显微镜之于生物学家。机器延伸和拓展了人的记忆智能和计算智能,不但把人从繁重的、重复性劳动中解脱出来,更好地符合相应工作岗位规范化要求,更重要的是可以暴力计算,人机交互协同创新,机器和科学家、工程师可一同作出发明、发现和创造,至于是不是机器做出的创造,人们已经不再计较。
作者李德毅院士
未经授权严禁转载及翻译
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除