DeepTalk深言堂 | 清华孙富春：面向灵巧操作的机器人主动感知与认知学习

2020-03-10 13:48

2020年，深兰科技第二个5年规划伊始，首期“DeepTalk深言堂”成功开讲，冬季的寒意在深兰人的学习热情前无处遁形。1月9日，清华大学计算机科学与技术系的孙富春、邓志东、刘永进三位教授，在“DeepTalk深言堂”呈现了专业精彩的特邀报告，为与会者带去满满干货。

孙富春教授：

《面向灵巧操作的机器人主动感知与认知学习》

邓志东教授：

《软件化与AI 芯片助力智能汽车发展》

刘永进教授：

《多模态情感计算》

《左传》云：“太上有立德，其次有立功，其次有立言，虽久不废，此之谓三不朽。”这“三立”即做人、做事、做学问。作为深兰科学院2020年重要的学术阵地、学习平台，“DeepTalk深言堂”中的“言”便取自于“立言”。

时代在进步，科技在更迭，放眼全球，深兰在“走出去”的同时还要“请进来”。材高知深、言之凿凿。“DeepTalk深言堂”将把外部的专家学者邀请到深兰，分享业界动态、前沿技术、科研成果，定期每月为深兰的核心技术人员注入学习激情和能量，并期待最终在产品应用上得以呈现成果，真正实现“人工智能服务民生”的愿景。

我们将分次对三场报告的精华内容进行分享面向灵巧操作的机器人主动感知与认知学习清华大学孙富春教授

报告摘要：

智能机器人正在向认知层面发展，强调其对目标和环境的理解和交互能力。本报告面向机器人的灵巧操作，从机器人如何能够主动感知、学习和推理物理世界，如何与人类、环境进行交互实现认知理解，如何根据环境的变化做出动态反应的能力，以及如何像人一样操作等方面，论述了认知机器人主动感知与灵巧操作所涉及的主要关键技术。指出了智能机器人的认知学习，是一个从感知到行为，再从行为到感知的“自觉能动”闭环学习过程。最后，讨论了智能机器人未来发展涉及的几个关键问题，包括如何评价机器人的智能、智能与认知的关系、多模态学习以及知识的学习等。

研究背景

行为和操纵是生命体的第一特征，行为依赖于生物个体的感知能力和智慧。如何使机器人的手像人手一样灵巧，是机器人和人工智能的一场革命，其难度不亚于人机交互。

中国有一句谚语“心灵手巧”。在人的发育过程中，与人的大脑和手的分工有密切关系，脑和手不断与环境的交互促近人的进化与发育，而聪明的大脑又进一步增强了手的灵巧操作能力。大脑重量的变化除了体现在功能增加以外，较为突出变化还有大脑皮层的灰质和白质，灰质主要体现在神经元和树突，白质里体现为神经纤维。灰质部分有重大发现，神经元的连接越来越稠密化，2017 年 CVPR 的最佳论文《稠密的卷积网络》，就是把卷积网络的输入端和输出端的连接进行稠密化，使得网络的表达能力加强。由此看到，研究人脑对未来人工智能的发展非常重要。

第二个要研究人的手，人手的变化在于自由度的不断增加，肌肉纤维控制双手，而现在的机器人还是骨头控制肌肉。

未来可以从两个线索进行研究。首先希望机器人像人类那样，大脑可以进化和发育。第二，手做到高自由度、驱控一体、感知计算一体。这是未来发展非常重要的基础。

机器人如何做到手巧，手要具有感知包。如何做到心灵，就是要有聪明的大脑，能学习和发育，面对变化无常的任务设置和复杂的场景，要能积累知识，利用经验来指导未来的学习。未来人工智能和机器人的发展应该是从人类的双手革命开始。

如何像人一样感知和发育

下面的例子是关于乌鸦吃坚果的例子。为了观察乌鸦吃坚果的过程，我们故意将坚果放在水杯中让乌鸦够不着。我们发现乌鸦很聪明，它会寻找石子放到水杯中，每放一个石子，杯中的水位就会上升。我们看到一个情节，乌鸦似乎够着了，它用嘴发现还是有差距，通过再加一个石子，终于可以吃到了。这个过程告诉我们，乌鸦认知能力的提升是通过与环境的交互。这是一个闭环过程，一方面强调感知为行为服务，同时行为增强感知。由此，我们看到机器人学习是一个闭环，要克服环境的动态性，这是传统机器学习很难做到的。此外还有自适应性、鲁棒性和不断与变化环境的交互性，这是我们要不断强调的问题。

为此，我们提出机器人主动感知的结构图，它包括传感器主动、感知模式主动和认知主动三个部分。

首先我们研究了基于深度 Q 网络多步预测的目标检测方法。例如，在一个位置上，检测率很低，通过提出的目标检测算法控制平台的运动，我们可以找到一个位置，实现较高的视觉检测率。针对机器人目标检测，提出了基于反向连接的多尺度图像检测与识别网络，将金字塔特征与卷积网络相结合，提高了多尺度检测能力。

机器人上有很多传感器。这些传感器并不是每时每刻都需要用，如嫦娥四号巡视器在月球的背面，能源很有限。如何能够根据任务和场景，自动地选择这些传感器？我们又知道，Vision is related to perspective，听觉同方位有关，如何自主选择这些模态内信息也是一个重要的问题。这需要我们通过人工智能的办法，自主地选择模态和作用。

现在，我们来讨论认知发育。图灵在《计算机器与智能》一文中最早提出了“发育”。他说， “与其试图构建模拟成年人思维的计算机程序，不如尝试构建模拟儿童思维的程序。只要对儿童的心理过程进行适当的教育，他们就有可能成长为成人的大脑。”

毫不奇怪，多模态信息处理能力并非天生的。事实上，我们可以看到触觉、味觉、听觉的感知方式都有其发展时期。在大脑发育过程中，处理不同方式的能力会逐渐增强。在最初的37周里，几乎身体的每一部分都对热、冷、压力和疼痛敏感。眼睛的瞳孔可以探测到光，婴儿可以朝着光源看。这促使我们开发基于发育学习的方法，来建立多模态信息处理方法。

发育机器人是目前研究比较多的，定义为可终生（life－long）和开放（open－ended）地学习新技能和知识的机器人。

它有三个特点：

可以学习人们事先没有设计好的任务 – 自主学习

可以持续不断地学习新的知识和技能 – 终生学习

所学知识和技能的复杂度可持续增加

总的来讲发育机器人强调物理和心智两个方面。

如何像人一样交互与操作？

我们所说的交互学习是在场景下感知与环境交互的过程中进行的，第一就是交互，用到了各种信息，包括像语音的交互、面部表情、可穿戴设备等。我们团队最近用两个手环可以实现12个动作的假肢交互。

机器怎么像人一样去操作，我想先解释一个问题。长期以来自动化和人工智能存在一定矛盾，但只要结合就能通过人工智能进行升级。

目前，机器人技能学习方法主要有两种，一种是机器学习方法，主要依赖于奖惩函数或偏好，对人的参数调整依赖性小、可解释性差、任务通用性强。二是控制方法依赖于系统模型，人为直接计算和参数调整，可解释性强、任务通用性差。强化学习是一种综合两者优点的技能学习方法。

为什么我们要用强化学习来做模仿学习呢？一个原因是学习效率低，需要大量无用或危险的探索，这使得它很难应用于实际的机器人，环境反馈和奖惩功能难以描述。更进一步，学习方式单一，不能快速迁移和适应。近年来，模仿学习和偏好学习越来越受到学术界和工业界的重视。

传统的教学过程受机器人自身动力学系统的限制，教学过程繁琐、被动。如何在教学过程中摆脱对机器人（学习者）的约束，同时保证教学样本的效率，进而实现对学习过程的主动模仿？基于概率测度，专家教学与模仿者的统计特征尽可能一致，克服教学噪声。数学证明了观察模仿学习与标准模仿学习统计特性的差异，可以用专家与模仿者的逆动态系统的测量差异来表征。这部作品发表在 NeurIPS 2019，作为 spotlight ORAL。

偏好学习也是很重要的一种学习方法。在机器人多次执行一组完整的动作后，我们评估机器人的这些行为。与回报函数和示教不同，我们只要求用户选择并保留符合要求的动作。通过比较和学习机器人给出的动作轨迹和用户选择的动作轨迹的分布，可以发现机器人在行为上的不足，通过学习策略产生更满意的行为。重复上述过程，直到用户满意为止。借助于轨迹分布的概念，解释了该方法的单调性。

我们团队这几年很多工作在传感器方面，比较成功的是基于微视觉的传感器，不但能看到颜色还能看到纹理。这是我们通过同样的传感器看到的视觉信息（颜色信息）和触觉信息，两个信息完全是互补的，而且触觉信息感受更多的是深度信息和结构信息。这两个一结合就比较容易判别物体的材料，而且最好的地方就是，它是同位配置的，它感受到的触觉和视觉是一个地方。