如今,人工智能的劲风势不可挡,甚至在政府报告上都划为重点。回顾2016年人工智能界的顶级盛事,人机围棋大战绝对榜上有名。面对人类棋手的失利,机器人 AlphaGo 乘胜追击、再下战书,挑战围棋顶级选手柯洁的消息一夜间走进世界的聚光灯下。然而懒人族表示:机器人都玩转围棋了!做家务可比下围棋简单多了,你们怎么还没造出一款能解放人类的全能家务机器人呢?
其实,人工智能的发展还要打败很多大小怪兽。即便是战胜了人类围棋高手的AlphaGo目前也仅具备弱人工智能水平!虽然科幻电影里被机器人接管的世界距离我们还有些遥远,但科研人员们正在努力“打怪升级”,争取让能为人类提供服务的机器人早日来到我们身边。
假如你说:“机器人,把桌上的苹果拿去洗洗,给大家吃吧!”为了听懂并服从这个命令,机器人到底要具备哪些本领呢?
首先,机器人要理解这句话的含义。这就涉及到语音识别和自然语言处理两个研究领域。语言识别,就是把机器人听到的声波转成文字。自然语言处理,就是把一句按人类习惯说的话,解析成计算机能理解的信息。这一过程并不容易——Amazon近期发布的智能音箱Echo,重点攻关了远距离以及有噪音情况下的语音识别这一难题,但也只能进行有限的对话,更不用说像人类一样理解对话中复杂的情境和上下文了。
假设机器人已经正确识别出这句话。接下来的难题是:什么叫“桌子”?“苹果”是什么?什么叫“洗洗”?谁是“大家”?什么叫“吃”?这些都属于人类知识库里的常识问题。 人和人的沟通大量依赖常识,而这些都是机器不具备的。这种常识的学习对机器人而言是挑战,因为这些知识既无法预测,也无法泛化,更无法预先植入。机器人必须具备某种持续的自主学习能力,才能推理出用户的命令究竟是什么意思。
自然语言处理过程中的上下文问题,个人常识的搜集、表达和存储,以及如何利用这些常识实现人机自然交流——这些都是英特尔中国研究院的小伙伴们目前正在努力研究的课题。其中最大的挑战在于发现信息之间的相关性,并在适当时机,激活最可能相关的信息,为人机交流补足上下文。相信不久后就有更会聊天的机器人来陪伴你啦!
假设机器人能正确识别出桌子和苹果,下一步就是找到苹果。这就涉及到计算机视觉难题——就是让计算机长出一双人类的眼睛,能分辨出人可以看到的景象,提取出人能提取的信息。假设机器人能够完美捕捉三维信息,接下来就是如何理解“看到”的图像。
人类轻松识别出来图中是“几个苹果放在桌子上”
对计算机来说,“几个苹果在桌子上”的画面只是很多0或1的数字流
现在需要回答:这些0或1到底代表什么?计算机用像素来代表一张图片, 每个像素都有一组数据代表该像素的颜色和光照信息,可以用下面的数学表达式来代表计算机图像识别的工作原理:
I=P(O,W)
其中I表示图像,O表示包含多个不同类别的物体集合,W表示影响因素
一张图像首先包含多个不同类别的物体集合。同一类的物体本身就存在差异,物体自身也是五颜六色。即使是同一个物体在图像中的像素值也会受到很多因素的影响,包括光照强度和方向、相对摄像机的位置和姿态、物体之间的遮挡关系、物体自身的运动、摄像机参数等。在数学分析中,从图像(I)中感知物体集合(O)就必须同时恢复这些相关参数(W)。这是一个高维度数学问题,而答案的不唯一极大地增加了计算难度。与之相比,“棋圣”AlphaGo需要求解的未知参数仅仅是下一步棋子的坐标,参数维度大大降低。这是机器人下围棋比做家务更为简单的原因之一。
现在我们的机器人已经成功拿到了苹果,接下来它该怎样走到人的正面并送出苹果呢?“送苹果”涉及很多技术,比“找苹果”更加复杂。机器人要有房间地图,要能定位自己的坐标,还要判别静态和动态障碍物,之后才能规划运动路径,搜索所有的区域。在搜索过程中利用“眼睛”找到大家——各种姿态、各种朝向、各种运动状态的人。然后运动到每个人面前,向大家打招呼,把苹果递过去。让机器人顺利完成“找人”一直是英特尔的研究重点。目前,我们的机器人已经可以在实验环境中找到人,并识别出人的正面、背面和侧面。研究员们正在努力让机器人变得更聪明,更稳定,在帮人类“偷懒”的道路上走得更远。
苹果终于被送出去了,机器人总算松了一口气。别忙,它还有一件重要的任务——学习记忆。通过这次经历学到了什么?当然要牢记学习成果,犯过的错可不能重蹈覆辙。那么,机器人应该如何记忆呢?
记忆分类
记忆是人类的高级行为,记忆的内容某种程度上相当于形色各异的知识。将观察所得转换为知识还有很长的路要走,因此在机器人身上模拟人类记忆难度极大。受限于现阶段传感器的技术水平、人类行为和动机的理解局限,以及对人类大脑工作原理的未知,让机器人具备有效的记忆功能充满了挑战。我们目前正在重点探索如何为机器人构建可学习、可推理、可搜索的记忆。
机器人领域的研究任重道远,但又潜力无限,科研人员们正在上下求索。也许在未来的某一天,你我身边也会出现像电影里大白那样的智能型知心好伙伴。