百度的 AI 学会了举一反三,离强人工智能又近了一步

发布时间:2017-04-10 14:29   点击量:5660

不管终极目标能否实现,至少今天,在像人类一样学习的道路上,机器又往前迈了一步。

你一定知道,AI 在下围棋上已经比人类厉害了。不过,绝大多数在完成特定任务上性能卓越的 AI,实际上只是面向单一任务进行训练出来的而已,如果一个 AI 的任务是下棋,它就只会一步一步下棋,你要是突然问他“怎么下才能赢?”它根本不知道,八成会宕机。

这就是你暂时不需要担心 AI 终结人类的原因:它不会举一反三,没法解决一些在认知上跨度比较大的任务。举个例子,在《坦克大战》里,胜利的方式是尽量保存更多的砖块,吃掉增益,击毁所有的敌方坦克,一个正常的人类玩家可能玩上一两盘就明白了,而 AI 可能会把所有的砖块全都打掉,输掉成千上万盘游戏才能迎来第一盘胜利。


人很容易理解保存砖块只打坦克这句话,但 AI 理解不了,它只会玩游戏,不会听话。

想要实现强人工智能,甚至通用人工智能,这个问题迟早有一天要解决。PingWest品玩发现,近日百度发布的一篇论文显示,该公司搭建了一个 AI 系统,组合了计算机视觉和自然语言处理两种技术,让 AI 学会了“举一反三”:在一个专门架设的游戏环境中,AI 控制的角色可以理解并执行过去从未发出,也从未定义过的指令,且成功率达到了 90%。


研究团队由深度学习研究院杰出科学家徐伟带领,采用的是监督学习和强化学习所组合的深度学习技术。研究人员设计了很简单的游戏场景 XWORLD,在一个 8 x 8 的游戏空间,AI 控制一个主角,一些砖块和可以的水果,位置均随机。他们采用的训练房室很简单,1)直接给出一句自然语言指令,比如请前往苹果的位置,然后根据 AI 的行为奖罚;2)用自然语言向 AI 发问,比如在北边的水果是什么?根据答案正确与否奖罚。

至于地图什么情况、哪些是砖块哪些是水果、北是什么方向、苹果长啥样,AI 则是采用计算机视觉来进行判断的。很快研究人员就发现,AI 不需要以往那么多的训练次数,就可以实现举一反三,准确地执行一些从未听过的新指令,比如请去到无花果的西边你可以去苹果和香蕉的中间吗?请移动到红色/绿色的苹果,以及回答非指令问题,比如靠南的水果是什么(西瓜)。


如果你已经学会了怎样用水果刀削苹果,那你几乎不需要指导也能用水果刀削梨和火龙果。其实这就是举一反三,因为通过将感官获得的资讯进行认知整合(特别是语言方面),从而实现知识和经验的迁移,对于人类而言是一件特别容易的事情。但在过去计算机一直无法实现,除非人类对反三中每一种可能出现的状况都预先编程。

在徐伟团队论文描述的实验中,AI 系统能够从训练指令中学习语法,处理和回答新的指令、问题,意味着计算机终于首次在某种特定的环境下获得了举一反三的能力。机器学习中,这种能力的术语叫做零样本学习”(zero-shot learning ability)

对于这项技术,接下来百度还有新的打算。除了让 AI XWORLD 环境里增加新的功能,理解更多、更复杂的指令之外,徐伟团队还打算将它迁移到虚拟的三维空间中进行训练,最终极目标则是在实际环境中,让人类教师用自然语言来训练机器人。

不管终极目标能否实现,至少今天,在像人类一样学习的道路上,机器又往前迈了一步。

Powered by JPaaS  京ICP证030173号 京公网安备11000002000001号   ©2017Baidu 关于百度