深度学习之畅谈AI如何才能说“人话”

客服热线：0755-86016222

工作时间：08:30-18:00

深度学习之畅谈AI如何才能说“人话”

优管网

发布： 2019/02/26

作者：算力智库

TAG :

深度学习

人工智能

来源：人工智能网

在人工智能深度学习的研究中，科学家们发现语言学习是其中最为复杂的领域，语言本身可表达表层意思，也能表达深层语义，因此机器的语言理解能力不仅包括描述能力，也包括解读和举一反三的能力，语言的复杂性与人类文明的演变息息相关，因此科学家们在构建语言学习模型的同时，也开始将研究焦点从语言本身扩展到语言的历史、文明的演进等方面，本期焦点人物YoshuaBengio正是该领域的佼佼者。

本期编译文章来自于Yoshua Bengio于2018年发表的关于“人工智能如何理解语言”的演说。Yoshua Bengio将会讲述人工智能在语言理解方面达到人类水平的要点，并且介绍了他引以为豪的“人工智能娃娃游戏平台”，且看他独树一帜的学术观点！

oshuaBengio是深度学习三大学术巨头最纯粹的学术派泰斗级人物，蒙特利尔大学计算机科学与运算研究系教授、蒙特利尔大学算法学院MILA院长， “人工智能娃娃游戏平台（BabyAIgame）”发起人。

【算力观点】

语言学习面临两大主要难题：缺乏高度接近人脑思维的训练模型以及所需算力成本高。Bengio博士提出的“意识先验”模型了模仿人脑的认知系统并且过滤不参与思考过程的信息，有望突破语言学习模型的瓶颈以及拓宽人工智能在语言学习领域的应用范围。

强人工智能的实现当然离我们很远，但关于人工智能的道德伦理问题的讨论从来没有停止过，当人工智能也拥有“意识”时将引出两方面的问题，首先是人工智能在法律意义上的社会身份，其次是它带来的潜在威胁，需要全社会共同关注。

机器学习人类语言的步骤：先搞懂历史，再学习语言

一直以来人们都严重低估了处理语言学习的难度，甚至有一些研究已经在往错误的方向发展——依靠非常庞大的语料库。

仅仅在语料库的基础训练深度学习模型是不够的，造成的后果是，很多模型训练的效果只能是“捕获”粗糙的信息，翻译出来的句子意思词不达意，而优秀的深度学习可以预测基于句子中的其他部分。

在语言理解能力的层次上，初级和高级之间的深层差异是“常识”，以威诺格拉德模式测试（图灵测试的另一个版本）为例，通过提问的方式测试机器是否具备人类的思维能力，比如解读句子，针对“女人停止吃药因为她们怀孕了”，问题将会是‘“她们”指的是什么？是女人还是药？’，而如果将“怀孕”改为“患了癌症”，答案将会不一样。

机器达到和人类同等水平的语言理解能力是有可能的，但我们首先要明白当我们去理解句子或者文档的时候，我们的大脑到底经历了什么？

根据研究发现，答案是“知识”，但现有的方法仍然存在局限性。

以学习外星人的语言为例，学习外星语言的过程通常是观察他们的互动以及构建学习模型——关于他们的互动和语言文本关系的模型，但仅仅凭零碎的单词或者词组信息是不够的，必须理解它们的语境和意图。

解决的方法是通过结合语境升级训练模型，把信息的前因后果考虑进去。但这将会是难度极高的语言学习模型！因为我们还需要去理解外星人的社会形态。

基于这个逻辑，需要首先搭建模拟外部世界的学习模型，用于理解人与人之间的互动行为，理解外部世界是如何运作的，最后再回到语言学习的部分，最终将模糊语言与实体世界结合起来。

外部世界模型和语言学习模型的搭建应同步进行，原因是来自人类文明史的启发，在人类发展的进程中文明和语言密不可分，初级社会向高级社会演变的同时，语言也从个体化走向社区化，语言的体系也变得更加的复杂多样，反过来也促进着人类社会的进步。

机器也要“快思慢想”：构造仿人脑的认知系统

诺贝尔经济学家Kahenman在《快思慢想》中提出人脑的认知系统分为一类认知系统和二类认知系统。

一类认知系统负责完成可以快速完成的、无意识的动作，比如口渴时把水杯拿起来喝水，但某些情况下可能导致结果不严谨，由于一类认知系统不处理语言信息，只能识别出眼前的电话，而不能解释为什么认为它是电话。

二类认知系统则相反，负责耗时长、有意识的动作，所以下至语言，上至编程，它都能Hold得住。人类在学习计算机科学和逻辑学当中正是大量的用到了二类认知系统，而基于符号学的人工智能正往二类认知系统的方向靠拢。

兼具两个系统优点的人工智能是我们要实现的，这样的系统是接地气的语言学习模型，它将是未来研究的主要方向，简单来说，这样的学习模型在信息覆盖面方面是无死角的，通过细致入微的观察周边环境以及人的活动，将这些外部信息和语言联系在一起。

大家几乎都在探索“最接地气”的语言学习模型，比如通过深度强化学习模型，人工智能体在虚拟场景下接受指令完成各类任务，智能体将模糊语言和具体实体场景联系起来的能力越来越强，意味着语言能力也越来越强。

人工智能体在训练中会主动观察，而且它的行为基本不被干预，训练的效果只是被实验者持续观察，这样的框架将是未来语言学习模型的主流方向。

但这方面的语言学习研究因为还停留在虚拟环境实施而备受质疑，批评者认为不在真实环境中测试的研究都是耍流氓。

实际上很多人操之过急了，真正懂“人话”的人工智能离我们还十分遥远，这可是人类的终极目的呀。

我们步子不应该迈太大，小目标是搭建通用的学习机制和框架，让人工智能在虚拟环境中应对自如之后（走路），长远再考虑于实际环境中执行（跑步）的分步走实施才是上上策。

因果逻辑关系是机器“吃透”人类语言的关键

研究发现很多实验室数据其实是无效的，一旦环境改变了，人工智能就会“一脸懵圈”，背后的原因是关系纽带的不对，比如图像识别，实验者认为引发人工智能做出判断的因素是图片的纹理和颜色，而实际上人类在识别图像时还会考虑因果关系，这就是差别。

为了攻克这方面的缺陷，科学家们提出了深度生成模型，它的优势在于通过激励人工智能在训练中预测未来，从而通过培养模型的因果逻辑性提升输出的准确性，以及深层对抗模型可以不断提升输出的准确性，更重要的是人工智能通过训练最终具备预测未来以及制定计划的能力。

在机器学习的训练中，不仅需要注意因果逻辑，还需要注意用于训练的样本数据需要遵循独立同分布原则（Independent and identically distributed）：关注用于训练的数据集的代表性和迁移性，样本数据的分布特征必须和测试用数据集、母体数据保持一致，研究发现确保数据分布一致性可强化训练模型的因果逻辑推理能力。

人工智能娃娃游戏平台（BabyAIgame）

人工智能娃娃游戏平台模仿婴儿的成长过程，设置了‘学习者’和‘人类’的游戏或场景。学习者就是‘babyAI’，我们为学习者设计任务，任务以自然语言的形式出现，比如去某个地方、打开、捡、放等，通过与人类用自然语言互动帮助学习者理解周围的环境。

从科学实验的角度出发，项目的实施过程将会是趣味性十足的！

首先，大量的人机交互数据（尤其是语言）将会被收集，随着玩家（人类）越来越多，数据库也会越来越大。

另外，游戏甚至允许人类玩家在游戏中自行设计任务，任务难度逐渐提升。

该项目最大的挑战来自于样本数据的复杂性，哪怕只是非常简单的任务，比如让计算机挪动小件物体，对于训练用的数据量要求也是非常巨大的，因此我们首先需要海量的数据服务于这个雄心勃勃的计划：记录真实世界中成年人与婴儿之间互动的数据。

“意识先验”理论：过滤冗余数据，降低算力消耗

传统的深度学习理论需要大量的数据，注意力机制的出现为解决训练数据容量的难题带来了解决思路，但仅仅具备无意识的认知能力（第一类认知系统）还远远不够。

为了将机器的推理能力提升到人类水平，我们在现有模型的基础上，增加预测未来的能力，即意识先验（The Consciousness Prior），直观的说就是人工智能看到“下雨”，联想到“人们会打伞”。

意识先验借用了注意力机制的部分原理筛选出少量、“高纬”的数据，用作大量的预测训练，将无意识层次的数据归类为“低纬数据”，使用少量的、更直接的高层次数据提升了模型预测和推理能力，也减少了训练用时，最终成为有“意识”的类人脑。

深度学习之畅谈AI如何才能说“人话”

新手入门

客服中心

快捷入口

规则中心

关于我们

服务热线