1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > NLP将迎来黄金十年

NLP将迎来黄金十年

时间:2018-09-30 15:41:23

相关推荐

NLP将迎来黄金十年

NLP是人工智能领域中的重要一环,NLP的进步将推动人工智能的发展。在过去的二十年里,NLP利用机器学习和深度学习的研究成果

,在很多方面取得了长足的进步。未来十年,将是NLP发展的黄金时期。本文中,微软亚洲研究院自然语言计算组的研究员们将为我们盘点NLP已经取得技术进展,并展望未来的研究热点。

比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。自然语言处理(NLP,Natural Language Processing)的进步将会推动人工智能整体进展。

NLP的历史几乎跟计算机和人工智能(AI)的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。

过去二十年, NLP利用统计机器学习方法,基于大规模的带标注的数据进行端对端的学习,取得了长足的进步。尤其是过去三年来,深度学习给NLP带来了新的进步。其中在单句翻译、抽取式阅读理解、语法检查等任务上,更是达到了可比拟人类的水平。

基于如下的判断,我们认为未来十年是NLP发展的黄金档:

来自各个行业的文本大数据将会更好地采集、加工、入库。

来自搜索引擎、客服、商业智能、语音助手、翻译、教育、法律、金融等领域对NLP的需求会大幅度上升,对NLP质量也提出更高要求。

文本数据和语音、图像数据的多模态融合成为未来机器人的刚需。这些因素都会进一步促进对NLP的投资力度,吸引更多人士加入到NLP的研发中来。因此我们需要审时度势、抓住重点、及时规划,面向更大的突破。

因此,NLP研究将会向如下几个方面倾斜:

将知识和常识引入目前基于数据的学习系统中。

低资源的NLP任务的学习方法。

上下文建模、多轮语义理解。

基于语义分析、知识和常识的可解释NLP。

重点知识:NLP的技术进展

自然语言处理,有时候也称作自然语言理解,旨在利用计算机分析自然语言语句和文本,抽取重要信息,进行检索、问答、自动翻译和文本生成。人工智能的目的是使得电脑能听、会说、理解语言、会思考、解决问题,甚至会创造。它包括运算智能、感知智能、认知智能和创造智能几个层次的技术。计算机在运算智能即记忆和计算的能力方面已远超人类。而感知智能则是电脑感知环境的能力,包括听觉、视觉和触觉等等,相当于人类的耳朵、眼睛和手。目前感知智能技术已取得飞跃性的进步;而认知智能包括自然语言理解、知识和推理,目前还待深入研究;创造智能目前尚无多少研究。比尔·盖茨曾说过, “自然语言理解是人工智能皇冠上的明珠”。NLP的进步将会推动人工智能整体进展。

NLP在深度学习的推动下,在很多领域都取得了很大进步。下面,我们就来一起简单看看NLP的重要技术进展。

神经机器翻译

神经机器翻译就是模拟人脑的翻译过程。

翻译任务就是把源语言句子转换成语义相同的目标语言句子。人脑在进行翻译的时候,首先是尝试理解这句话,然后在脑海里形成对这句话的语义表示,最后再把这个语义表示转化到另一种语言。神经机器翻译就是模拟人脑的翻译过程,它包含了两个模块:一个是编码器,负责将源语言句子压缩为语义空间中的一个向量表示,期望该向量包含源语言句子的主要语义信息;另一个是解码器,它基于编码器提供的语义向量,生成在语义上等价的目标语言句子。

神经机器翻译模型的优势在于三方面:一是端到端的训练,不再像统计机器翻译方法那样由多个子模型叠加而成,从而造成错误的传播;二是采用分布式的信息表示,能够自动学习多维度的翻译知识,避免人工特征的片面性;三是能够充分利用全局上下文信息来完成翻译,不再是局限于局部的短语信息。基于循环神经网络模型的机器翻译模型已经成为一种重要的基线系统,在此方法的基础上,从网络模型结构到模型训练方法等方面,都涌现出很多改进。

神经机器翻译系统的翻译质量在不断取得进步,人们一直在探索如何使得机器翻译达到人类的翻译水平。,微软亚洲研究院与微软翻译产品团队合作开发的中英机器翻译系统,在WMT新闻领域测试数据集上的翻译质量达到了与人类专业翻译质量相媲美的水平(Hassan et al., )。该系统融合了微软亚洲研究院提出的四种先进技术,其中包括可以高效利用大规模单语数据的联合训练和对偶学习技术,以及解决曝光偏差问题的一致性正则化技术和推敲网络技术。

智能人机交互

智能人机交互包括利用自然语言实现人与机器的自然交流。其中一个重要的概念是“对话即平台”。

“对话即平台(CaaP,Conversation as a Platform)是微软首席执行官萨提亚·纳德拉提出的概念,他认为图形界面的下一代就是对话,并会给整个人工智能、计算机设备带来一场新的革命。

萨提亚之所以提出这个概念是因为:首先,源于大家都已经习惯用社交手段,如微信、Facebook与他人聊天的过程。我们希望将这种交流过程呈现在当今的人机交互中。其次,大家现在面对的设备有的屏幕很小(比如手机),有的甚至没有屏幕(比如有些物联网设备),语音交互更加自然和直观。对话式人机交互可调用Bot来完成一些具体的功能,比如订咖啡,买车票等等。许多公司开放了CAAP平台,让全世界的开发者都能开发出自己喜欢的 Bot以便形成一个生态。

面向任务的对话系统比如微软的小娜通过手机和智能设备让人与电脑进行交流,由人发布命令,小娜理解并完成任务。同时,小娜理解你的习惯,可主动给你一些贴心提示。而聊天机器人,比如微软的小冰负责聊天。无论是小娜这种注重任务执行的技术,还是小冰这种聊天系统,其实背后单元处理引擎无外乎三层技术:第一层,通用聊天机器人;第二层,搜索和问答(Infobot);第三层,面向特定任务对话系统(Bot)。

聊天系统的架构

机器阅读理解

自然语言理解的一个重要研究课题是阅读理解。

阅读理解就是让电脑看一遍文章,针对这些文章问一些问题,看电脑能不能回答出来。机器阅读理解技术有着广阔的应用前景。例如,在搜索引擎中,机器阅读理解技术可以用来为用户的搜索(尤其是问题型的查询)提供更为智能的答案。我们通过对整个互联网的文档进行阅读理解,从而直接为用户提供精确的答案。同时,这在移动场景的个人助理,如微软小娜(Cortana)里也有直接的应用:智能客服中可使用机器阅读文本文档(如用户手册、商品描述等)来自动或辅助客服来回答用户的问题;在办公领域可使用机器阅读理解技术处理个人的邮件或者文档,然后用自然语言查询获取相关的信息;在教育领域用来可以用来辅助出题;在法律领域可用来理解法律条款,辅助律师或者法官判案;在金融领域里从非结构化的文本(比如新闻中)抽取金融相关的信息等。机器阅读理解技术可形成一个通用能力,第三方可以基于它构建更多的应用。

斯坦福大学在7月发布了一个大规模的用于评测阅读理解技术的数据集(SQuAD),包含10万个由人工标注的问题和答案。SQuAD数据集中,文章片段(passage)来自维基百科的文章,每个文章片段(passage)由众包方式,标注人员提5 个问题,并且要求问题的答案是passage中的一个子片段。标注的数据被分成训练集和测试集。训练集公开发布用来训练阅读理解系统,而测试集不公开。参赛者需要把开发的算法和模型提交到斯坦福由其运行后把结果报在网站上。

一开始,以 100 分为例,人的水平是 82.3 左右,机器的水平只有 74 分,机器相差甚远。后来通过不断改进,机器阅读理解性能得以逐步地提高。1月,微软亚洲研究院提交的R-Net系统首次在SQuAD数据集上以82.65的精准匹配的成绩首次超越人类在这一指标上的成绩。随后阿里巴巴、科大讯飞和哈工大的系统也在这一指标上超越人类水平。标志着阅读理解技术进入了一个新的阶段。最近微软亚洲研究院的NL-Net和谷歌的BERT系统又先后在模糊匹配指标上突破人类水平。对于阅读理解技术的推动,除了SQuAD数据集起到了关键作用之外,还有如下三个方的因素:首先,是端到端的深度神经网络。其次,是预训练的神经网络;最后,是系统和网络结构上的不断创新。

机器创作

机器可以做很多理性的东西,也可以做出一些创造性的东西。

早在,微软亚洲研究院在时任院长沈向洋的提议和支持下成功研发了《微软对联》系统。用户出上联,电脑对出下联和横批,语句非常工整。

在此基础上,我们又先后开发了格律诗和猜字谜的智能系统。在字谜游戏里,用户给出谜面,让系统猜出字,或系统给出谜面让用户猜出字。微软研究院开发了电脑写自由体诗系统、作词谱曲系统。中央电视台《机智过人》节目就曾播放过微软的电脑作词谱曲与人类选手进行词曲创作比拼的内容。这件事说明如果有大数据,那么深度学习就可以模拟人类的创造智能,也可以帮助专家产生更好的想法。

就作词来说,写一首歌词首先要决定主题。比如想写一首与“秋”、“岁月”、“沧桑”、“感叹”相关的歌,利用词向量表示技术,可知“秋风”、“流年”、“岁月”、“变迁”等词语比较相关,通过扩展主题可以约束生成的结果偏向人们想要的歌词,接着在主题模型的约束下用序列到序列的神经网络,用歌词的上一句去生成下一句,如果是第一句,则用一个特殊的序列作为输入去生成第一句歌词,这样循环生成歌词的每一句。

下面也简介一下谱曲。为一首词谱曲不单要考虑旋律是否好听,也要考虑曲与词是否对应。这类似于一个翻译过程。不过这个翻译中的对应关系比自然语言翻译更为严格。它需严格规定每一个音符对应到歌词中的每一个字。例如每一句有N个字,那么就需要将这句话对应的曲切分成N个部分,然后顺序完成对应关系。这样在“翻译”过程中要“翻译”出合理的曲谱,还要给出曲与词之间的对应关系。我们利用了一个改进的序列到序列的神经网络模型,完成从歌词“翻译”到曲谱的生成过程。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。