- 什么是有效负载?如何控制您的库卡机器人?
- KUKA库卡机械手KR360维修保养技巧分享
- 维修保养|库卡KUKA机器人KR 210维修保养经验丰富
- 库卡KUKA机器人维修保养小手册
- 维修保养|KUKA库卡机器人维修保养干货知识
为了让机器能和人更好的聊天,Google都做了什么?
为了让机器能和人更好的聊天,Google都做了什么?
自然语言处理,又称NLP(Naturallanguageprocessing),是目前以及未来AI领域最重要的基础技术之一,主要是在机器学习的基础上结合语言学和统计学在自动化服务中对语言进行建模。说的直白一点,NLP就是关于人和机器如何互相理解、机器如何更懂人类的关键。
作为目前AI最主要的两个分支领域,NLP(自然语言处理)和ComputerVision(计算机视觉)分别代表了人类尝试让机器理解世界的两个纬度,也是目前人工智能领域发展最快的两个分支。伴随国内外各家智能音箱和语音助手的出现,NLP一时间成了众多科技巨头正面交锋的AI主战场。
自然语言处理到底如何一路走来、最终又将会让机器和人之间的关系走向哪?作为在NLP领域投资最多的公司,Google或许是最有发言权的。
消除语言障碍,GoogleNLP的第一个任务
在Google的概念中,语言不应该是人类沟通的障碍,更不应该是使用网络的阻碍。
Google研究项目总监LinneHa告诉极客公园,Google的使命在于汇总全世界的信息并使其能够被普遍获取和使用,而破除语言障碍就成了其中的关键。消除语言造成的隔阂,这些年来始终是GoogleNLP团队的主要任务之一。这种消除并不止停留在翻译层面,语言处理(文本分析、生成、对话等)、音频处理、手写识别等都是Google正在着眼解决的问题。
目前世界上有6000种语言,这其中超过100万人使用的语言就有400种,还有很多小众的方言。但现在的互联网主导语言依然是英语,全世界大约50%的网络内容都是英文的。让全世界的人都能成为互联网的受益者,不被语言的差异所阻碍,这正是GoogleBringingEveryoneOnline计划的伟大设想。
「统一码」和「不要豆腐」字体,它们是Google完成这件事的第一步。
Unicode(统一码)是计算机的标准字符编码,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求,谷歌一种都在鼓励更多的国家和地区放弃使用非Unicode的字体。
除此之外,很多时候当电脑和手机等设备在对文本进行渲染,如果设备上没有相应的字体,就会出现空白方块字符,这些方块看起来就像豆腐一样。针对这种情况,Google开发了一款叫做Noto的字体(Noto就是NoTofu的缩写),它几乎兼容所有语言,并且提供统一的风格,以此来消除文字在不同设备上渲染出现的空白方块(Tofu)。
(图片来源:techtolead)
当呈现方式的障碍消除之后,信息的输入就成了下一个需要解决的问题。而机器学习的介入,开始让人与机器之间的信息交互方式发生了变化。
手写和语音是谷歌在键盘之外赋予机器的信息接收方式,这个在普通用户看起来顺其自然的演进,背后其实是一个不小的工程。
不管是手写还是语音,共同存在的一个问题是个体差异。很多时候,就算是同一种文字、同一种语言,也会因为不同的人而带上不同的口音和不同的笔迹。面对这个问题,GoogleNLP收集了大量书写样本和语音样本,并利用机器学习从这些样本中学习去辨认笔迹和口音。
早在十年之前Google就有了语音搜索的设想,并且在2007年Google想出了通过提供GOOG-411(GoogleVoiceLocalSearch)的服务来收集数据。这个全自动的语音识别搜索服务很受欢迎,也很快帮助Google根据这些询问的语音建立了一个大型数据库。经过这些高质量的语音搜索数据训练,一年之后,语音搜索就足以在智能手机上启动了。
之后Google又通过在世界各地的大量采集,扩展了50种其他语言的语音搜索能力,让全世界数百万人可以以更低的门槛使用上互联网。
神经网络,NLP的跃迁筹码
DNN(深度神经网络)的加入,让Google的语音交互技术上升到了一个全新的高度。
2012年Google正式开始运用深度神经网络,这项技术在一开始就让语音识别能力提高了约25%,且之后Google不断在优化算法,让这种识别率的提升效果始终保持着强劲的增长。同时,机器学习的能力提升也让GoogleNLP的能力有了大幅度的提升,能够更好的理解人类的句子。
目前,Google通过这些技术提供了30多种语言的语音输入支持,涵盖超过十亿人。其中个一典型的使用场景就是的Gboard输入法和Google语音搜索,这些App提供了119种语言的支持,包括11种印度语,www.zr-kuka.com,3种印度尼西亚语,甚至包含了2种非洲最重要的语言斯瓦希里语和阿姆哈拉语。
Google的团队从多年的数据收集中得出了一套高效低成本的方案,通过和同一地方的人用多语言进行沟通,用更少的数据建立了更好的语言模型。
在解决了基本的沟通问题之后,GoogleNLP也开始在更多领域释放自身价值,其中最典型的两个场景就是翻译和AI语音助手。
谷歌在2016年9月正式推出了整合神经网络的翻译工具GNMT(GoogleNeuralMachineTranslation)谷歌神经机器翻译系统,这一翻译技术的运用正是Google在NLP领域技术演进的一次直观体现。这种将整个句子视作翻译单元的方式,对句子中的每一部分进行带有逻辑的关联翻译,翻译每一个字或单词时都包含着整句话的逻辑。
在专访中LinneHa也告诉极客公园,www.zr-kuka.com,NMT对于SMT更多是一种互补的关系,并没有绝对的优劣之分,他们各自在不同的情况下有着各自的优势。NMT的出现弥补了之前SMT能力无法覆盖的长句翻译和复杂逻辑翻译等问题。
智能语音助手GoogleAssistant则是GoogleNLP技术目前最核心重要的运用。早在2012年的安卓4.1和Nexus手机上谷歌的智能语音助手就以GoogleNow的形式和用户见过面了。
当时的GoogleNow正是使用NLP技术完成与用户交互,而后通过Web服务来进行问答、提供建议、完成服务等动作。而从2016年开始,具有更强大NLP处理能力的GoogleAssistant就开始逐步取代GoogleNow,帮助用户在手机上完成更复杂的语音交互指令。
GoogleNLP技术水平直接影响着GoogleAssistant的能力范围,所以当NLP技术通过机器学习在长期的语音输入、语音搜索训练和积累后,逐渐能够掌握对话能力,而不再只是单纯的简单指令处理能力。
这时的GoogleAssistant也开始变得越来越全能,它能够从对话中学习积累对自然语言的语意、逻辑的理解能力,并不断优化。
NLP的机遇和挑战
NLP或许不会有一个确切的尽头,因为自然语言始终都在演变,而自然语言处理技术需要不断去适应这种变化。
虽然目前的NLP技术无论是在算法还是数据结构上都还没有达到极限,但限制它的可能并不是只是算法和数据,而是无法预测的语言习惯的变迁,以及不断出现的新词汇,以及旧词汇的新用法。在专访中LinneHa也告诉极客公园,目前的NLP最大的挑战在于如何运用运用算法,更快的从有限数据中学习和适应语言习惯的新变化,并及时做出调整。