对于AI而(ér)言,即将过去的2019年是一个硕(shuò)果(guǒ)累累的年份。一方面(miàn),它(tā)正(zhèng)在以可见的速度(dù)走到我们的身边、渗透(tòu)到各行(háng)各业中;另一方面,AI技(jì)术本(běn)身也(yě)一直处(chù)于高速更(gèng)迭换代的过程中(zhōng),支(zhī)撑着各种落地(dì)应用(yòng)成(chéng)为现实(shí)。技(jì)术的进(jìn)化与多元(yuán)的应(yīng)用场景相得益彰、相互促进(jìn),“智能时代”几乎(hū)已经触(chù)手可及。
作为国(guó)内人工智能(néng)领域的领头者,百度一直在积极同步推动AI技术创(chuàng)新和产业智(zhì)能化。2019年,百(bǎi)度AI技术多年积(jī)累和业务实践的集大成——百度大脑,在算(suàn)法突破和计算架构升级的基础上,实现AI算(suàn)法、计(jì)算架构与应(yīng)用场景的融合(hé)创新,成为“软硬一体的(de)AI大生产(chǎn)平台”,打(dǎ)通了人工智能(néng)产(chǎn)业(yè)化应用落地相关的全部流程,实现了AI技术的标准(zhǔn)化、自动化、模块化。由此,企业和开发者不用重复“造轮子”,能(néng)直(zhí)接将AI应用在各(gè)个(gè)产(chǎn)业场景中,促进产业智能化。百度也率先在业内提出“人工(gōng)智能进入工业化(huà)大生(shēng)产阶段”。
portant;" />
做行业的引领者(zhě),需要锐意创新的勇气。对百度而言,还(hái)有二十年如一(yī)日推(tuī)动技(jì)术进(jìn)步所积淀的实力与(yǔ)底气。那么,在这个大跨(kuà)步向“智能时代”迈步的一年中,百度在推动AI技术进步(bù)方面又给我们(men)带来了哪些惊喜?让我们走近看(kàn)一看(kàn)。
1、竞逐(zhú)人工智能皇(huáng)冠上的明珠:知识(shí)增强的语义(yì)理解框架ERNIE超越谷歌BERT
自然语言处理关乎智能体如何理解人类的(de)语言与文(wén)字(zì)、并在理解的基础上进行人机智能(néng)交互,被称(chēng)为(wéi)“人工智能皇冠上的明(míng)珠”,其重(chóng)要(yào)性(xìng)显(xiǎn)而易见。今年,在自然语言处理技术方面,百度打造了可持续学习的(de)知(zhī)识增强语义理解框架ERNIE,通过(guò)建模(mó)海量数(shù)据中的实体概念等先验知识,学习真实世界的语义关系。这种融(róng)合知(zhī)识的语义建模(mó)大幅(fú)增强了模(mó)型的语(yǔ)义表示(shì)能力,在共(gòng)计16个中(zhōng)英文(wén)自然语(yǔ)言处理任务上效(xiào)果超越了谷歌BERT和(hé)XLNet。近日(rì),ERNIE更是(shì)在自然语言处理领域权威数据集GLUE中荣登榜首,并刷新(xīn)该(gāi)榜单历史(shǐ),超越(yuè)了微软MT-DNN-SMART, 谷歌T5、ALBERT等一(yī)众国(guó)际顶(dǐng)级预训练模(mó)型。在(zài)全球各国(guó)探寻(xún)AI关键技术的道路上,百度(dù)ERNIE代(dài)表(biǎo)中国AI科(kē)技占据了举足轻(qīng)重的一席之地。
portant;" />
2、方(fāng)言、中英混合,通通不是问题:SMLTA加持,语音识(shí)别准(zhǔn)确率提升15%-20%
语音识别方面,百度提出流式多级的截断注意力模(mó)型 SMLTA,这是国际上首次实现局部注(zhù)意力建模超越整句的(de)注意力(lì)模型,也是国际上首次(cì)实现在线语音大规模使用注意力(lì)模型。SMLTA在大(dà)幅提升识别速(sù)度的同时,也提高了识别准(zhǔn)确(què)率。在输入(rù)法有效产品相对(duì)准(zhǔn)确率提(tí)升15%,音箱有(yǒu)效(xiào)产品相对准确率提升20%。借助(zhù)SMLTA,百度输入(rù)法(fǎ)实现了业界普遍认为较难实现的中(zhōng)英文混说识别,在完全不影响中文语音输入准确率(lǜ)的情(qíng)况下,能(néng)进行高精(jīng)准的(de)中英文混合(hé)语(yǔ)音(yīn)识输入。除此之外,方言与方言(yán)、方言与普通话的混合(hé)语音输入也完全不在话(huà)下。
portant;" />
3、仅需20句话就能录制你的专属(shǔ)声音:语音合成Meitron让AI体验个(gè)性化起来
你可能(néng)已经习惯(guàn)了“前方(fāng)路口左转”这样(yàng)的地图(tú)语音由一个标准的女声发(fā)出,然而百度地图(tú)推出的(de)“语音定制”功能(néng),则可以(yǐ)让你用自己的声音、或者是自己想要的其他人(rén)的声音(yīn)来帮你指(zhǐ)挥方向(xiàng)。这背后是(shì)百度语音合(hé)成技术Meitron的功劳。针对现阶段语音合成方面面临的风格迁移、音色模拟和情(qíng)感拟人三大挑(tiāo)战,百度的语(yǔ)音合成技术 Meitron ,可以把声音中的音色、风格(gé)、情感等不同元素解耦分(fèn)离,独(dú)立组合,灵活控(kòng)制合(hé)成的声音,只需录制20句(jù)话,就可(kě)以制作(zuò)一个人的专属声(shēng)音。基于此技术,百度(dù)上线(xiàn)了全(quán)球首个地图(tú)语音定制功能(néng),为用户带来了前所未有的个性化体验。
portant;" />
4、向着“巴别塔”之(zhī)巅前进(jìn):更高准确、更低时延的机器同传
翻译为人类重新建立(lì)交流的巴(bā)别塔,机器(qì)翻译则让无障碍沟通的门槛降得更(gèng)低。在机器同(tóng)传领域(yù),百度(dù)综(zōng)合联合(hé)词(cí)向(xiàng)量解(jiě)码、语(yǔ)篇翻译模型等新(xīn)技术,实(shí)现高准确、低(dī)时延的机(jī)器同传,并发布(bù)了(le)语音到语(yǔ)音的机器(qì)同传系统:DuTongChuan(度同传(chuán)),以(yǐ)及全球(qiú)首个中文-英文演讲场景语(yǔ)音翻译数据集(BSTC)。经过真实测试,机器同(tóng)传效果媲美人类(lèi)译员。可以说,随时随(suí)地自(zì)由沟通的梦想离我们越来越近。
portant;" />
5、换(huàn)个“姿势”看视频:基于(yú)知识(shí)图谱的视频(pín)语义理(lǐ)解能力
在今年的“Baidu Create 2019”百度AI开发者大会(huì)上,百度(dù)CTO王海峰为大家展示(shì)了一段基于知(zhī)识图谱(pǔ)理解音乐纪(jì)录片《大河(hé)唱》的内容。影片中的角色、人物关(guān)系、音(yīn)乐(lè)种(zhǒng)类(lèi)、取景地(dì)、影片(piàn)主题(tí)等(děng)信息,都得到(dào)了精准(zhǔn)解析,在屏幕上一一(yī)呈现给观众。这是融合了百度知识图谱(pǔ)技术的视频(pín)语义理解能(néng)力,通过(guò)结合视觉(jiào)、语音和自(zì)然语(yǔ)言(yán)处(chù)理技术解析多模态信息,并与知识(shí)图谱的相关实体建立关联,通过计算(suàn)和推理,得到电影内(nèi)容的结构(gòu)化语义表示,从而理(lǐ)解电影中出现的(de)角色、音(yīn)乐和民间艺(yì)术等。还(hái)在因为记不住(zhù)某(mǒu)部电影里(lǐ)纷(fēn)繁(fán)复(fù)杂的(de)的人(rén)物关系而头疼?有(yǒu)知识的AI来帮你梳理梳理呗(bei)。该技术目前已在(zài)百度视频搜(sōu)索、推(tuī)荐、内容生(shēng)成等多个产(chǎn)品上线(xiàn)。
portant;" />
6、有温度(dù)的AI,从(cóng)真人形象虚拟主(zhǔ)播开始:实(shí)时合成真人(rén)虚拟形(xíng)象在多个场(chǎng)景应(yīng)用
百度(dù)的实时合(hé)成(chéng)虚(xū)拟形象技(jì)术,结合(hé)多(duō)模态嘴型(xíng)生成、GAN、TTS等技(jì)术,实现了业界(jiè)首(shǒu)个可以量产视频(pín)的真人形象虚拟(nǐ)主播,同时具备(bèi)自动化、平台(tái)化、实时计算、大规模应用和效果逼真等技术特(tè)点,可(kě)以(yǐ)解决以往虚拟主播形(xíng)象(xiàng)生硬、响应速(sù)度(dù)滞后、播报内容(róng)刻板(bǎn)等(děng)问(wèn)题。该技术已经成功应用于(yú)多个场景。例如,央视与百度合作(zuò)打造AI虚拟主(zhǔ)持(chí)人小灵,亮相央(yāng)视2019五四晚(wǎn)会;澎(péng)湃(pài)新闻与百度合作(zuò)打造了第一(yī)个真人形象的虚拟主播早晚新闻栏目;浦发银行与百(bǎi)度合作打造了业(yè)内(nèi)首个“金(jīn)融数字人”,有(yǒu)颜值(zhí)、有(yǒu)情感、还(hái)有专业的银(yín)行知识,将升级银(yín)行客服体验。
portant;" />
7、让中国最好的AI跑(pǎo)在中国自主可控(kòng)的芯片上:百度鸿(hóng)鹄芯片(piàn)发布,百(bǎi)度昆仑云服务(wù)器上(shàng)线
AI的发展需要算力的支撑,当下AI领域精彩(cǎi)纷(fēn)呈,算力的需求更是(shì)大规模上涨。而(ér)在算力层面(miàn),芯(xīn)片始终是受到关注的(de)焦(jiāo)点。特别是在(zài)中国,开发者和企业能否(fǒu)用(yòng)上自主可控的芯片(piàn),又让这一关注多了一(yī)层意义。今年,百度(dù)发布了专(zhuān)为远场语音交互(hù)打(dǎ)造的百度鸿鹄芯片,其(qí)设(shè)计变(biàn)革了(le)传统芯片设计方法,遵循“软件定义芯片”的全新设计思(sī)路。同时,它(tā)采用双核 HiFi4 架构,40nm 工艺,2.8M 大内存,在此硬件规格上,仅仅100mW 左右平(píng)均工作功耗,即可支持远场语音交互核(hé)心(xīn)的(de)阵列信号(hào)处理和(hé)语音唤醒能力,将为车载语音交(jiāo)互、智能家(jiā)居等(děng)场景带来更大(dà)想象力。而在12月,基(jī)于百度自主(zhǔ)研发的AI加速芯片(piàn)-KUNLUN1的(de)百度昆仑云服务器也正式在百度智能云上(shàng)线。百(bǎi)度昆仑云服务器与百度自主研(yán)发的产业级深度(dù)学习开源平台飞(fēi)桨(jiǎng)深度(dù)适配(pèi),支(zhī)持知识增强语义理解框架ERNIE等完全自主可(kě)控的领先算法模型,让(ràng)中(zhōng)国最好的AI跑在中国自(zì)己自主可控的芯片之上。
portant;" />
8、打造自动(dòng)驾驶的智(zhì)慧之(zhī)眼:国内唯(wéi)一的城市(shì)道路L4级纯视觉(jiào)感知解(jiě)决方案Apollo Lite
作为车辆与周(zhōu)围环境交互的纽带,感(gǎn)知系统是实现自动驾驶的关键环节,可谓(wèi)是自(zì)动驾(jià)驶系统(tǒng)的一双“眼睛”。在(zài)今年的CVPR 2019召开期间,百度公(gōng)开了国(guó)内唯一的 L4 级(jí)自动驾驶纯视觉城市道路闭环解决方案——百(bǎi)度 Apollo Lite。相比旋转式激光雷达感知方案,视觉(jiào)感知方案价格低(dī)且便于获(huò)得,为企业、开发者们提供了一个低价(jià)、优质的自动驾驶解决方案。
portant;" />
9、为自动(dòng)驾驶提供仿真测试(shì)保障:增强现实的自动驾驶仿真系统登上《科学》子刊
安全性也是自动驾驶至(zhì)关重要的一环。业界一般认为,一个可靠的、安全(quán)的自动驾驶系统(tǒng)必须能保证在苛刻的测试环境下(xià)安全行驶数(shù)亿公里。按(àn)照这一指标,若完全使用真实(shí)道路测(cè)试,可能需要长达数十年(nián)。基(jī)于计算机视觉(jiào)和AR技术,百(bǎi)度(dù)开(kāi)发了一(yī)种增强现实(shí)的自动驾驶仿真系统(AADS),为自(zì)动驾驶车辆提供更为可(kě)靠且廉价的仿(fǎng)真(zhēn)模拟方(fāng)法,兼顾自动驾驶系(xì)统测(cè)试的安全性的(de)同时,提升测试效果并(bìng)极(jí)大地缩短测试时间。该系统相较于现有(yǒu)仿真系(xì)统,在真实感、扩展性等方面都实现了突(tū)破性(xìng)的技术进展(zhǎn),并发(fā)表于《科学》杂(zá)志《机器(qì)人学》子刊(kān)。
portant;" />
10、迈向未来计算新(xīn)世界:“量脉(mò)”实现量子(zǐ)软硬件连接(jiē)
最后一项关(guān)乎未来。量子计算被认(rèn)为是未来计算技术(shù)的心脏。2019年,百(bǎi)度研发出(chū)国际领先、国内第(dì)一的云上量子脉冲系统“量脉”,可将量子计算软件指令(逻辑门)转(zhuǎn)换成(chéng)控制量子硬(yìng)件的脉冲序列,算法(fǎ)性能较(jiào)同类工具实现成(chéng)倍(bèi)级别的(de)提升,是实现(xiàn)量(liàng)子(zǐ)软硬件连接(jiē)的(de)关键桥梁(liáng)。
portant;" />
以上(shàng)的十大技术(shù)创新,只是百度诸多技术成果的冰山(shān)一角。时(shí)代在继(jì)续向前发展,百度推动技术创新的(de)步(bù)履从不曾停歇。通过不断推动技术进步(bù),百度还将为人工智能产业和社会的(de)发展贡献更大的力量。未来还会(huì)有哪些精彩?让我(wǒ)们拭目以待。