语(yǔ)音交互(hù)是(shì)机(jī)器人用来表达(dá)的出口,大数据是机器人用来更加准确判!
金融行业是大数据与(yǔ)人工智能(néng)落地最具潜力的行业之(zhī)一。金(jīn)融(róng)行业是数据密集(jí)型行业,金融数据(jù)具有更高的实时性、安全性和稳定(dìng)性的要求,结构化(huà)数据占比高,应用场(chǎng)景广泛。但与(yǔ)此同(tóng)时,金融行业(yè)还(hái)有(yǒu)赖于利用(yòng)第三方数(shù)据来为客户提供(gòng)更(gèng)好的服务,自身业务特点也对金融数据的(de)数据安全和个人隐私保(bǎo)护(hù)带来了极大的(de)困难,数据孤(gū)岛现象严重,这也是(shì)为何联邦学(xué)习首(shǒu)先在微众银行这样的(de)创新金融企业落地和开花(huā)结果(guǒ)的原因。
随着深(shēn)度学习神经(jīng)网(wǎng)络的提出、算法改善和算力(lì)的提升、以及大(dà)数据的广泛应用,人工智能迎来了一波新(xīn)的高峰。2016 年的「人机大战」AlphaGo 战胜(shèng)围棋世界(jiè)冠军李世石,不仅展示了以大数(shù)据(jù)驱动的人工(gōng)智能(néng)的巨大潜力,也让(ràng)人们更(gèng)加期待一(yī)个人工智能(néng)在各行各业中得以实现(xiàn)的新时代的到来(lái)。
然而理(lǐ)想很丰满,现实很骨感(gǎn)——在实际(jì)应用中,大多数应用领域均存在数据(jù)有(yǒu)限且质量较差的问题,在某些专业性很强的细分领域(yù)(如医(yī)疗诊断(duàn))更是难(nán)以获得(dé)足以支撑人(rén)工智能技术实现的标注数据。同时在不同数据源之(zhī)间(jiān)存(cún)在(zài)难(nán)以打破的壁垒(lěi),「大数(shù)据」往往(wǎng)只(zhī)是越(yuè)来(lái)越(yuè)多的「数据(jù)孤岛」的总称(chēng)。
语言(yán)建模(mó)成功是有(yǒu)原因的!它是一项非常(cháng)困难的工作,为了有机会解决这(zhè)个难题,模(mó)型需要学习语法,语义(yì)以及某些世界常(cháng)识。给定足够的数据,大量参数和足够的(de)计算(suàn)能力,模型就可以有不错的学习成果。根(gēn)据过往的实验来(lái)看,语言建模比翻译(yì)或自动编码等其它预训练工作更有(yǒu)效。
最近对人(rén)类语言的预测率失真(zhēn) (PRD) 的分析 (Hahn and Futrell, 2019) 研(yán)究表明,人类语(yǔ)言和(hé)语言建(jiàn)模都具有无穷高的统计复(fù)杂性,但语言建模可以在(zài)较低层次上模仿逼(bī)近人(rén)类语言(yán)。这一观察结(jié)果有两个启(qǐ)示:1)我(wǒ)们可以(yǐ)用(yòng)相对(duì)较(jiào)小的(de)模型(xíng)以(yǐ)获得较(jiào)为精(jīng)准的结(jié)果;2)我(wǒ)们的模型有很大的拓展潜力。对于(yú)这两种启示,我们都(dōu)有充足证据,我们可(kě)以在下一节(jiē)中看(kàn)到。
简单的做法可以是(shì)在预训(xùn)练(liàn)的模(mó)型之上添加一个或多(duō)个线(xiàn)性层,通常是在 Bert 基础上增加。或者我(wǒ)们也可以使用模型(xíng)输(shū)出作为另一(yī)个模型的输入(rù)。当目标任务需(xū)要预训(xùn)练的嵌入(rù)有一些交互作(zuò)用但目前的预训练模(mó)型执(zhí)行(háng)不了时,这通(tōng)常是有帮助的,例(lì)如以 BERT 为预训练模型但需要词汇表(biǎo)征(zhēng)或建(jiàn)立跨句子关系模型。
我(wǒ)们希望这(zhè)样做的原因之一可(kě)能是为了适应结构不(bú)同的设定目标,例(lì)如(rú)一个具有多个(gè)输入序列的(de)任务。在这(zhè)种情况(kuàng)下(xià),我们(men)可以使用预训练的模型尽可能初(chū)始化结(jié)构不(bú)同的设定模型。我们还可以应用于特定项目的(de)修(xiū)改,例如添加、跳过(guò)或连接或警示。最后,修改目(mù)标任(rèn)务(wù)的参数可以通过(guò)在预(yù)训练的模型层(céng)之间(jiān)添(tiān)加瓶颈模块 (适配器)来减少需要(yào)精(jīng)细调整的参数数量。
同时(shí)随着大数据的发展,重视数据(jù)隐私(sī)和安全(quán)已经成为一种世界性的趋势,而欧盟(méng)「数据隐私保(bǎo)护条例」(General Data Protection RegulaTIon,GDPR)等一系列条例的(de)出台更是加剧了(le)数据获取(qǔ)的(de)难度,这(zhè)也给(gěi)人工智能的落地应用带来了(le)前所未(wèi)有的挑战。