人工智能(néng)的发展愈来愈(yù)强大!
人工智(zhì)能(néng)是一个涵盖图(tú)像识别、自然(rán)语言(yán)处理(NLP)和机器人(rén)等多方面维度的(de)广泛领域。AI也在以一种有(yǒu)时(shí)看似疯狂的(de)速度发展,因此很难跟上(shàng)正在(zài)发生的(de)一切(qiē)。
不出所料,许多组织转向他们(men)的(de)IT供应商合(hé)作伙伴,帮(bāng)助他们开发和部署AI解决方案,以最好地满足他(tā)们(men)的需求。大卫·埃里森(sēn)是联(lián)想(xiǎng)公司的(de)高级人工智能数据科学家,他的职责包括(kuò)使用先进的人工智能技术为客户(hù)组织提供解决方案,同(tóng)时在内部(bù)支(zhī)持联(lián)想全球数据中心(xīn)集团的整(zhěng)体人工智(zhì)能(néng)战略。
联想(xiǎng)已投入商业运营的项目包(bāo)括(kuò)利用(yòng)卷积神经网络从图像(xiàng)中提取特征,并将其(qí)归类为缺陷,以检测工厂的制(zhì)造缺(quē)陷。联(lián)想还为一家赛车公(gōng)司开发了一套计算机视觉系统,以决定是否应该让特(tè)定的汽(qì)车进入(rù)维修站(zhàn)进行维修。
埃利森表示,今年和不久的将来,人工智能的主要趋(qū)势包括基于(yú)计算机视觉的应用程序(xù)、用于训练人(rén)工智能模(mó)型的数据生(shēng)成和数(shù)据标记算法的开发(fā),以及基(jī)于转换模型的自然语(yǔ)言处理的快(kuài)速进展。
联想对人工智能近(jìn)期(qī)主要趋势有如下展望:
计算机视觉
在计算机(jī)视觉方面,开发人员(yuán)和研究人(rén)员现在开始探索(suǒ)将这(zhè)种能力与人工智(zhì)能的其他(tā)一(yī)些领域(yù)相结合的实用方(fāng)法,比如(rú)机器人技术或自(zì)动应用图像字幕等应用的自然(rán)语言(yán)处理。据埃里森介绍,这部(bù)分是因为(wéi)计算机视觉的一些基(jī)本问(wèn)题已经被证明很(hěn)难(nán)解决,研(yán)究人员正在(zài)寻找新的方法来(lái)解决这些(xiē)问题(tí),而不是简单地推动研(yán)究领域向前发展。
埃(āi)里森:“我认为(wéi)我们在解决一些核心的计算机视觉任务时(shí)遇到(dào)了问题,比如3D投影,当你看(kàn)到一张图片,一栋建筑的二维图像(xiàng),人类的大脑(nǎo)可以将(jiāng)其推断成三维形状,但机(jī)器(qì)很难做到这一点(diǎn)。”在这方面已经有很多研究,但这是一个尚未解决的核心(xīn)问题(tí),我认为人们会感到沮丧,会尝(cháng)试一些新东西(xī),或者尝(cháng)试将它与(yǔ)其他(tā)领域相结合,找(zhǎo)到更(gèng)好的用途。
埃里森认为(wéi),这(zhè)就是为什么机器人技术(shù)是目(mù)前最广(guǎng)泛研究的人工智能领域之一,因为它(tā)为人们提供了一(yī)个明确的目标(biāo)。他列(liè)举的例(lì)子包括(kuò)使人工智能能(néng)够使用(yòng)视觉(jiào)感应在其周围的空间(jiān)中安(ān)全移动——无论是制(zhì)造工厂的机械臂,还是使用人工智能导航到目(mù)的地的自动车辆。
训(xùn)练数据
熟悉人(rén)工智能的人会知道,成功训练一个模型(xíng)的关键(jiàn)因素之(zhī)一是数据,这需要大量的数据。事实上,它所训练的数(shù)据越多,就越能(néng)更(gèng)好地交付你(nǐ)所寻求的结果。据埃里森不是,计算机视觉目(mù)前很(hěn)困难,因为用(yòng)于训(xùn)练模(mó)型的数(shù)据集没有包(bāo)含足够多的样本。例如,吉布森三维空间数据库(kù)(Gibson Database of 3D Spaces)是一个(gè)广泛使用(yòng)的数据集,用于训练模型(xíng)在室内(nèi)空间(jiān)中导航,它包括572栋完整的建筑,共1447层。虽(suī)然令人印象深刻,但这不太可能是一个人工智能(néng)系统在现(xiàn)实世(shì)界中可能(néng)遇到的全面(miàn)集合(hé)。
当物体的方向(xiàng)与(yǔ)计算(suàn)机视(shì)觉模型所训练的方向不同时(shí),也会(huì)出(chū)现类似(sì)的问题(tí)。在被广泛用于人工智能训练的ImageNet数据集中,埃(āi)里森:“一把椅子只是一张椅(yǐ)子的照片,面对(duì)着镜头。如果你把(bǎ)椅子(zǐ)翻过来,电脑视(shì)觉应用程序突然就(jiù)认不出它了。”
这个缺点是(shì)一个名为ObjectNet的新(xīn)数据集的(de)灵感(gǎn)来源,它以不(bú)同的配(pèi)置显示(shì)日(rì)常(cháng)项(xiàng)目,例如椅子翻(fān)转或倒(dǎo)置。这个训练集被用来解决计算机视觉的一(yī)些缺点,例如不能识别方向不正常或部(bù)分模糊的物体。
但是为人工智能(néng)训练获(huò)取足(zú)够大(dà)和多样化的数据集的(de)问题仍然存在,这导致了埃里森发现的(de)另(lìng)一个主要趋势,即首先使用(yòng)人工智能来生成数据集。
自我(wǒ)监(jiān)督和综合数据
数据集需要大量的人(rén)工数据(jù)标签,因(yīn)此越(yuè)来越多(duō)的研(yán)究项目现在都集中在(zài)自我监(jiān)督(dū)算法上,它可以获取(qǔ)已(yǐ)经收(shōu)集到的数据,并(bìng)让计算(suàn)机自动(dòng)给数据贴上标签。
埃(āi)里森解释:“一个典(diǎn)型(xíng)的(de)例子(zǐ)就是一个(gè)具有计算机视(shì)觉应用和(hé)接近传感器机器人。计算机(jī)视觉能够(gòu)比接近传(chuán)感器看得更远。但是当机器人(rén)向前移(yí)动时,出现在计算(suàn)机视觉(jiào)中的东西最终(zhōng)会以物体的形式(shì)出现在近距离传感器中。”根据传感(gǎn)器(qì)的数据,回(huí)溯到(dào)物体第(dì)一次被发现(xiàn)的时间,然后对其进行标记。
人工(gōng)智能系统一旦部署就(jiù)不太可能遇到这样(yàng)的问题(tí),因此(cǐ)可能(néng)无法在(zài)训(xùn)练数据集中表示出来(lái),这是开发人员面(miàn)临的另一(yī)个(gè)挑战。然而,如果这些边(biān)缘情况代表了真实场景,那么就需要考虑这些情况,以确保AI模型正确地处(chù)理它(tā)们。
“关(guān)键(jiàn)的例子是自动驾驶。在(zài)你(nǐ)的数据集中有多少(shǎo)次(cì)在昏(hūn)暗的暴风雪中开车上(shàng)山?你的数据集中不(bú)会有(yǒu)很(hěn)多(duō)这(zhè)样(yàng)的情况,所以他们本质上必须做模(mó)拟数据。”
换句话说,边缘(yuán)案例是通过使(shǐ)用合成数(shù)据来处(chù)理(lǐ)的,合成数(shù)据是(shì)使用各种方法来创建的,例如生成模型。但(dàn)这也产生了一个问题,即数据科学家或(huò)开发人员如何才能确保这些合成数据准确地反映出人工智能在现实(shí)生活中会遇到什么情况(kuàng)。