中(zhōng)国(guó)航空(kōng)报讯:在(zài)从工(gōng)厂(chǎng)到手术室的(de)多(duō)种工作场所里,不同大小和形状(zhuàng)的机器人(rén)变(biàn)得越来越多。许多机器人(rén)都是(shì)通过机器学(xué)习的方法(fǎ),在反复试(shì)验(yàn)和不断犯错中(zhōng)习得新(xīn)技(jì)能(néng)的。最近(jìn),有一种新方法可以(yǐ)帮助这些(xiē)技(jì)能(néng)在不同形(xíng)状的机器人之(zhī)间进(jìn)行迁移,以免每(měi)次都要(yào)从头(tóu)开(kāi)始学习任务。在去年夏天举办(bàn)的国际机器学习大会(ICML)上(shàng),美国卡内基梅隆大学(xué)的计算机科学家刘星昱展示了这种新方(fāng)法,他是(shì)这项研究的第一作者。“从(cóng)实际应用的角度(dù)来说,这项研(yán)究非常重要(yào),”他说,“对于基础研(yán)究而言,我(wǒ)认为这也(yě)是一(yī)个值(zhí)得研究的前沿问题。”
假设(shè)你有一个末端类(lèi)似于人手的机械臂。你(nǐ)已(yǐ)经训练它的5个(gè)指(zhǐ)头(tóu)学会拿(ná)起一把锤子,以及将(jiāng)钉(dìng)子(zǐ)钉入木(mù)板。但现在,你(nǐ)希望(wàng)一种“二指夹爪(zhǎo)”也能完成(chéng)同样的任务(wù)。为此(cǐ),科(kē)学家创(chuàng)造出了(le)一连串的虚(xū)拟机(jī)器人来模拟两种机械臂之间的形态:它(tā)会从最初类(lèi)似于人手的结构缓(huǎn)慢地(dì)转变成一(yī)种新的形状。每一个中间(jiān)机器(qì)人都会(huì)通过练(liàn)习指定的任务,以此调(diào)整(zhěng)对(duì)应的人工神经(jīng)网络(一种(zhǒng)计算模型),直(zhí)到达到阈值成功率。紧接着,这个系统(tǒng)的(de)控制器(qì)代(dài)码就(jiù)会被传递给这条“链(liàn)”上的下(xià)一个(gè)中间机器人。
为了完成从(cóng)虚拟机器人到目标机器人的转变,研究团队(duì)创建出了一种共享式树状运(yùn)动链(kinematic tree)。其中,一组代(dài)表肢体部分的(de)节点被一些代表关节的链接器(qì)(link)连接了起(qǐ)来。为了将锤击技能迁移到二指夹爪,这支团队将原本结构中代表三(sān)个指头的节点的大小(xiǎo)和权重都调整为零。对(duì)于每一个中间机(jī)器人来说,相(xiàng)应指头的大小和权重就(jiù)会逐渐变小(xiǎo)。
与此同时,控制它们的神经网络也必须学会作出调整。此外,研究人员还(hái)调(diào)整了训(xùn)练方法,以便使中间机器(qì)人之间的变化(huà)不会(huì)太大也(yě)不会太小。
这(zhè)个由卡内基梅隆(lóng)大学设(shè)计的(de)系统(tǒng)叫作(zuò)REvolveR(RobotEvolve Robot)。它的表现优于机(jī)器学习的基本(běn)方法,比如从头开始训练目标机器人的方法。在锤(chuí)击任务和其他训练任务(wù)(包括移动一个(gè)球和打开一扇(shàn)门)中,为了使机(jī)器人夹爪(zhǎo)达到90%的成功率,此(cǐ)前最好的替代性训(xùn)练(liàn)方法需要比REvolveR多执行29%~108%的试验(yàn)次数(shù),尽管这些替代性方法(fǎ)在训练过程中提供(gòng)了更多的信(xìn)息反(fǎn)馈。接下来,研究人员还使用(yòng)其(qí)他类型的虚拟机器人测试他们的训练方法。例如,利(lì)用(yòng)这(zhè)种方法为一个蜘(zhī)蛛状机器人添加(jiā)新的腿部结(jié)构,并让它重(chóng)新学会爬(pá)行。
维塔利(lì)·库林(未参与这(zhè)项研究)是英国牛津大学的(de)计算机科学(xué)家,主要研究机器人和机器学习,他(tā)表示:“我认为这是(shì)一种(zhǒng)非常巧妙的方(fāng)法。”尽管通过将艰巨的(de)挑战分解成一系(xì)列小的部分,从而使AI能够在(zài)不同(tóng)的任务之间实现技能迁移的方法(fǎ)并不新鲜,“但(dàn)在(zài)一个(gè)机器人与(yǔ)另一个机器人之间进行(háng)内插(chā),以此实现技能迁移,这是(shì)我以前从未想到的(de)。”