人工智能的五個(gè)核心領(lǐng)域
國際機(jī)器人專家馬歇爾·赫伯特認(rèn)為,機(jī)器人的研究主要分為五個(gè)領(lǐng)域:機(jī)器人的硬件構(gòu)造及控制;機(jī)器人的感知;機(jī)器學(xué)習(xí);自主性;人機(jī)交互。
以下為國際知名機(jī)器人專家、美國卡耐基梅隆大學(xué)機(jī)器人研究所所長馬歇爾·赫伯特教授的演講實(shí)錄,題目為“人工智能的前沿技術(shù)與實(shí)例分析”。
大家下午好!很高興能來這里,謝謝能給我做這個(gè)演講的機(jī)會(huì)。
今天,我將要介紹卡內(nèi)基梅隆大學(xué)機(jī)器人研究所中進(jìn)行的研究的主要方向。我希望能讓大家了解我們研究的關(guān)鍵方向和嘗試解決的核心挑戰(zhàn)。首先,我將說明機(jī)器人學(xué),尤其是機(jī)器人學(xué)的應(yīng)用,指的是什么?;旧?,我們嘗試著眼于工作、科學(xué)和生活的所有領(lǐng)域中機(jī)器人學(xué)的應(yīng)用。
現(xiàn)場機(jī)器人學(xué),這個(gè)領(lǐng)域中機(jī)器人代替人類完成危險(xiǎn)或困難的工作,像建筑、采礦、農(nóng)業(yè)等等。建筑業(yè)中,機(jī)器人和人類合作實(shí)現(xiàn)更快更好的建筑任務(wù)。我的演講之后Bourne將詳細(xì)介紹這一部分。運(yùn)輸和物流業(yè)中,自動(dòng)駕駛汽車等設(shè)備在改善交通運(yùn)輸。醫(yī)療機(jī)器人領(lǐng)域,機(jī)器人和人類一起工作。還有基礎(chǔ)設(shè)施監(jiān)控領(lǐng)域。我們考察所有這些機(jī)器人應(yīng)用。
讓我展示一些例子。這是從事采礦和設(shè)施部署的自動(dòng)駕駛卡車。這是可以組裝和拆卸物體的操作系統(tǒng)。這是另一個(gè)大型項(xiàng)目,完成飛機(jī)檢查、噴漆和去漆任務(wù),這些任務(wù)需要非常大的機(jī)器人相互協(xié)作。這是一個(gè)更加復(fù)雜的機(jī)器人,具有操作、局部運(yùn)動(dòng)、感知等功能,可以完成在這種環(huán)境中的復(fù)雜任務(wù)。以上例子向大家展示了我們?yōu)榱祟I(lǐng)域中多種多樣的應(yīng)用場景建造的機(jī)器人系統(tǒng)。
今天我希望能讓大家對(duì)我們?yōu)榱私⑦@樣的機(jī)器人系統(tǒng)而進(jìn)行的研究有一個(gè)認(rèn)識(shí)。這些研究可以被分為這些類別。
在底層,我們關(guān)心機(jī)器人的硬件構(gòu)造,以及如何進(jìn)行控制,這部分稱為動(dòng)作(action)。在現(xiàn)實(shí)中,機(jī)器人的硬件構(gòu)造只是我們研究的一小部分。其他大部分研究中我們關(guān)心機(jī)器人的智能,而不只是機(jī)器人的硬件結(jié)構(gòu)。這包括了機(jī)器人的感知(perception),也就是機(jī)器人利用傳感器感知和理解環(huán)境的能力;機(jī)器學(xué)習(xí)(learning),即從數(shù)據(jù)中學(xué)習(xí)模型的能力,機(jī)器人可以學(xué)會(huì)如何移動(dòng)、觀察、決策;自主性(autonomy),即自主決策和對(duì)環(huán)境做出反應(yīng)的能力;最后,是人機(jī)交互(human interaction)。
很多機(jī)器人需要處理的問題都是和人而不是和機(jī)器人相關(guān)的。它們需要理解人類行為,并和人類進(jìn)行交互。這是機(jī)器人學(xué)中發(fā)展最快的研究領(lǐng)域之一。我將展示在以上這些領(lǐng)域中我們基礎(chǔ)研究的主要方向。
一、機(jī)器人運(yùn)動(dòng)部分,即機(jī)器人的硬件構(gòu)造和控制
我們主要關(guān)注三個(gè)主要的領(lǐng)域。
第一個(gè)是讓機(jī)器人可以和人類一樣完成非常復(fù)雜和精細(xì)的操作。
這個(gè)例子是機(jī)器人展示一個(gè)沒有應(yīng)用價(jià)值的操作,但是它展示了這個(gè)操作的難度。這個(gè)任務(wù)需要對(duì)機(jī)器人控制和硬件的物理性質(zhì)有極高的理解。這些關(guān)于機(jī)器人精細(xì)操作的研究是一個(gè)很大的研究領(lǐng)域。
第二個(gè)領(lǐng)域是設(shè)計(jì)能在困難的環(huán)境中完成任務(wù)的機(jī)器人。
這是我們仿生機(jī)器人實(shí)驗(yàn)室(BioRobotics Lab)中的一項(xiàng)研究,一個(gè)可以像蛇一樣運(yùn)動(dòng)的蛇形機(jī)器人。這個(gè)機(jī)器人可以像蛇一樣運(yùn)動(dòng),完成一些復(fù)雜任務(wù)。這項(xiàng)技術(shù)可以用于環(huán)境檢查、制造業(yè)、救援等場景中,機(jī)器人可以進(jìn)入一些十分復(fù)雜的環(huán)境中。最近墨西哥城地震后,這個(gè)機(jī)器人參與了對(duì)損毀建筑的搜救工作。這個(gè)領(lǐng)域的研究有很多應(yīng)用。在這個(gè)領(lǐng)域的研究中,如果我們可以設(shè)計(jì)出非常精妙的機(jī)器人結(jié)構(gòu),我們就可以制造出非常多有趣的機(jī)器人,它們可以應(yīng)用到很多領(lǐng)域當(dāng)中。
想象一下,如果縮小機(jī)器人的尺寸,小到它可以進(jìn)入人類的身體當(dāng)中,就可以造出這款機(jī)器人。背景中的搏動(dòng)是心臟的跳動(dòng),這個(gè)機(jī)器人正在心臟上方爬行。上方的圖像是機(jī)器人的相機(jī)看到的場景。我希望這對(duì)大家來說并不是太血腥。這是我們對(duì)機(jī)器人學(xué)研究的看法的一個(gè)例子。
我們從多自由度機(jī)械結(jié)構(gòu)這些基本概念出發(fā),將它們應(yīng)用到各種各樣的應(yīng)用場景當(dāng)中,最后建成完整的系統(tǒng)。這款機(jī)器人已經(jīng)得到了商業(yè)化應(yīng)用,并已經(jīng)獲得了在手術(shù)中應(yīng)用的許可。匹茲堡大學(xué)的一個(gè)團(tuán)隊(duì)已經(jīng)使用這款機(jī)器人完成十分復(fù)雜的手術(shù),如癌癥組織的切除。這款機(jī)器人可以在不進(jìn)行切割的情況下完成手術(shù),這是手術(shù)技術(shù)很大的進(jìn)步。以上就是我們工作的第二部分,設(shè)計(jì)具有精妙結(jié)構(gòu)的機(jī)器人,來完成現(xiàn)在完全無法完成的任務(wù)。比如在不切割的情況下進(jìn)行手術(shù),搜救,檢查等等,這些任務(wù)現(xiàn)之前是無法完成的。
機(jī)器人運(yùn)動(dòng)中的第三個(gè)研究領(lǐng)域是機(jī)器人的模塊化,和機(jī)器人的重新組裝。
這在實(shí)際中是在機(jī)器人研究中取得進(jìn)展的一項(xiàng)主要障礙。像在制造業(yè)中,為了某個(gè)特定應(yīng)用場景設(shè)計(jì)機(jī)器人時(shí),需要花費(fèi)大量成本和努力來對(duì)機(jī)器人進(jìn)行設(shè)計(jì)和編程。完成之后,如果需要對(duì)機(jī)器人生產(chǎn)的產(chǎn)品進(jìn)行一個(gè)很小的改動(dòng),整個(gè)系統(tǒng)都需要進(jìn)行成本很高的重新設(shè)計(jì)和安裝,顯然這是不符合可持續(xù)性要求的。除非有大量的資源和人力,這并不是一個(gè)合理的方式。解決方案和軟件設(shè)計(jì)中的設(shè)計(jì)模式類似。在軟件開發(fā)中,我們可以從軟件庫和模塊開發(fā)十分復(fù)雜的應(yīng)用程序。我們希望從機(jī)器人模塊出發(fā)實(shí)現(xiàn)類似的事情。
這些紅色的部件都是機(jī)器人的一個(gè)模塊,包括了硬件和軟件。當(dāng)我們將它們連接到一起時(shí),它們可以互相通訊??梢詫?duì)它們進(jìn)行十分快速的編程,所以可以以很快的速度搭建機(jī)器人系統(tǒng)。這是一場**,正如60年前軟件行業(yè)放棄從頭編寫程序的工作模式,開始從軟件庫和模塊開始構(gòu)建軟件一樣。這其中的挑戰(zhàn)是模塊不再只是軟件,而也是硬件。這是一個(gè)應(yīng)用的例子。
這段視頻展示了在不到30分鐘的時(shí)間內(nèi)搭建一臺(tái)全功能的物體操作機(jī)器人并對(duì)他進(jìn)行編程。這就相當(dāng)于從現(xiàn)有的模塊開始快速完成編程。此前這對(duì)于機(jī)器人來說是不可能的,因?yàn)闄C(jī)器人的硬件結(jié)構(gòu)。這也是我們關(guān)心的一個(gè)大的領(lǐng)域。將這些想法和其他一些想法結(jié)合(其中一些之后Bourne會(huì)在機(jī)器人協(xié)作制造業(yè)中為大家介紹),我們建立了一個(gè)新的高級(jí)機(jī)器人制造研究院。這個(gè)研究院關(guān)心如何更加靈活地使用機(jī)器人,比如如何快速重組機(jī)器人系統(tǒng),讓機(jī)器人和人緊密協(xié)作。以上是機(jī)器人硬件結(jié)構(gòu)和控制領(lǐng)域。
二、智能機(jī)器人的感知、理解環(huán)境的能力
我們?cè)跈C(jī)器人感知領(lǐng)域有一個(gè)很大的團(tuán)隊(duì),關(guān)注4個(gè)大的核心方向。第一個(gè)是環(huán)境理解和物體識(shí)別。這是一個(gè)自動(dòng)駕駛的例子。左邊是輸入視頻,右邊則是對(duì)視頻內(nèi)容的理解,每個(gè)不同的物體和區(qū)域用不同的顏色標(biāo)出。為了能讓機(jī)器人做出智能的決策,對(duì)環(huán)境有著盡可能詳細(xì)的理解十分關(guān)鍵。
你們可能對(duì)深度學(xué)習(xí)技術(shù)十分熟悉。過去幾年中,這項(xiàng)技術(shù)是**性的,而且正在快速發(fā)展,多虧了神經(jīng)網(wǎng)絡(luò),機(jī)器學(xué)習(xí),深度學(xué)習(xí)技術(shù)。這項(xiàng)技術(shù)的一個(gè)關(guān)鍵問題是它需要非常多的數(shù)據(jù)進(jìn)行訓(xùn)練。而在有些人期望的場景中,如交通信號(hào)或者區(qū)分這個(gè)物體和那個(gè)物體,設(shè)計(jì)這個(gè)系統(tǒng)的方法很有限,而且很難擴(kuò)展,很難真正的適用于實(shí)際場景。我們想做的是使用非常少的樣本訓(xùn)練出識(shí)別的系統(tǒng)。例如,當(dāng)我在能識(shí)別這個(gè)物體之前,我不需要看關(guān)于這個(gè)物體的上百萬個(gè)樣本。我只要看過這個(gè)物體一次,今后就能認(rèn)出它。怎么在計(jì)算機(jī)視覺,在感知中做到這些,是我們的一個(gè)主要研究方向,也是一個(gè)現(xiàn)在面臨的主要挑戰(zhàn)。
之前我們講的識(shí)別環(huán)境,理解環(huán)境是感知的第一個(gè)關(guān)鍵領(lǐng)域。下面我要講述的另一個(gè)關(guān)鍵領(lǐng)域是時(shí)空重建。時(shí)空重建意味著,你能通過一系列傳感器數(shù)據(jù),盡可能精確的重建出世界模型。這里的例子,用的是三維點(diǎn)云,這實(shí)際上是一座橋,有一個(gè)飛行器從橋下以一個(gè)自然的速度飛過。
這里的挑戰(zhàn)是,重建精確世界模型的系統(tǒng)需要越簡單越好,越便宜越好,越小型越好。用一個(gè)價(jià)值百萬的非常復(fù)雜的傳感器系統(tǒng)來做這些是沒什么應(yīng)用價(jià)值的,而這里用的是一個(gè)非常便宜的無人機(jī)計(jì)算出來的。這是另一個(gè)自動(dòng)駕駛的例子。
自動(dòng)駕駛中的一個(gè)關(guān)鍵問題是在沒有GPS的情況下,只從傳感器數(shù)據(jù),實(shí)時(shí)的,盡可能精確的進(jìn)行定位和建圖。這是一個(gè)汽車以大約100km/h的速度在匹茲堡的街道上行駛的例子,結(jié)合激光數(shù)據(jù)和視覺數(shù)據(jù),進(jìn)行一次非常精確的重建工作。這是一項(xiàng)最新技術(shù)的例子。這家無人機(jī)以60km/h的速度運(yùn)行,這里的重建是實(shí)時(shí)的,在飛行中重建出了當(dāng)時(shí)的3D環(huán)境。
上面是我們的60km/h速度的實(shí)時(shí)3D場景重建技術(shù),它被用在無人機(jī)控制中。和靜態(tài)3D場景重建相比,更具挑戰(zhàn)性的是動(dòng)態(tài)場景的重建。場景是動(dòng)態(tài)的,動(dòng)態(tài)指的是場景里的物體是運(yùn)動(dòng)的。這里花費(fèi)了我們很多的精力。這是一個(gè)全世界獨(dú)有的設(shè)備,叫做全景工作室(Panoptic Studio)。
圖里面的你能看到的每一個(gè)黑色小點(diǎn)都是一個(gè)攝像頭,在這個(gè)穹頂當(dāng)中有500個(gè)攝像頭同時(shí)對(duì)場景進(jìn)行觀測。這是一個(gè)示例場景,現(xiàn)在有很多東西都在運(yùn)動(dòng),我們有這個(gè)場景的500個(gè)不同視角的同步觀測結(jié)果。從這些觀察數(shù)據(jù)中,我們不僅能重構(gòu)出這個(gè)場景的三維結(jié)構(gòu),還能構(gòu)建出更細(xì)節(jié)的東西,場景中物體的瞬時(shí)動(dòng)作。這里面的每一個(gè)軌跡都是場景中每一個(gè)特征的運(yùn)動(dòng)軌跡??梢钥闯觯覀冎亟ǖ姆浅5木_,場景中的任何物體都被構(gòu)建了出來。******** Oculus的Oculus VR就是受這項(xiàng)技術(shù)啟發(fā)開發(fā)的。
以上我們展示的是固定在實(shí)驗(yàn)室中的固定攝像頭。我們還可以使用來自網(wǎng)上的視頻。這是一系列拍攝城市的視頻。他們可以來自汽車、公共設(shè)施。我們要做的是將所有的這些數(shù)據(jù)整合成一個(gè)完整的世界模型。我們不但能三維重建環(huán)境,還能三維重建任何在環(huán)境中運(yùn)動(dòng)的物體。這可以看出我們可以通過整合傳感器數(shù)據(jù),重建出很精確的模型。這是我們的第二個(gè)關(guān)鍵領(lǐng)域。
第三個(gè)關(guān)鍵領(lǐng)域是對(duì)人的理解。我之前提到了,機(jī)器人學(xué)中一個(gè)非常大的領(lǐng)域是和人進(jìn)行交互。為了能與人交互,系統(tǒng)必須能理解人,理解人是如何運(yùn)動(dòng)的,理解人的面部表情,我在看向什么地方,理解人的意圖,理解人的內(nèi)部狀態(tài)等等。一個(gè)重要的動(dòng)作是理解面部特征,這是一個(gè)例子,實(shí)時(shí)跟蹤,視頻中只顯示了一部分的特征。
事實(shí)上他會(huì)跟蹤更多的信息,跟蹤幾乎所有的面部肌肉運(yùn)動(dòng),從這里面我們就能提取出人的情感,人的意圖。這個(gè)例子是在導(dǎo)航過程中,觀察駕駛員并推測駕駛員的狀態(tài)。這是我這里的基本思想,理解面部表情。說說關(guān)于這項(xiàng)工作的兩件事。第一點(diǎn)是這項(xiàng)技術(shù)所需的主要突破是推進(jìn)在底層使用的學(xué)習(xí)技術(shù)中使用的優(yōu)化算法。第二點(diǎn)是這項(xiàng)技術(shù)是來自另一個(gè)做面部矩陣(Facial Matrix)的公司(最近被********收購了),所以這項(xiàng)技術(shù)在不久將來很快就能加進(jìn)各位的********平臺(tái)中。
理解面部表情是理解人的一個(gè)重要部分,但是另一個(gè)重要部分是理解人的姿態(tài)和動(dòng)作。如果機(jī)器人和我一起走,我希望它能理解我的所有動(dòng)作,我是怎么運(yùn)動(dòng)的。這是另一個(gè)工作。這是我們最新的一個(gè)叫OpenPose的軟件,現(xiàn)在它世界中各種各樣的場合都有所應(yīng)用。這個(gè)工作是同時(shí)跟蹤多數(shù)的目標(biāo)的姿態(tài)。一旦你做到了這點(diǎn),就可以做很多很多應(yīng)用。對(duì)于自動(dòng)駕駛的汽車,你能夠檢測到諸如行人在做什么的細(xì)節(jié);對(duì)于家庭機(jī)器人,它可以理解人是怎么運(yùn)動(dòng)的,怎么和機(jī)器人進(jìn)行交互的。
然而這還是不夠。如果你想要知道人在做什么,你需要理解人的手是怎么運(yùn)動(dòng)的,是如何和環(huán)境進(jìn)行交互的。我們?cè)谌说拿扛?dú)立的手指與環(huán)境交互的尺度上理解更多人動(dòng)作的細(xì)節(jié)。你可以想象,現(xiàn)在系統(tǒng)能夠通過人操縱物體的過程,理解人在做什么,能夠從細(xì)節(jié)上理解制造業(yè)的操作中人與物體的交互過程。以上第三個(gè)感知的關(guān)鍵領(lǐng)域,讓機(jī)器能理解人。
第四部分是傳感器。為了做到上面提到的技術(shù),我們需要傳感器。我需要攝像頭,3D傳感器,RGBD傳感器來給我足夠好的數(shù)據(jù)來支持上述的各項(xiàng)技術(shù)。眾所周知,伴隨著智能機(jī)行業(yè),消費(fèi)性電子行業(yè)的發(fā)展,我們?cè)跀z像頭,深度傳感器的數(shù)據(jù)質(zhì)量上取得了長足的進(jìn)步。我們現(xiàn)在有非常好的攝像頭,非常好的深度傳感器,例如Kinect,realsense。從表面上看,傳感器問題已經(jīng)被解決了,我們有很好的傳感器能用。然而實(shí)際上并不是這樣的。事實(shí)上在現(xiàn)實(shí)中的機(jī)器人應(yīng)用中,當(dāng)我們需要他們時(shí),這些傳感器并不能在我們需要的場景中使用。
首先,在我們希望使用這些傳感器的實(shí)際場合中,有非常復(fù)雜的照明和光線條件。我們還要能處理觀測難度高的透明的物體,如金屬制的反光物體。我們想能處理重要的物流或零售應(yīng)用。我們需要能處理各種極難處理的物體,這些物體是透明的,表面還會(huì)反射出人的倒影。
在室外自動(dòng)駕駛場景中,我們要處理非常困難的逆光場景。在這些所有的條件下(例如壞天氣下雨下雪,室外場景)在這些所有條件下,現(xiàn)有的傳感系統(tǒng)基本上都會(huì)失效。任何現(xiàn)有的RGBD傳感器,像Kinect或realsense,在這些場景里都會(huì)失效。這些真實(shí)世界的環(huán)境條件就是我們想要處理的條件。
很多的大家知道的解決方案像激光掃描設(shè)備(例如Velodyne),他們的問題是依賴于機(jī)械,很大,很復(fù)雜。而像Kinect這樣的則在這些條件下表現(xiàn)的不好。為了搭建魯棒的機(jī)器人系統(tǒng),我們需要更好的傳感器。這是我們面對(duì)的一個(gè)主要挑戰(zhàn)。我們花費(fèi)了大量的精力在傳感器技術(shù)中。
基本思路是如何精巧地構(gòu)建透射出去的光線和觀測反射回來的光線。基本的想法是試圖區(qū)分出什么光是我們關(guān)心的,什么光是我們不關(guān)心的。如果你試圖透過塵土或者雨觀察,有一部分光會(huì)被灰塵反射、折射,這些光我們是不關(guān)心的,我們關(guān)心的是場景反射回的光。
所以這項(xiàng)工作的關(guān)鍵就是,我們要嘗試設(shè)計(jì)一個(gè)能區(qū)分這兩部分光的系統(tǒng)。這是一個(gè)叫Episcan的傳感器。它的工作原理十分簡單,一個(gè)非常可靠的激光發(fā)射器和一個(gè)相機(jī)非常仔細(xì)地同步到一起。這樣它可以將光和目標(biāo)物體的深度信息從環(huán)境中其他的干擾反射中區(qū)分出來。這是我們的一個(gè)例子,傳感器試圖獲取燈的數(shù)據(jù)。
如果是通常的攝像機(jī)效果是這樣的。所有的東西都被燈光掩蓋住了。而我們的傳感器可以做到看見臺(tái)燈的內(nèi)部細(xì)節(jié),盡管我們投射的能量的強(qiáng)度并沒有左邊那么強(qiáng),而且我們能夠得到這個(gè)臺(tái)燈的三維形狀,即使在存在強(qiáng)光干擾的情況下。這里是另外一個(gè)例子,測量戶外環(huán)境的三維數(shù)據(jù)。
我們沒有辦法用Kinect或者realsense等等來測量。最重要的部分是,這一類工作致力于開發(fā)在所有情況下都能展示清晰結(jié)構(gòu)和形狀的流明攝像機(jī),無論室內(nèi)還是室外,無論物體什么類別。這種在所有情形下都能工作的檢測能力是很重要的。讓我們來看看我們?cè)谄渌I(lǐng)域所做的事情。剛才所講的呢就是感知的領(lǐng)域,理解環(huán)境、重構(gòu)環(huán)境,包含了存在任意的移動(dòng),理解人的行為和其他比較麻煩的分析。
三、機(jī)器學(xué)習(xí)
這里要注意的是我們不可能顯式地對(duì)機(jī)器人編程,我們能做的,是從數(shù)據(jù)中學(xué)習(xí),以及從數(shù)據(jù)中學(xué)會(huì)如何對(duì)環(huán)境做出反饋。這是我們工作的重心?;鞠敕ㄊ且x予機(jī)器人孩童那樣從經(jīng)歷中學(xué)習(xí)的能力。靠玩耍和與環(huán)境互動(dòng),孩童學(xué)會(huì)了如何抓東西。這就是我們?cè)跈C(jī)器學(xué)習(xí)中想要做類似的事。
這不意味著你要讓一個(gè)機(jī)器人從零開始學(xué)習(xí),而是說如果我們能夠?qū)W習(xí)一些策略,學(xué)習(xí)如何反饋環(huán)境,我們能夠讓機(jī)器人適應(yīng)力更強(qiáng),對(duì)變換的環(huán)境更適應(yīng),同時(shí)讓他們從錯(cuò)誤中吸取教訓(xùn)。這就是這類研究的基本想法。
讓我們來看一些例子。這是一個(gè)學(xué)習(xí)如何抓取物品的例子。這里我們讓機(jī)器人花了七百小時(shí)來嘗試抓取物品,有時(shí)成功,有時(shí)失敗,總共嘗試了有5萬次左右。如果你嘗試得足夠多,你就有了足夠多的成功和失敗的案例,你就能從中學(xué)習(xí)到如何對(duì)一個(gè)特定輸入采取行動(dòng)的策略。
從這張圖能看到我們失敗和成功的案例。然后我們就學(xué)會(huì)了如何抓取物體。現(xiàn)在屏幕上的物品是之前機(jī)器人沒有見過的,但是機(jī)器人卻知道如何通過之前的訓(xùn)練來判斷如何抓取他們。
這篇論文:
(Lerrel Pinto and Abhinav Gupta,Supersizing Self-supervision:Learning to Grasp from 50K Tries and 700 Robot Hours)
在2016年的IEEE ICRA會(huì)議上獲得了最佳論文獎(jiǎng)?,F(xiàn)在我們看到了如何從經(jīng)歷中學(xué)習(xí)。
但是現(xiàn)在更令人興奮的是能夠?qū)W習(xí)一些更復(fù)雜的策略。就拿這個(gè)例子來說,只是學(xué)習(xí)了抓東西,而沒有學(xué)如何把東西拿穩(wěn),如何穩(wěn)定地操控。事實(shí)上我們可以走的更遠(yuǎn)。這里我們讓機(jī)器人學(xué)習(xí)如何抵抗逆境,從而學(xué)會(huì)如何把東西抓穩(wěn)。這就跟小孩子如何學(xué)會(huì)判斷怎么抓,哪個(gè)方向更穩(wěn)是一樣的。這就是利用物理互動(dòng)和對(duì)抗來學(xué)習(xí)更多復(fù)雜的策略。
現(xiàn)在為止講了操控和抓取的例子。另外一個(gè)我想提一下的是,多任務(wù)學(xué)習(xí)。在這里機(jī)器人除了能抓取,還能推,或者戳一個(gè)物體。所以一個(gè)研究領(lǐng)域就是如何跨任務(wù)地學(xué)習(xí),掌握多種技能。剛才講的都是操控相關(guān)的,你也可以學(xué)一些飛行之類的技能。這是個(gè)學(xué)習(xí)飛行的系統(tǒng)。
和剛才講的抓取一樣,這個(gè)也是靠不斷嘗試和犯錯(cuò)來學(xué)習(xí)飛行策略的,利用深度學(xué)習(xí)的方法來學(xué)習(xí)策略。等到無人機(jī)學(xué)習(xí)了很多成功失敗之后,它便能僅僅利用搜集和學(xué)習(xí)到的數(shù)據(jù)真正自主飛行了。這些學(xué)到的復(fù)雜技能向我們展示了學(xué)習(xí)的強(qiáng)大之處。這些便是機(jī)器人系統(tǒng)的另一個(gè)重要部分。重申一下,我們的目標(biāo)不是讓機(jī)器人從零開始,我們的目的是讓機(jī)器人從數(shù)據(jù)中學(xué)習(xí)從而更有適應(yīng)性,更靈活。
四、自主性,自己決策的能力
這里有一個(gè)十年前的例子——DARPA挑戰(zhàn)賽。在第一個(gè)自動(dòng)駕駛的公開賽中,我們當(dāng)時(shí)獲得了冠軍,這個(gè)隊(duì)伍后來到Google公司參與無人車研發(fā),開啟了整個(gè)無人車領(lǐng)域的工業(yè)和研究的發(fā)展。這個(gè)例子里展示的自主性就是自動(dòng)駕駛。自動(dòng)駕駛其實(shí)開始于很久以前。
這是1986年,也就是三十多年前的例子,一個(gè)在CMU開發(fā)的叫做NavLab的系統(tǒng)。車上面有基本的計(jì)算系統(tǒng),還有個(gè)超大的攝像頭,用藍(lán)色方框標(biāo)出的是一個(gè)激光雷達(dá),應(yīng)該是第一個(gè)用于自動(dòng)駕駛的激光雷達(dá)。這算是Velodyne的祖先,也是現(xiàn)在很多自動(dòng)駕駛雷達(dá)的前身。它可以提供60×256的距離測量能力。如圖便是這個(gè)三十年前的自動(dòng)駕駛的視頻。
這是利用神經(jīng)網(wǎng)絡(luò)的自動(dòng)駕駛,以攝像頭拍攝的圖片為輸入,輸出控制方向的行為。這算是現(xiàn)在用于自動(dòng)駕駛的模仿學(xué)習(xí),深度學(xué)習(xí)的初代版本。這是激光雷達(dá)看到的深度圖像。這也是一個(gè)證明時(shí)代科技發(fā)展的案例,從三十年前到現(xiàn)在。如果你們?cè)?jīng)抱怨計(jì)算資源不夠,GPU不夠,這是當(dāng)時(shí)在NavLab系統(tǒng)內(nèi)部的情況,我們使用的是工作站來運(yùn)行。
講了一些歷史之后,我們現(xiàn)在又在做些什么呢?我們現(xiàn)在基本在關(guān)注三個(gè)主要的挑戰(zhàn)。
第一個(gè)挑戰(zhàn)是自動(dòng)駕駛現(xiàn)在不能實(shí)現(xiàn)安全的駕駛,比如不會(huì)碰撞,不會(huì)發(fā)生事故。我們想要的是讓駕駛的過程很自然,我們想生成自然的、能夠?yàn)槠渌{駛員理解并合作的駕駛習(xí)慣。
第二個(gè)難點(diǎn)是要能讓模型把握環(huán)境的細(xì)節(jié),這對(duì)于在擁堵環(huán)境下的自動(dòng)駕駛尤為重要。有許多的行人、許多復(fù)雜的反應(yīng),不僅需要知道物體在哪里,還要知道環(huán)境中物體的可能意圖和行為,比如預(yù)測行人或者其他車輛的活動(dòng)、行為和相互作用。
最后,利用其他數(shù)據(jù)和其他車輛交流,也是一個(gè)重要的領(lǐng)域。我們整合盡可能多的數(shù)據(jù)和信息用于自主決策。這些就是在自主性中我們要關(guān)注的三個(gè)主要的領(lǐng)域。
五、機(jī)器人和人類的互動(dòng)
能夠和人類互動(dòng)是在機(jī)器人和其擴(kuò)展領(lǐng)域中很關(guān)鍵的課題。我們關(guān)注的是深入理解人類行為,特別是人類的意圖。比如我把手像現(xiàn)在這樣移動(dòng),你應(yīng)該能猜到我要拿鼠標(biāo),我們大腦有一個(gè)內(nèi)部的模型知道我的行為和意圖。第一個(gè)要做的就是如何構(gòu)建這樣一個(gè)理解人類的模型,特別是能夠預(yù)測意圖和行為的模型。第二個(gè)要做的事如何利用這個(gè)預(yù)測模型與人互動(dòng),這和一些機(jī)器人合作的方式和技術(shù)有關(guān)。
我這里舉個(gè)例子,一個(gè)讓機(jī)器人系統(tǒng)和人類控制合作的極端條件下的例子,把人類的意圖和系統(tǒng)控制相結(jié)合。這是匹茲堡大學(xué)的癱瘓病人,她不能移動(dòng)自己的手和腳,完全沒有行動(dòng)能力。你能看到她擁有一個(gè)和她大腦相連的機(jī)械手臂,能夠接收大腦的信號(hào),并根據(jù)信號(hào)來控制手臂。這個(gè)腦部連接技術(shù)是之前被使用過的,這個(gè)技術(shù)的問題在于她僅僅能比較粗略地控制手臂,不可能用大腦信號(hào)來做一些非常精確的操作。即使病人經(jīng)過了訓(xùn)練,她也不能夠成功完成有用的任務(wù),因?yàn)槟銢]辦法達(dá)到人類本身的控制水平。
這里的想法就是利用我之前所講的所有東西。先有一個(gè)視覺系統(tǒng)來捕捉和理解整個(gè)場景,加上一個(gè)意圖識(shí)別系統(tǒng)來理解人的意圖。就像我開始這樣移動(dòng),可能是要抓起這個(gè)鼠標(biāo),這個(gè)系統(tǒng)對(duì)人的意圖會(huì)有一些概率的預(yù)測。給定意圖之后,系統(tǒng)就能控制手臂、執(zhí)行任務(wù)。
極端的來說,一個(gè)人在想他要抓鼠標(biāo),然后系統(tǒng)知道了這一意圖并且執(zhí)行了任務(wù)。這是一種對(duì)來自大腦信號(hào)的控制和人工智能的控制的獨(dú)特的整合。
接下來是一個(gè)視頻的展示。右邊是完全來自大腦信號(hào)的機(jī)械手臂控制,左邊是整合了大腦信號(hào)和人工智能系統(tǒng)的手臂控制,也就是剛才講的意圖識(shí)別,場景理解等。右邊的情況下她不能抓取目標(biāo)物體,而左邊她可以順利完成。僅僅是這個(gè)簡單的抓取,對(duì)純大腦信號(hào)來說都是不可能的,卻在與人工智能系統(tǒng)的整合后變得可能了。這就是我在開頭所說的,我們真正感興趣的是我們以前不可能有的新技能,做這么多操作以前對(duì)這個(gè)病人來說是不可能的,這就是我說的賦予人新技能的機(jī)器人技術(shù)。
不過,抓一個(gè)東西顯然不是非常讓人興奮的操作。這里有一個(gè)更難的,對(duì)純大腦信號(hào)完全不可能的操作,開門就是一個(gè)這樣的例子。這里是整合了大腦信號(hào)和智能系統(tǒng)(這里是病人的頭部和大腦植入物體)。她即將使用整合了大腦信號(hào)和意圖識(shí)別等的系統(tǒng)來開門。這是一個(gè)聽起來不難但實(shí)際很難的操作,因?yàn)樗藘煞N不同的運(yùn)動(dòng),將旋轉(zhuǎn)和平移如此精確地同時(shí)執(zhí)行,純粹的大腦信號(hào)控制是不可能做到的。
剛才講的分別是一個(gè)極端的例子和不那么極端的例子。讓我用這些技術(shù)整合起來的系統(tǒng)來結(jié)束這個(gè)話題。當(dāng)我們擁有了這么多科學(xué)技術(shù),我們需要把它們整合成一個(gè)完整的系統(tǒng),我目前為止講的都只是其中的成分之一,感知,學(xué)習(xí)等等。很多工作落在一些基本的事件上。這些圖片展示了一些完整系統(tǒng),采礦業(yè),農(nóng)業(yè),制造業(yè),以及探測業(yè)(一個(gè)非常大且重要的方面)。我們?cè)诓煌脑O(shè)備上做了很多工作,在國家機(jī)器人工程中心(在CMU),在這里我們能夠用剛才講到的來做一個(gè)更大的機(jī)器人系統(tǒng)。
我們來看看這些實(shí)際的機(jī)器人系統(tǒng)的主要挑戰(zhàn)又有什么。很重要的一點(diǎn)便是安全性和信任。在經(jīng)典的軟件系統(tǒng)和經(jīng)典的工程系統(tǒng),我們建立了良好的測試、驗(yàn)證證明這些系統(tǒng)的框架,有一些正規(guī)化的、公式化的驗(yàn)證軟件。
問題是,我們?nèi)绾卧O(shè)計(jì)正規(guī)化的驗(yàn)證框架,驗(yàn)證那些不僅僅是由軟硬件組成的系統(tǒng),而是基于數(shù)據(jù)學(xué)習(xí)的系統(tǒng)。因?yàn)楝F(xiàn)在一個(gè)系統(tǒng)的表現(xiàn)不僅僅取決于軟硬件的正確運(yùn)行,也依賴于那些用來學(xué)習(xí)的數(shù)據(jù)。更難辦的是,如何去評(píng)估一個(gè)適應(yīng)時(shí)間改變的系統(tǒng)。
基于觀察的數(shù)據(jù)能夠隨著時(shí)間改變自己表現(xiàn)的系統(tǒng),我們?nèi)绾卧u(píng)估這些復(fù)雜的有不同方向用處的系統(tǒng),這些就是我們?cè)诮⑾到y(tǒng)時(shí)主要關(guān)注的一些領(lǐng)域,這是一個(gè)新興的致力于打造可信賴機(jī)器人的領(lǐng)域。這是一些我們的大項(xiàng)目的圖片,和驗(yàn)證軟件一樣,驗(yàn)證機(jī)器人系統(tǒng)。
我們需要有事實(shí)依據(jù)來驗(yàn)證證明系統(tǒng)的表現(xiàn),從而使系統(tǒng)具有可預(yù)測的、能被人類所信賴和利用的表現(xiàn)。這是一個(gè)很小的例子,有一個(gè)人在與非常危險(xiǎn)的工作環(huán)境互動(dòng),當(dāng)然是在保證安全的情況下,從而我們能更好觀測系統(tǒng)的表現(xiàn),得到一個(gè)可信賴的系統(tǒng)。這是另外一個(gè)無人機(jī)的例子。
對(duì)于自動(dòng)的系統(tǒng)來說,適應(yīng)所有環(huán)境顯然是很困難的,所以我們需要有一個(gè)內(nèi)省或者叫做自我評(píng)估的系統(tǒng),讓系統(tǒng)能夠自己評(píng)價(jià)自己的表現(xiàn),然后在系統(tǒng)即將陷入困境、失敗之前采取正確措施。比如你在開車,突然你被大霧包圍,你立刻就能知道你的視覺系統(tǒng)肯定會(huì)失效。
我們需要賦予機(jī)器人同樣的能力,讓機(jī)器人能自我評(píng)估,并且在知道其表現(xiàn)會(huì)受影響的情況采取正確措施。這便是這一類工作的思想所在。
在圖中這里例子里,左邊的視頻是無人機(jī)的單目圖像,右邊是從無人機(jī)單眼攝像得到的三維圖像,最右邊是代表了可能失敗的概率,越高代表概率越大。無人機(jī)一邊飛行一邊檢測自己的飛行表現(xiàn),就像你開車時(shí)能知道視野如何,自己開車的表現(xiàn)會(huì)如何。這是我們?cè)诶斫?、衡量以及增?qiáng)一個(gè)自動(dòng)系統(tǒng)時(shí)關(guān)注的一方面。
更普遍來講,我們致力于建立自主系統(tǒng)的集成科學(xué)。它帶給我們正規(guī)化的工具和方法,把之前說的那些技術(shù)成分整合進(jìn)在現(xiàn)實(shí)應(yīng)用中能被真正信賴的系統(tǒng)。以上就是我想和大家分享的。主要關(guān)注一些基礎(chǔ)的研究和方向,動(dòng)作、感知、機(jī)器學(xué)習(xí)、自主性以及和人的交互,以及在技術(shù)集成領(lǐng)域的一些主要挑戰(zhàn),如何把技術(shù)成分融合成實(shí)際應(yīng)用的系統(tǒng)。我的演講就到此結(jié)束。