清華、北信科、復(fù)旦團(tuán)隊(duì)解讀具身智能!大語言模型與世界模型如何讓機(jī)器人懂物理、會(huì)思考?
點(diǎn)擊:1504
A+ A-
所屬頻道:新聞中心
當(dāng)機(jī)器人能像人類一樣理解自然語言指令,還能預(yù)判環(huán)境變化、自主規(guī)避物理風(fēng)險(xiǎn)時(shí),通用人工智能的落地似乎不再遙遠(yuǎn)。近日,清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京信息科學(xué)與技術(shù)國家研究中心,復(fù)旦大學(xué)可信具身智能研究所聯(lián)合發(fā)布《Embodied AI: From LLMs to World Models》。系統(tǒng)性梳理了具身智能的技術(shù)脈絡(luò),尤其聚焦大語言模型與世界模型的協(xié)同。
先搞懂什么是具身智能?它和普通AI 有啥不一樣?
提起AI,很多人會(huì)想到只在數(shù)字世界對(duì)話的系統(tǒng),或是圖像識(shí)別這類被動(dòng)處理數(shù)據(jù)的工具,這些都屬于離身智能,它們不直接和物理世界互動(dòng)。
而具身智能的核心是活在物理世界里:它需要像人一樣,通過傳感器主動(dòng)感知環(huán)境,用認(rèn)知系統(tǒng)處理經(jīng)驗(yàn),再用執(zhí)行器做出動(dòng)作,形成感知- 認(rèn)知 - 互動(dòng)的閉環(huán)。就像家里的掃地機(jī)器人能避開桌椅、規(guī)劃清掃路徑、調(diào)整刷子轉(zhuǎn)速,就是一種簡(jiǎn)單的具身智能;更復(fù)雜的像救災(zāi)無人機(jī)自主避開障礙物、工業(yè)機(jī)械臂靈活抓取不同零件,都屬于這一范疇。
該研究團(tuán)隊(duì)強(qiáng)調(diào),具身智能的終極目標(biāo)是接近人類級(jí)別的通用智能,它不是只解決單一任務(wù),而是能在動(dòng)態(tài)、不確定的物理世界里自主適應(yīng)。舉個(gè)例子,一個(gè)具身智能機(jī)器人,既該聽懂把客廳的杯子放到廚房,又該知道杯子是易碎品,還能避開路上的寵物。
從單感官到多感官,具身智能如何突破局限?
早期的具身智能更像偏科生,有的只靠視覺導(dǎo)航,有的只靠語言做任務(wù)規(guī)劃,這種單模態(tài)模式有明顯短板。
單模態(tài)與多模態(tài)具身智能
純視覺的機(jī)器人,在昏暗環(huán)境或動(dòng)態(tài)場(chǎng)景里很容易迷路;純語言控制的機(jī)器人,可能會(huì)因?yàn)闆]考慮物理規(guī)律提出離譜指令。
后來技術(shù)轉(zhuǎn)向多模態(tài)融合:把視覺、語言、觸覺、聽覺等信息整合起來。就像現(xiàn)在的服務(wù)機(jī)器人,既能通過攝像頭看到物體位置,又能通過語言理解用戶需求,還能通過觸覺感知物體重量,這種多模態(tài)能力讓它能更靈活地處理復(fù)雜任務(wù),能夠輕輕拿起裝滿水的玻璃杯。
研究團(tuán)隊(duì)用一張圖形象對(duì)比兩者:?jiǎn)文B(tài)是感知、認(rèn)知、互動(dòng)各管一攤,多模態(tài)則是三者互相配合、信息互通。而推動(dòng)這一轉(zhuǎn)變的關(guān)鍵,正是大語言模型和世界模型的突破。
兩大核心技術(shù):大語言模型負(fù)責(zé)懂,世界模型負(fù)責(zé)做
具身智能要在物理世界生存,需要解決兩個(gè)核心問題:理解任務(wù)和符合物理規(guī)律。而大語言模型和世界模型,恰好分別補(bǔ)上這兩個(gè)短板。
1.大語言模型:讓機(jī)器人能聽懂、會(huì)規(guī)劃
大語言模型的核心作用是賦予語義智能,它讓機(jī)器人從只能執(zhí)行固定指令,升級(jí)為能理解模糊、復(fù)雜的人類語言,并拆解任務(wù)。
舉個(gè)例子,你跟機(jī)器人說準(zhǔn)備下午茶,大語言模型會(huì)先做語義推理,理解下午茶通常包括泡茶、拿點(diǎn)心、擺盤子;再做任務(wù)分解,把大目標(biāo)拆成去廚房拿茶壺、接水、加熱、去冰箱拿蛋糕、放到茶幾等具體步驟。
該研究團(tuán)隊(duì)提到Google 的 SayCan 案例:它給大語言模型搭配真實(shí)世界動(dòng)作庫,避免大語言模型提出不切實(shí)際的動(dòng)作,同時(shí)用價(jià)值函數(shù)驗(yàn)證每個(gè)動(dòng)作的可行性。不過早期大語言模型的局限也很明顯,它依賴固定的動(dòng)作庫,換個(gè)新機(jī)器人或新環(huán)境,就可能水土不服。
多模態(tài)大語言模型
后來出現(xiàn)的多模態(tài)大語言模型進(jìn)一步突破這個(gè)問題。就像PaLM-E、RT-2 這些模型,能直接處理圖像、語言、觸覺等多模態(tài)信息,看到杯子、聽到拿杯子、感知杯子重量,直接輸出控制機(jī)械臂的動(dòng)作序列,不用再依賴固定動(dòng)作庫。
2.世界模型:讓機(jī)器人懂物理、能預(yù)判
如果說大語言模型負(fù)責(zé)想明白要做什么,世界模型就負(fù)責(zé)想明白這么做會(huì)有什么后果,它相當(dāng)于給機(jī)器人建立大腦里的物理世界模擬器。
具身世界模型發(fā)展路線
世界模型主要做兩件事:
構(gòu)建內(nèi)部表征:把傳感器收集的復(fù)雜信息壓縮成結(jié)構(gòu)化的內(nèi)部地圖,包含物體位置、物理屬性、空間關(guān)系。這樣機(jī)器人不用每次都重新觀察世界,就能快速調(diào)用關(guān)鍵信息。
預(yù)測(cè)未來變化:根據(jù)物理規(guī)律預(yù)判動(dòng)作的后果。比如機(jī)器人想推桌子,世界模型會(huì)先模擬推桌子時(shí)會(huì)不會(huì)把上面的杯子碰倒;救災(zāi)無人機(jī)想穿過峽谷,世界模型會(huì)預(yù)判氣流會(huì)不會(huì)讓機(jī)身不穩(wěn)。這種預(yù)判能力,能幫機(jī)器人避開風(fēng)險(xiǎn)、提高效率。
具身智能關(guān)鍵技術(shù)模型
研究團(tuán)隊(duì)提到幾種主流的世界模型架構(gòu):RSSM 擅長(zhǎng)處理時(shí)序信息,適合做短期動(dòng)作預(yù)測(cè);JEPA 擅長(zhǎng)提取語義特征,適合理解物體屬性;Transformer-based 模型則擅長(zhǎng)處理長(zhǎng)序列信息,適合復(fù)雜環(huán)境的長(zhǎng)期規(guī)劃。
不過世界模型也有短板,它擅長(zhǎng)模擬物理,但不擅長(zhǎng)理解抽象語義。它能預(yù)判推杯子會(huì)讓杯子移動(dòng),但可能聽不懂把杯子送給媽媽里的媽媽是什么意思,這就需要和大語言模型配合。
大語言模型+ 世界模型,1+1>2 的協(xié)同架構(gòu)
該研究團(tuán)隊(duì)的核心觀點(diǎn)之一是,單獨(dú)用大語言模型或世界模型,都無法實(shí)現(xiàn)高級(jí)具身智能;只有讓兩者結(jié)合,才能打通語義理解和物理執(zhí)行的鴻溝。
搭載多模態(tài)大語言模型與世界模型的具身智能
為什么這么說?看兩者的互補(bǔ)性就知道,大語言模型懂語義,但不懂物理。它可能規(guī)劃出讓機(jī)械臂穿過桌子拿東西的步驟,卻不知道這違反物理規(guī)律。世界模型的問題懂物理,但不懂語義。它能預(yù)判推桌子會(huì)碰倒杯子,卻不知道為什么要推桌子。
而兩者結(jié)合后,就能形成語義指導(dǎo)物理,物理約束語義的閉環(huán),大語言模型先根據(jù)用戶需求拆解任務(wù),生成初步動(dòng)作計(jì)劃。世界模型驗(yàn)證這個(gè)計(jì)劃是否符合物理規(guī)律,并預(yù)測(cè)每個(gè)動(dòng)作的后果。如果計(jì)劃有問題,世界模型反饋給大語言模型,大語言模型再調(diào)整計(jì)劃。最終生成既符合用戶需求、又符合物理規(guī)律的動(dòng)作序列,讓執(zhí)行器落地。
該研究團(tuán)隊(duì)舉了EvoAgent 的例子:這個(gè)具身智能體用大語言模型做任務(wù)規(guī)劃和自我反思,用世界模型做環(huán)境建模和動(dòng)作預(yù)測(cè),結(jié)果能在不同環(huán)境里自主完成長(zhǎng)期任務(wù),全程不用人類干預(yù)。
簡(jiǎn)單說,大語言模型讓機(jī)器人不糊涂,世界模型讓機(jī)器人不莽撞,兩者結(jié)合,才是具身智能走向?qū)嵱玫年P(guān)鍵。
從家庭到工業(yè),具身智能已經(jīng)在改變什么?
以前的服務(wù)機(jī)器人,比如酒店送物機(jī)器人,只能走預(yù)設(shè)路線,遇到客人擋住就會(huì)卡殼;現(xiàn)在結(jié)合大語言模型和世界模型的服務(wù)機(jī)器人,能聽懂把水送到302 房間,順便問客人需不需要續(xù)杯,還能實(shí)時(shí)調(diào)整路線避開行人,甚至能根據(jù)客人的語氣判斷是否需要多送一瓶水。
研究團(tuán)隊(duì)提到的RT-2 機(jī)器人,能根據(jù)視覺信息自主識(shí)別杯子、桌子,再結(jié)合語言指令規(guī)劃動(dòng)作,哪怕杯子的位置和之前訓(xùn)練時(shí)不一樣,也能靈活應(yīng)對(duì)。
傳統(tǒng)救災(zāi)無人機(jī)需要人類遠(yuǎn)程操控,在復(fù)雜環(huán)境里很容易失聯(lián),而具身智能無人機(jī),能通過世界模型模擬環(huán)境風(fēng)險(xiǎn),通過大語言模型理解救援指令,自主規(guī)劃安全路徑并傳回受災(zāi)情況。
在工業(yè)領(lǐng)域,以前的機(jī)械臂,大多是專機(jī)專崗,換個(gè)生產(chǎn)線就不能用了,現(xiàn)在結(jié)合大語言模型和世界模型的機(jī)械臂,能通過大語言模型理解生產(chǎn)指令,通過世界模型預(yù)判抓取力度,不用重新編程就能切換任務(wù)。
具身智能還需要突破哪些難關(guān)?
現(xiàn)在的具身智能,還需要大量人類標(biāo)注的數(shù)據(jù)或預(yù)訓(xùn)練,未來要實(shí)現(xiàn)自主進(jìn)化,機(jī)器人能在新環(huán)境里自主探索,從失敗中學(xué)習(xí),甚至不用人類干預(yù)就能完成長(zhǎng)期任務(wù)。
具身智能對(duì)硬件要求很高,機(jī)器人要實(shí)時(shí)處理多模態(tài)數(shù)據(jù),還要快速做出反應(yīng),這需要更高效的芯片、更低延遲的傳感器。未來的硬件優(yōu)化,會(huì)更注重算法-硬件協(xié)同,針對(duì)大語言模型和世界模型的計(jì)算特點(diǎn),設(shè)計(jì)專用加速器;或者通過模型壓縮,讓復(fù)雜的具身智能算法能在邊緣設(shè)備上運(yùn)行。
此外,單一機(jī)器人的能力有限,未來更需要群體具身智能,可以預(yù)見的是,未來場(chǎng)景下會(huì)出現(xiàn)多個(gè)救災(zāi)無人機(jī)協(xié)同搜索,多個(gè)工業(yè)機(jī)械臂配合組裝,甚至機(jī)器人和人類協(xié)同完成任務(wù)。這需要解決群體認(rèn)知問題,讓機(jī)器人知道如何共享環(huán)境信息,如何分配任務(wù),如何應(yīng)對(duì)個(gè)別機(jī)器人故障。
具身智能機(jī)器人會(huì)直接和人類互動(dòng),安全性和可解釋性至關(guān)重要。未來需要讓機(jī)器人的動(dòng)作可追溯,它為什么要這么做,萬一出錯(cuò)了如何快速調(diào)整,還要確保它符合人類倫理,比如遇到危險(xiǎn)時(shí)優(yōu)先保護(hù)人類,而不是完成任務(wù)。
未來,當(dāng)機(jī)器人能更自主、更安全、更靈活地在物理世界生存時(shí),通用人工智能的夢(mèng)想,或許就不再遙遠(yuǎn)。而大語言模型和世界模型的結(jié)合,正是這條路上最關(guān)鍵的一步。
(審核編輯: 光光)
分享