要聞

5620億參數(shù)！谷歌發(fā)布全球最大視覺語(yǔ)言模型PaLM-E：幾乎擁有所有語(yǔ)言能力，能識(shí)別圖像信息、操控機(jī)器人……

每日經(jīng)濟(jì)新聞 2023-03-08 22:38:37

◎參數(shù)量達(dá)5620億，史上最大視覺語(yǔ)言模型PaLM-E將實(shí)現(xiàn)更自主的機(jī)器人控制。

每經(jīng)記者蔡鼎每經(jīng)編輯蘭素英

過去幾個(gè)月時(shí)間里，由ChatGPT在全球科技巨頭之間引發(fā)的人工智能熱潮推動(dòng)了大量語(yǔ)言模型的生產(chǎn)力前置。據(jù)《華爾街日?qǐng)?bào)》，雖然谷歌早在兩年前就做出了類似ChatGPT的人工智能聊天工具，但谷歌對(duì)AI的小心謹(jǐn)慎態(tài)度讓其失去了對(duì)生成式AI的先機(jī)。

不過，作為硅谷科技巨頭，谷歌從來(lái)不缺乏“后來(lái)居上”的決心和實(shí)力。

美西時(shí)間3月6日（周一），來(lái)自谷歌和德國(guó)柏林工業(yè)大學(xué)的一組人工智能研究人員公布了史上最大視覺語(yǔ)言模型PaLM-E（全稱Pathways Language Model with Embodied）。

作為一種多模態(tài)具身視覺語(yǔ)言模型 (VLM)，PaLM-E能將視覺和語(yǔ)言集成到機(jī)器人控制中。谷歌和柏林工業(yè)大學(xué)稱，PaLM-E是迄今為止人類開發(fā)的最大規(guī)模VLM，其可以在不需要再訓(xùn)練的情況下執(zhí)行各種任務(wù)。此外，通過PaLM-540B語(yǔ)言模型與ViT-22B視覺Transformer模型相結(jié)合，PaLM-E最終的參數(shù)量高達(dá)5620億（GPT-3 的參數(shù)量為1750億），這是全球已知的最大視覺語(yǔ)言模型。

可分析視覺數(shù)據(jù)執(zhí)行高級(jí)命令

“我們觀察到諸如多模態(tài)思維鏈推理（允許模型分析包括語(yǔ)言和視覺信息的一系列輸入），只接受單圖像提示訓(xùn)練的多圖像推理（使用多個(gè)圖像作為輸入來(lái)做出推理或預(yù)測(cè)）等涌現(xiàn)能力。”論文的第一作者、谷歌AI研究員Danny Driess在推特上寫道。

圖片來(lái)源：推特

據(jù)谷歌介紹，當(dāng)接到“把抽屜里的薯片拿過來(lái)”等較為高級(jí)的命令時(shí)，PaLM-E可以為一個(gè)有“手臂”的移動(dòng)機(jī)器人平臺(tái)（由谷歌Robotics公司開發(fā)）生成行動(dòng)計(jì)劃，并自行執(zhí)行任務(wù)。機(jī)器人能夠順利地從十多個(gè)開放式抽屜中找到米餅，拿給研究人員。

圖片來(lái)源：谷歌

在另外一個(gè)案例中，研究人員還要求機(jī)器人“將所有色塊按顏色堆放到不同角落”的指令，以及將“綠色色塊推到烏龜旁邊”的指令，即便機(jī)器人之前沒有見過這只烏龜擺件，也能順利地完成任務(wù)。

圖片來(lái)源：谷歌

在圖像識(shí)別的案例中，PaLM-E識(shí)別圖像中的已故籃球明星科比·布萊恩特，并可以生成關(guān)于他的文本信息，例如他贏得了多少次NBA總冠軍戒指。研究人員寫道，PaLM-E也是一種“有效的視覺語(yǔ)言模型”。

圖片來(lái)源：谷歌

具體來(lái)講，PaLM-E通過分析來(lái)自機(jī)器人攝像頭的數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)高級(jí)命令的執(zhí)行，而無(wú)需對(duì)場(chǎng)景進(jìn)行預(yù)處理。這消除了人類對(duì)數(shù)據(jù)進(jìn)行預(yù)處理或注釋的需要，并允許更自主的機(jī)器人控制。

此外，PaLM-E也非常具有彈性，能根據(jù)所處的具體環(huán)境做出反應(yīng)。例如，PaLM-E模型可以引導(dǎo)機(jī)器人從廚房取出一個(gè)薯片袋，并且將PaLM-E集成到控制循環(huán)中，它可以抵抗任務(wù)執(zhí)行期間可能發(fā)生的中斷。在谷歌發(fā)布的視頻中，一名研究人員從機(jī)器人手中抓起薯片并進(jìn)行移動(dòng)，但最終機(jī)器人可以找到這些薯片并再次抓起。

“PaLM-E幾乎擁有所有語(yǔ)言能力”

據(jù)谷歌和柏林工業(yè)大學(xué)的合著論文介紹，PaLM-E是一個(gè)僅有解碼器的大型語(yǔ)言模型（LLM），在給定前綴（prefix）或提示（prompt）下，能夠以自回歸方式生成文本補(bǔ)全。其訓(xùn)練數(shù)據(jù)為包含視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼的多模式語(yǔ)句。

由于PaLM-E是基于語(yǔ)言模型，所以它會(huì)連續(xù)觀察圖像或傳感器數(shù)據(jù)，并將其編碼成與語(yǔ)言符號(hào)大小相同的向量序列。這使得模型能夠以處理語(yǔ)言的相同方式“理解”感覺信息。

谷歌和柏林工業(yè)大學(xué)研究人員發(fā)布的預(yù)印本論文

除了RT-1機(jī)器人外，PaLM-E還借鑒了谷歌之前在VIT-22B上的工作，后者是谷歌在上月公布的一款視覺語(yǔ)言模型。VIT-22B已經(jīng)在各種視覺任務(wù)上進(jìn)行了訓(xùn)練，例如圖像分類、目標(biāo)檢測(cè)、語(yǔ)義分割和圖像字幕等。

除了機(jī)器人技術(shù)外，谷歌的研究人員還觀察到了幾個(gè)有趣的現(xiàn)象。首先，PaLM-E在實(shí)驗(yàn)案例中表現(xiàn)出了“正向轉(zhuǎn)移（positive transfer）”，這意味著它可以將所學(xué)到的知識(shí)和技能從一個(gè)任務(wù)轉(zhuǎn)移到另一個(gè)任務(wù)，因此與執(zhí)行單個(gè)任務(wù)的機(jī)器人模型相比，性能有顯著的提高。

此外，谷歌研究人員還觀察了PaLM-E大規(guī)模參數(shù)下的一個(gè)趨勢(shì)：“語(yǔ)言模型規(guī)模越大，在進(jìn)行視覺語(yǔ)言和機(jī)器人任務(wù)訓(xùn)練時(shí)，它就越能保持語(yǔ)言能力——從參數(shù)規(guī)模上來(lái)講，5620億參數(shù)的PaLM-E幾乎擁有所有語(yǔ)言能力。”

谷歌研究人員計(jì)劃未來(lái)將探索PaLM-E在現(xiàn)實(shí)世界中有更多應(yīng)用，例如家庭自動(dòng)化或工業(yè)機(jī)器人，也希望PaLM-E能夠激發(fā)更多關(guān)于多模態(tài)AI的應(yīng)用。

《每日經(jīng)濟(jì)新聞》記者還注意到，作為AI大戰(zhàn)的老對(duì)手，微軟也已經(jīng)在“圖像+語(yǔ)言模型”的路數(shù)上有所布局。在今年2月底發(fā)表的研究中，微軟就展現(xiàn)了如何使用ChatGPT為大疆Tello無(wú)人機(jī)編寫“找飲料”程序的案例。

微軟最近發(fā)布的“用于機(jī)器人的ChatGPT（ChatGPT for Robotics）”論文，就嘗試以類似于谷歌PaLM-E的方式將視覺數(shù)據(jù)和大型語(yǔ)言模型結(jié)合起來(lái)，對(duì)機(jī)器人進(jìn)行控制。

封面圖片來(lái)源：視覺中國(guó)-VCG111288485345

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

谷歌機(jī)器人動(dòng)態(tài)

上一篇文章

現(xiàn)貨黃金短線走高4美元，現(xiàn)報(bào)1816.7美元/盎司；現(xiàn)貨白銀短線走高0.1美元，現(xiàn)報(bào)20.16美元/盎司

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

新三板創(chuàng)新層公司山谷網(wǎng)安新增軟件著作權(quán)信息：“山谷綜合數(shù)據(jù)處理系統(tǒng)”

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

亚洲狠狠,一级黄色大片,日韩在线第一区视屏,韩国作爱视频久久久久,亚洲欧美国产精品专区久久,青青草华人在线视频,国内精品久久影视免费

5620億參數(shù)！谷歌發(fā)布全球最大視覺語(yǔ)言模型PaLM-E：幾乎擁有所有語(yǔ)言能力，能識(shí)別圖像信息、操控機(jī)器人……

可分析視覺數(shù)據(jù)執(zhí)行高級(jí)命令

“PaLM-E幾乎擁有所有語(yǔ)言能力”

5620億參數(shù)！谷歌發(fā)布全球最大視覺語(yǔ)言模型PaLM-E：幾乎擁有所有語(yǔ)言能力，能識(shí)別圖像信息、操控機(jī)器人……