近日,銀河通用聯(lián)合北京智源人工智能研究院(BAAI)及北京大學(xué)和香港大學(xué)研究人員,鄭重發(fā)布首個(gè)全面泛化的端到端具身抓取基礎(chǔ)大模型 GraspVLA。 據(jù)介紹,GraspVLA 的訓(xùn)練包含預(yù)訓(xùn)練和后訓(xùn)練兩部分。其中預(yù)訓(xùn)練完全基于合成大數(shù)據(jù),訓(xùn)練數(shù)據(jù)達(dá)到了有史以來(lái)最大的數(shù)據(jù)體量——十億幀「視覺(jué)-語(yǔ)言-動(dòng)作」對(duì),掌握泛化閉環(huán)抓取能力、達(dá)成基礎(chǔ)模型;預(yù)訓(xùn)練后,模型可直接 Sim2Real 在未見(jiàn)過(guò)的、千變?nèi)f化的真實(shí)場(chǎng)景和物體上零樣本測(cè)試,全球首次全面展現(xiàn)了七大卓越的泛化能力,滿(mǎn)足大多數(shù)產(chǎn)品的需求;而針對(duì)特別需求,后訓(xùn)練僅需小樣本學(xué)習(xí)即可遷移基礎(chǔ)能力到特定場(chǎng)景,維持高泛化性的同時(shí)形成符合產(chǎn)品需求的專(zhuān)業(yè)技能。 GraspVLA 展示了無(wú)需大規(guī)模真實(shí)數(shù)據(jù)、僅通過(guò)合成數(shù)據(jù)達(dá)到基礎(chǔ)模型的預(yù)訓(xùn)練過(guò)程,和進(jìn)一步通過(guò)小樣本微調(diào)使基礎(chǔ)“通才”快速成長(zhǎng)為指定場(chǎng)景“專(zhuān)家”的能力,定義了 VLA 發(fā)展的新范式。這一方式打破了世界范圍內(nèi)具身通用機(jī)器人當(dāng)前發(fā)展的兩大瓶頸 。 真實(shí)數(shù)據(jù)采集不僅非常昂貴,且很難覆蓋所有可能的實(shí)際應(yīng)用場(chǎng)景,導(dǎo)致數(shù)據(jù)量不夠無(wú)法訓(xùn)練出基礎(chǔ)模型、采集成本過(guò)大以致無(wú)法盈利。即便不計(jì)成本地采集,由于人形機(jī)器人硬件遠(yuǎn)未收斂,隨著硬件更新,原有的數(shù)據(jù)效力將大打折扣,造成大規(guī)模的浪費(fèi)。 數(shù)據(jù)的缺乏直接限制了機(jī)器人的泛化性和通用性。大部分機(jī)器人只能在特定的環(huán)境、特定的物體和特定的條件下完成專(zhuān)用任務(wù),人形機(jī)器人無(wú)法實(shí)現(xiàn)規(guī)模商業(yè)化。 以 GraspVLA 為代表的銀河通用技術(shù)路線(xiàn)具有低成本、大數(shù)據(jù)、高泛化的特點(diǎn),突破了具身智能的發(fā)展瓶頸,將在2025年引領(lǐng)端到端具身大模型走向規(guī)模商業(yè)化。 來(lái)源: 網(wǎng)易科技報(bào)道 |