剛剛,稚暉君又一重磅技術(shù)發(fā)布!
今天(3月10日),由稚暉君創(chuàng)立的智元機(jī)器人正式發(fā)布了首個(gè)通用具身基座模型——啟元大模型(Genie Operator-1),并創(chuàng)新性地提出了Vision-Language-Latent-Action(ViLLA)架構(gòu)。這一發(fā)布標(biāo)志著具身智能技術(shù)向通用化、開放化、智能化方向邁出了重要一步,為機(jī)器人行業(yè)帶來了革命性的突破。
兩大創(chuàng)新:顛覆技術(shù)變革
據(jù)了解,啟元大模型的核心在于其獨(dú)特的ViLLA架構(gòu),該架構(gòu)由多模態(tài)大模型(VLM)和混合專家系統(tǒng)(MoE)組成。其中,VLM通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù),賦予機(jī)器人通用場景感知和語言理解能力;MoE則通過隱式規(guī)劃器(Latent Planner)和動(dòng)作專家(Action Expert)模塊,分別實(shí)現(xiàn)動(dòng)作理解和精細(xì)動(dòng)作執(zhí)行。
而ViLLA架構(gòu)的創(chuàng)新之處在于其能夠利用人類視頻和跨本體操作數(shù)據(jù)進(jìn)行學(xué)習(xí),顯著提升了機(jī)器人的泛化能力。例如,在“倒水”、“清理桌面”、“補(bǔ)充飲料”等任務(wù)中,啟元大模型的表現(xiàn)尤為突出,任務(wù)成功率比現(xiàn)有最優(yōu)模型提高了32%。這種小樣本快速泛化的能力,使得機(jī)器人能夠快速適應(yīng)新任務(wù)和新環(huán)境,降低了具身智能的研發(fā)門檻。
(圖片來源:新浪微博)
應(yīng)用場景:賦能千行百業(yè)
啟元大模型的發(fā)布不僅是一次技術(shù)突破,更開啟了具身智能在多個(gè)領(lǐng)域的應(yīng)用潛力。例如,在家庭場景中,機(jī)器人可以通過學(xué)習(xí)人類視頻,完成諸如掛衣服、插花、除塵等復(fù)雜任務(wù);在商業(yè)場景中,機(jī)器人能夠?yàn)闀?huì)議遞送飲料、為員工刷卡開門;在工業(yè)場景中,機(jī)器人可以高效執(zhí)行生產(chǎn)線上的精細(xì)操作。
此外,啟元大模型還具備“一腦多形”的特點(diǎn),即通用機(jī)器人策略模型能夠在不同機(jī)器人形態(tài)之間遷移,快速適配到不同本體。這種靈活性使得啟元大模型不僅適用于智元機(jī)器人自身的產(chǎn)品線,還可以部署到其他企業(yè)和科研團(tuán)隊(duì)開發(fā)的機(jī)器人中,推動(dòng)具身智能技術(shù)的普及和應(yīng)用。
(智元機(jī)器人服務(wù)場景)
總之,啟元大模型的發(fā)布不僅是一次技術(shù)突破,更是具身智能行業(yè)發(fā)展的里程碑??梢灶A(yù)見,隨著2025年《政府工作報(bào)告》首次明確提及“具身智能”與“智能機(jī)器人”,這一領(lǐng)域迎來了政策與產(chǎn)業(yè)的雙重利好。未來,具身智能將在服務(wù)業(yè)、工業(yè)制造、醫(yī)療等領(lǐng)域發(fā)揮越來越大的作用。