123,123

[導(dǎo)讀]3月10日，智元機(jī)器人正式發(fā)布了首個(gè)通用具身基座模型——啟元大模型（Genie Operator-1），并創(chuàng)新性地提出了Vision-Language-Latent-Action（ViLLA）架構(gòu)。這一發(fā)布標(biāo)志著具身智能技術(shù)向通用化、開放化、智能化方向邁出了重要一步，為機(jī)器人行業(yè)帶來了革命性的突破。

今天（3月10日），由稚暉君創(chuàng)立的智元機(jī)器人正式發(fā)布了首個(gè)通用具身基座模型——啟元大模型（Genie Operator-1），并創(chuàng)新性地提出了Vision-Language-Latent-Action（ViLLA）架構(gòu)。這一發(fā)布標(biāo)志著具身智能技術(shù)向通用化、開放化、智能化方向邁出了重要一步，為機(jī)器人行業(yè)帶來了革命性的突破。

兩大創(chuàng)新：顛覆技術(shù)變革

據(jù)了解，啟元大模型的核心在于其獨(dú)特的ViLLA架構(gòu)，該架構(gòu)由多模態(tài)大模型（VLM）和混合專家系統(tǒng)（MoE）組成。其中，VLM通過海量互聯(lián)網(wǎng)圖文數(shù)據(jù)，賦予機(jī)器人通用場景感知和語言理解能力；MoE則通過隱式規(guī)劃器（Latent Planner）和動(dòng)作專家（Action Expert）模塊，分別實(shí)現(xiàn)動(dòng)作理解和精細(xì)動(dòng)作執(zhí)行。

而ViLLA架構(gòu)的創(chuàng)新之處在于其能夠利用人類視頻和跨本體操作數(shù)據(jù)進(jìn)行學(xué)習(xí)，顯著提升了機(jī)器人的泛化能力。例如，在“倒水”、“清理桌面”、“補(bǔ)充飲料”等任務(wù)中，啟元大模型的表現(xiàn)尤為突出，任務(wù)成功率比現(xiàn)有最優(yōu)模型提高了32%。這種小樣本快速泛化的能力，使得機(jī)器人能夠快速適應(yīng)新任務(wù)和新環(huán)境，降低了具身智能的研發(fā)門檻。

剛剛，稚暉君又一重磅技術(shù)發(fā)布！

（圖片來源：新浪微博）

應(yīng)用場景：賦能千行百業(yè)

啟元大模型的發(fā)布不僅是一次技術(shù)突破，更開啟了具身智能在多個(gè)領(lǐng)域的應(yīng)用潛力。例如，在家庭場景中，機(jī)器人可以通過學(xué)習(xí)人類視頻，完成諸如掛衣服、插花、除塵等復(fù)雜任務(wù)；在商業(yè)場景中，機(jī)器人能夠?yàn)闀?huì)議遞送飲料、為員工刷卡開門；在工業(yè)場景中，機(jī)器人可以高效執(zhí)行生產(chǎn)線上的精細(xì)操作。

此外，啟元大模型還具備“一腦多形”的特點(diǎn)，即通用機(jī)器人策略模型能夠在不同機(jī)器人形態(tài)之間遷移，快速適配到不同本體。這種靈活性使得啟元大模型不僅適用于智元機(jī)器人自身的產(chǎn)品線，還可以部署到其他企業(yè)和科研團(tuán)隊(duì)開發(fā)的機(jī)器人中，推動(dòng)具身智能技術(shù)的普及和應(yīng)用。

剛剛，稚暉君又一重磅技術(shù)發(fā)布！

（智元機(jī)器人服務(wù)場景）

總之，啟元大模型的發(fā)布不僅是一次技術(shù)突破，更是具身智能行業(yè)發(fā)展的里程碑?？梢灶A(yù)見，隨著2025年《政府工作報(bào)告》首次明確提及“具身智能”與“智能機(jī)器人”，這一領(lǐng)域迎來了政策與產(chǎn)業(yè)的雙重利好。未來，具身智能將在服務(wù)業(yè)、工業(yè)制造、醫(yī)療等領(lǐng)域發(fā)揮越來越大的作用。