當前位置:首頁 > 原創(chuàng) > 劉巖軒
[導讀]高質(zhì)量數(shù)據(jù)的生成、仿真到現(xiàn)實的遷移(Sim2Real),是人形機器人發(fā)展的瓶頸所在。單純依賴真實世界的數(shù)據(jù)驅(qū)動來推動人形機器人的發(fā)展,短期內(nèi)難以實現(xiàn)具身智能的突破。因此,如何突破這一瓶頸,成為了行業(yè)亟待解決的問題。

高質(zhì)量數(shù)據(jù)的生成、仿真到現(xiàn)實的遷移(Sim2Real),是人形機器人發(fā)展的瓶頸所在。特斯拉設(shè)置了高時薪的機器人數(shù)據(jù)搜集職位,采用黑白兩班倒的方式,只為了能夠快速幫助Optimus機器人實現(xiàn)高質(zhì)量數(shù)據(jù)收集。而來自谷歌和特斯拉的數(shù)據(jù)顯示,采集到13萬條機器人的數(shù)據(jù),花費了整整17個月、16名工程師和13臺機器人。即便如此,獲取的數(shù)據(jù)量依然有限,而每一項數(shù)據(jù)采集的成本和時間投入都異常龐大。特斯拉的設(shè)備,包括內(nèi)部系統(tǒng)和整個數(shù)據(jù)采集流程,成本高達百萬。這一現(xiàn)狀表明,單純依賴真實世界的數(shù)據(jù)驅(qū)動來推動人形機器人的發(fā)展,短期內(nèi)難以實現(xiàn)具身智能的突破。因此,如何突破這一瓶頸,成為了行業(yè)亟待解決的問題。

而英偉達推出的“三計算機”解決方案,成功為具身智能提供了高效的開發(fā)環(huán)境,加速了這一技術(shù)的落地。像英偉達的Omniverse平臺使得開發(fā)者能夠更便捷地進行模擬和調(diào)試,推動了從理論到實踐的轉(zhuǎn)變。這一進展,無疑是具身智能迎來拐點的標志。

“這一進展令人無比激動。一年前,這一方向是否能成功還并不明朗。雖然之前已經(jīng)有不少努力,但過去6到12個月的突破性發(fā)展改變了一切?!盢VIDIA 機器人與邊緣計算副總裁 Deepu Talla在近日CES結(jié)束后,馬不停蹄來到了北京,和記者進行了機器人主題方面的深入分享,介紹了英偉達在物理AI方面的重大進展。


機器人領(lǐng)域的“突破性”進展

機器人技術(shù)的應用場景正在變得越來越廣泛,社會和經(jīng)濟因素使得這一技術(shù)的需求變得愈加迫切。Deepu將其總結(jié)為三個方面:首先,危險的工作:比如礦工或在危險環(huán)境中工作的人員,機器人可以替代人類承擔這些危險任務。其次,勞動力短缺:隨著社會的不斷變化,勞動力短缺問題愈發(fā)嚴重,機器人可以填補這一空缺。最后,養(yǎng)老需求:隨著人類壽命的延長,越來越多的老年人需要護理和陪伴,機器人能夠為社會提供這樣的解決方案。

雖然這些推動因素由來已久,但從2024年至今,我們可以看到對機器人技術(shù)的興趣和投資有了大幅增長。為什么是現(xiàn)在?這得益于兩方面的技術(shù)突破性進展。

1-生成式AI打破了數(shù)字應用和物理應用的界限

大約兩年前,大型語言模型(LLMs)徹底改變了數(shù)字應用領(lǐng)域,為自然語言處理、文本生成等技術(shù)帶來了巨大的飛躍。如今,生成式AI的技術(shù)不僅在數(shù)字領(lǐng)域內(nèi)取得了突破,它們開始廣泛應用于機器人技術(shù)領(lǐng)域,打破了數(shù)字應用與物理應用之間的隔閡。這一進展使機器人不僅能夠在模擬環(huán)境中完成任務,還能更有效地與真實世界進行交互和適應。生成式AI為機器人的自主決策和學習能力提供了更強大的支持,這為機器人進入更復雜的應用場景提供了可能。

2-機器人仿真環(huán)境的進步提高了開發(fā)效率

制造機器人通常非常昂貴,尤其是在沒有大規(guī)模量產(chǎn)的情況下。高昂的硬件成本和物理世界中的真實測試限制了機器人技術(shù)的進步。過去,機器人技術(shù)的開發(fā)大多依賴于實際物理環(huán)境中的測試,而這種方式不僅費時且成本高昂,進展往往很慢。與之相對,仿真技術(shù)的進步為機器人開發(fā)提供了新的方向。通過高效的虛擬仿真環(huán)境,開發(fā)者可以在模擬環(huán)境中反復測試和優(yōu)化機器人的行為,極大地降低了測試的時間和成本。尤其是像英偉達的Omniverse平臺等仿真環(huán)境的出現(xiàn),使得機器人開發(fā)的速度和精度得到了顯著提高。

Deepu表示,很多公司都已經(jīng)開始專注于推動機器人領(lǐng)域的發(fā)展,他們都在研究與機器人相關(guān)的問題、以及通用型機器人“大腦”模型的開發(fā)。“接下來的5到10年里,我們將在機器人領(lǐng)域看到顯著的差異?!盌eepu說到,“這就是未來——一個能夠幫助解決危險工作、勞動力短缺以及企業(yè)運營挑戰(zhàn)的未來?!?


“三計算機”解決方案,閉環(huán)機器人開發(fā)到部署

當談到機器人技術(shù)時,很多人可能僅僅關(guān)注于具備物理形態(tài)的機器人本體。但其實僅僅靠機器人中的“計算機”是不夠的,我們還需要大量的訓練和仿真,這背后同樣離不開關(guān)鍵硬件和軟件環(huán)境的支持。英偉達提出了其著名的“三計算機方案”,通過三計算機的整合來加速機器人的開發(fā)部署。

第一臺計算機:用于訓練這臺計算機負責訓練機器人所需的人工智能模型。通常,訓練過程在云端、數(shù)據(jù)中心,或者像NVIDIA DGX這樣的高性能計算平臺上進行。訓練是構(gòu)建機器人“大腦”的關(guān)鍵步驟,它為機器人賦予理解和決策的能力。

第二臺計算機:用于仿真訓練完成后,機器人需要經(jīng)歷嚴格的測試。傳統(tǒng)的測試方式依賴于物理環(huán)境,雖然可行,但這種方式通常費時費力且成本高昂。英偉達提出了通過引入“仿真層”來解決這一問題,即利用數(shù)字孿生技術(shù)在虛擬環(huán)境中進行大規(guī)模的測試和優(yōu)化。通過Omniverse中的仿真環(huán)境,開發(fā)者可以在無需受到現(xiàn)實世界物理限制的情況下,快速測試和調(diào)整機器人的行為,從而大幅提高開發(fā)效率。

第三臺計算機:用于部署最后,第三臺計算機就是機器人操作系統(tǒng)的核心,它直接安裝在機器人內(nèi)部,負責執(zhí)行機器人操作。英偉達的Jetson和AGX系統(tǒng)便是典型的代表,它們提供了一個強大的計算平臺,將經(jīng)過訓練和仿真優(yōu)化的模型應用到實際的機器人操作中。

通過這三臺計算機的緊密合作,機器人開發(fā)的時間可以顯著縮短。在部署到實際環(huán)境之前,開發(fā)團隊可以在仿真環(huán)境中進行數(shù)千次的測試和優(yōu)化,確保機器人的性能和安全性。如果某個設(shè)計在實際操作中出現(xiàn)問題,開發(fā)者可以迅速回到仿真環(huán)境進行調(diào)整,重新測試,從而加速整個開發(fā)過程。

英偉達雖然并不直接開發(fā)機器人,但構(gòu)建了這樣一個包含三種計算系統(tǒng)以及相關(guān)軟件工具和工作流程的平臺,幫助機器人專家、研究人員、機械工程師和測試人員更輕松地開發(fā)機器人解決方案。

“這種方法也解釋了為什么機器人技術(shù)比自動駕駛更難。對于自動駕駛來說,主要是避免障礙并確保安全,而無需與物理物體交互。而在機器人領(lǐng)域,涉及到的是與物體的接觸、碰撞和復雜的物理交互,這些都更難測試和優(yōu)化?!盌eepu解釋到。

“這種數(shù)據(jù)采集比自動駕駛數(shù)據(jù)采集要困難得多。”銀河智能通用創(chuàng)始人、CTO王鶴博士也分享到,“開車是剛需,將車售賣給用戶后,用戶會自愿為你駕駛。公司數(shù)據(jù)采集的成本可以是負數(shù)。但沒有任何一家人形機器人公司能為用戶付費采集數(shù)據(jù),,且人形機器人數(shù)據(jù)采集難復制,只能冷啟動,這是行業(yè)瓶頸。人形機器人,若沒有功能,就沒有人會購買,哪怕買了,也沒有人愿意遙控采集數(shù)據(jù)。人形機器人只能冷啟動,這是全球人形機器人公司面臨的瓶頸問題?!?


高質(zhì)量合成數(shù)據(jù),縮小Sim2Real的差距

ChatGPT這樣的大語言模型所需的訓練數(shù)據(jù),來自互聯(lián)網(wǎng)上的海量信息和使用者的實時交互。這些數(shù)據(jù)的獲取要容易得多,因此只要計算的Scaling Law跟得上,大模型就可以不斷進化、躍升。而反觀物理AI,尤其是機器人領(lǐng)域,機器人需要的是執(zhí)行動作,比如拾取物體、移動、交互或完成任務等,這些高質(zhì)量數(shù)據(jù)的大規(guī)模獲取非常困難。

據(jù)Deepu介紹,與自動駕駛汽車可以依賴現(xiàn)有車輛通過傳感器收集數(shù)據(jù)不同,目前機器人的數(shù)量還遠遠不足以產(chǎn)生可比的數(shù)據(jù)量。當前的業(yè)界常用的方法包括使用VR設(shè)備(例如Apple Vision Pro)或動作捕捉套裝來記錄人類動作的示范。這些方法雖能提供有用的數(shù)據(jù),但規(guī)模太小,無法完全滿足機器人模型的訓練需求。

為了解決這一問題,“合成數(shù)據(jù)生成”變得至關(guān)重要。通過合成數(shù)據(jù),機器人開發(fā)者便可以生成特定動作(例如抓取物體)的無數(shù)種變化,或者構(gòu)建完整的虛擬環(huán)境。NVIDIA Cosmos是一個創(chuàng)新的“世界基礎(chǔ)模型”,旨在為機器人訓練提供虛擬環(huán)境。與傳統(tǒng)的地球或自然環(huán)境不同,這里的“世界”指的是機器人操作的具體交互空間,比如一個房間內(nèi)的可見區(qū)域。通過生成高度逼真、類似視頻游戲的虛擬環(huán)境,NVIDIA Cosmos為機器人提供了一個可供模擬和優(yōu)化行為的廣闊平臺。這個平臺讓開發(fā)者能夠在虛擬環(huán)境中反復測試機器人,幫助提高訓練效率并降低成本,同時避免了現(xiàn)實世界中可能遇到的時間和空間限制。

通過將有限的現(xiàn)實世界數(shù)據(jù)與NVIDIA Cosmos生成的大規(guī)模合成數(shù)據(jù)相結(jié)合,機器人技術(shù)中數(shù)據(jù)稀缺的難題得到了有效解決。這種創(chuàng)新的工作流已經(jīng)開始實施。這一方法不僅能夠解決當前機器人領(lǐng)域面臨的基礎(chǔ)數(shù)據(jù)問題,還為機器人的訓練和優(yōu)化提供了更加高效和可持續(xù)的路徑。

“沒有足夠的數(shù)據(jù),機器人模型無法進行有效的訓練、測試或部署。這使得數(shù)據(jù)的收集和生成成為解決機器人開發(fā)挑戰(zhàn)的關(guān)鍵第一步?!盌eepu分享到,“通過采用這種結(jié)合現(xiàn)實與合成數(shù)據(jù)的創(chuàng)新工作流,我們正為機器人領(lǐng)域的重大進步鋪平道路?!?

作為世界基礎(chǔ)模型,Cosmos提供了更高質(zhì)量的合成數(shù)據(jù);GR00T平臺進而得以將這些數(shù)據(jù)集成并支持測試,Isaac Sim則為機器人提供了可以進行任務模擬、策略測試和訓練的仿真平臺,而Omniverse通過數(shù)字孿生技術(shù),創(chuàng)建出了高度逼真的虛擬世界,模擬現(xiàn)實世界中的物理交互和環(huán)境變化。所有的這些工具通過緊密配合,正在加速推動機器人技術(shù)從訓練到實際應用的進展。


具身智能,迎來了自己的通用基礎(chǔ)大模型

有了Omniverse和Cosmos提供的強大虛擬環(huán)境和數(shù)據(jù)生成技術(shù),高質(zhì)量的合成數(shù)據(jù)的規(guī)?;a(chǎn)生不再困難。依托Isaac這樣的仿真測試平臺,通用具身大模型的發(fā)展也進一步開始提速,開始追求屬于自己的scaling law曲線。

銀河通用在2003年便開始敏銳捕捉到了這一機遇,開始了與英偉達的密切合作,積極探索使用仿真器合成大量的機器人操作數(shù)據(jù),并將其轉(zhuǎn)化為機器人的模型。目前,銀河通用已經(jīng)發(fā)布了其端到端具身抓取基礎(chǔ)大模型 GraspVLA。

據(jù)王鶴博士介紹,在此過程中,仿真器和渲染引擎發(fā)揮關(guān)鍵作用,開發(fā)團隊需要檢查合成的場景在物理層面是否正確。如果場景正確,就可以使用并行渲染器將數(shù)據(jù)渲染出來,并將機器人訓練的數(shù)據(jù)存儲下來,最終得到以10億計的海量合成數(shù)據(jù)。

基于著10億的合成數(shù)據(jù),銀河通用完成了全球首個、也是全球最大的機器人基礎(chǔ)模型—— GraspVLA。該模型具有顯著的特性,滿足七大泛化“金標準”:光照泛化、背景泛化、平面位置泛化、空間高度泛化、動作策略泛化、動態(tài)干擾泛化和物體類別泛化。該模型能夠根據(jù)輸入的語言指令,直接針對特定任務進行操作,例如抓取物品。不論是環(huán)境中的光照、紋理、物體位置如何變化,機械臂都能夠準確地完成指定物品的抓取。

在面對特殊的新需求時,這個基礎(chǔ)大模型展現(xiàn)出強大的泛化能力。盡管GraspVLA具備泛化的抓取能力,但在處理大量項目時,如一箱水,模型會隨便抓取其中一個物體。如果采集少量數(shù)據(jù),例如200條數(shù)據(jù),模型就能學會如何抓取特定物體。例如,針對東方樹葉包裝采集200條數(shù)據(jù)后,模型能適用于其他品牌的類似任務。即便對于特殊零件的抓取任務,只需采集100條數(shù)據(jù)并掌握零件名稱,模型也能實現(xiàn)抓取。

在家庭場景中,針對機器人對物體的特定抓取行為偏好,例如抓取杯子時不碰到杯壁,機器人通過少量數(shù)據(jù)訓練,也能夠適應這些特定需求。

這種偏好設(shè)定對機器人的應用至關(guān)重要。王鶴博士表示,如果現(xiàn)有的大模型應用仍需大量數(shù)據(jù)(幾千條甚至幾萬條)才能理解用戶的偏好并融入其中,機器人應用將面臨困難。基于10億規(guī)模合成大數(shù)據(jù)訓練的 GraspVLA模型,僅需100條偏好數(shù)據(jù)的學習,就能迅速滿足企業(yè)的需求,減少數(shù)據(jù)采集時間和成本。基礎(chǔ)大模型能夠快速理解產(chǎn)品的應用需求,并在同類物體上進行泛化。例如,在零售店,模型通過100條數(shù)據(jù)即可理解如何操作不同類型的物體,極大地壓縮了數(shù)據(jù)采集和部署時間。

以靈巧抓取為例,借助10億級別的零售數(shù)據(jù),機器人在抓取任務中展現(xiàn)出了超過90%的成功率,這一成果得益于高效的數(shù)據(jù)處理和精準的任務執(zhí)行。值得注意的是,英偉達的Isaac平臺在這一進展中發(fā)揮了至關(guān)重要的作用。銀河通用將GraspVLA模型與宇樹的四足機器人相結(jié)合,在本地的Isaac中進行了大規(guī)模的全身控制學習,從而讓機器人實現(xiàn)了自主運行,能夠完成各種自主任務,例如針對垃圾的精準識別并撿起。得益于英偉達強大的仿真平臺和數(shù)據(jù)處理能力,機器人能夠做到完全不依賴真實數(shù)據(jù)就實現(xiàn)自主任務訓練,特別是在靈活調(diào)整不同材質(zhì)、形狀、地形、高度和顏色的任務方面,機器人能夠在不同場景中進行高效的泛化應用。


具身智能應用提速,真正人形機器人迎來爆發(fā)

據(jù)悉,GraspVLA只是銀河通用的第一步,它展現(xiàn)了通過合成大數(shù)據(jù)訓練出的抓取能力。而銀河通用將快速基于在抓取合成數(shù)據(jù)生成、訓練和仿真部署方面的經(jīng)驗,把應用從抓取擴展到放置、開柜子、開抽屜,以及處理柔性物體如疊衣服、掛衣服等等等技能。通過多技能、更大規(guī)模的數(shù)據(jù)合成,銀河通用有望實現(xiàn)更豐富的技能覆蓋,比如移動操作和雙臂操作等。王鶴展望,將在 2025 年上半年向業(yè)界展示真正的人形機器人相關(guān)成果。

英偉達的Cosmos世界基礎(chǔ)模型真正解決了高質(zhì)量合成數(shù)據(jù)的難題,而Isaac GR00T和Mega這兩個在CES上最新發(fā)布的Blueprint,也進一步縮小了機器人Sim2Real的差距。當高質(zhì)量的數(shù)據(jù)、真實的仿真環(huán)境這些痛點都得以突破之后,一個真正的人形機器人通用基礎(chǔ)大模型正在醞釀成型。而英偉達也將如其在LLM中發(fā)揮的價值一般,繼續(xù)在具身智能的物理AI時代,扮演著重要的基礎(chǔ)設(shè)施支持者的角色,賦能具身智能高速發(fā)展。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉