當(dāng)前位置:首頁(yè) > 技術(shù)學(xué)院 > 技術(shù)解析
[導(dǎo)讀]為增進(jìn)大家對(duì)英偉達(dá)Cosmos的認(rèn)識(shí),本文將對(duì)英偉達(dá)Cosmos世界基礎(chǔ)模型予以超詳細(xì)介紹。

Cosmos 世界基礎(chǔ)模型(WFM)使開發(fā)者能夠輕松生成大量基于物理學(xué)的逼真合成數(shù)據(jù),以用于訓(xùn)練和評(píng)估其現(xiàn)有的模型。為增進(jìn)大家對(duì)英偉達(dá)Cosmos的認(rèn)識(shí),本文將對(duì)英偉達(dá)Cosmos世界基礎(chǔ)模型予以超詳細(xì)介紹。如果你對(duì)英偉達(dá)Cosmos具有興趣,不妨繼續(xù)往下閱讀哦。

英偉達(dá)布局工業(yè)人工智能,物理AI領(lǐng)域邁入新紀(jì)元。2025年1月,英偉達(dá)發(fā)布新一代工業(yè)仿真平臺(tái)Cosmos,首次將物理引擎與生成式AI深度融合,標(biāo)志著AI的工業(yè)軟件應(yīng)用進(jìn)入新階段。區(qū)別于傳統(tǒng)的仿真模型,它專注于處理視頻數(shù)據(jù)并理解視頻中動(dòng)態(tài)的場(chǎng)景、物體的運(yùn)動(dòng),這有助于機(jī)器理解現(xiàn)實(shí)世界并實(shí)現(xiàn)交互。據(jù)英偉達(dá)技術(shù)報(bào)告顯示,Cosmos基于2000萬(wàn)小時(shí)視頻數(shù)據(jù)訓(xùn)練,涵蓋擴(kuò)散模型與自回歸模型兩大架構(gòu),支持文本生成視頻(Text2World)及視頻增強(qiáng)生成(Video2World)兩種模式,其GitHub項(xiàng)目上線首日即獲2k星標(biāo)。英偉達(dá)Cosmos平臺(tái)賦能自動(dòng)駕駛、機(jī)器人、工業(yè)數(shù)字孿生等領(lǐng)域,實(shí)現(xiàn)增強(qiáng)訓(xùn)練。


NVIDIA Cosmos 是一個(gè)用于加速物理 AI 開發(fā)的平臺(tái),推出了一系列世界基礎(chǔ)模型——可以預(yù)測(cè)和生成虛擬環(huán)境未來(lái)狀態(tài)的物理感知視頻的神經(jīng)網(wǎng)絡(luò),以幫助開發(fā)者構(gòu)建新一代機(jī)器人和自動(dòng)駕駛汽車(AV)。

如同大語(yǔ)言模型一樣,世界基礎(chǔ)模型(WFM)屬于基礎(chǔ)類模型。這類模型使用包括文本、圖像、視頻和運(yùn)動(dòng)在內(nèi)的輸入數(shù)據(jù)來(lái)生成和仿真虛擬世界,以準(zhǔn)確模擬場(chǎng)景中物體的空間關(guān)系及其物理交互。

在 CES 大會(huì)上,NVIDIA 推出第一批 Cosmos 世界基礎(chǔ)模型,用于基于物理的仿真和合成數(shù)據(jù)生成,配備先進(jìn)的 tokenizer、護(hù)欄、加速數(shù)據(jù)處理和管理工作流,以及模型定制和優(yōu)化框架。

無(wú)論公司規(guī)模大小,研究人員和開發(fā)者都可以根據(jù) NVIDIA 允許商業(yè)使用的開放模型許可下,自由使用 Cosmos 模型。構(gòu)建 AI 智能體的企業(yè)還可以使用在 CES 上推出的新開源 NVIDIA Llama Nemotron 和 Cosmos Nemotron 模型。

Cosmos 先進(jìn)的開放模型能夠幫助物理 AI 開發(fā)者解決障礙,無(wú)拘無(wú)束構(gòu)建機(jī)器人和自動(dòng)駕駛汽車技術(shù),并使各種規(guī)模的企業(yè)能夠更快地將其物理 AI 應(yīng)用推向市場(chǎng)。開發(fā)者可以直接使用 Cosmos 模型生成基于物理學(xué)的合成數(shù)據(jù),或利用 NVIDIA NeMo 框架,根據(jù)自己的視頻對(duì)模型進(jìn)行微調(diào),以實(shí)現(xiàn)特定物理 AI 設(shè)置。

物理 AI 領(lǐng)先者——包括機(jī)器人公司 1X、Agility Robotics 和小鵬汽車,以及自動(dòng)駕駛汽車開發(fā)商 Uber 和 Waabi ——已經(jīng)在與 Cosmos 協(xié)作,加速并增強(qiáng)模型開發(fā)。

開發(fā)者可以在 NVIDIA API 目錄中預(yù)覽首個(gè) Cosmos 自回歸和擴(kuò)散模型,并從 NGC 目錄和 Hugging Face 下載模型系列和微調(diào)框架。

Cosmos 世界基礎(chǔ)模型是一套用于物理感知視頻生成的開放式擴(kuò)散和自回歸 Transformer 模型。這些模型已基于 2000 萬(wàn)小時(shí)的真實(shí)世界人類互動(dòng)、環(huán)境、工業(yè)、機(jī)器人和駕駛數(shù)據(jù),訓(xùn)練了 9,000 萬(wàn)億個(gè) token。

該類模型分為三類:Nano,用于針對(duì)實(shí)時(shí)、低延遲推理和邊緣部署進(jìn)行優(yōu)化的模型;Super,用于高性能基線模型;Ultra,具有高質(zhì)量和保真度,適合用于蒸餾自定義模型。

配合 NVIDIA Omniverse 3D 輸出時(shí),擴(kuò)散模型生成可控的高質(zhì)量合成視頻數(shù)據(jù),用于啟動(dòng)機(jī)器人和自動(dòng)駕駛汽車感知模型的訓(xùn)練。自回歸模型基于輸入幀和文本,預(yù)測(cè)視頻幀序列中的下一步動(dòng)態(tài)。可實(shí)現(xiàn)實(shí)時(shí)下一個(gè) token 預(yù)測(cè),讓物理 AI 模型預(yù)測(cè)他們的下一個(gè)最佳行動(dòng)。

開發(fā)者可以使用 Cosmos 開放模型進(jìn)行文本到世界和視頻到世界的生成。擴(kuò)散或自回歸模型版本的參數(shù)量在 40 億到 140 億之間,現(xiàn)可以在 NGC 目錄和 Hugging Face 上查詢。

還提供用于總結(jié)文本提示的參數(shù)量級(jí)達(dá) 120 億的上采樣模型、針對(duì)增強(qiáng)現(xiàn)實(shí)優(yōu)化 70 億參數(shù)級(jí)視頻解碼器、以及確保負(fù)責(zé)任和安全使用的護(hù)欄模型。

為了展示定制的機(jī)會(huì),NVIDIA 還發(fā)布了針對(duì)垂直應(yīng)用的微調(diào)模型樣本,例如為自動(dòng)駕駛汽車生成多傳感器視圖。

海內(nèi)外發(fā)力,實(shí)現(xiàn)多維度、多層次的AI+工業(yè)應(yīng)用生態(tài)。根據(jù)Gartner的數(shù)據(jù)顯示,至2025年,80%的工程和制造企業(yè)將會(huì)在其項(xiàng)目中集成AI技術(shù)。這一趨勢(shì)表明,AI大模型將成為提升企業(yè)競(jìng)爭(zhēng)力的關(guān)鍵工具。IDC預(yù)測(cè),2024-2028年中國(guó)AI+工業(yè)軟件細(xì)分市場(chǎng)復(fù)合增速將到達(dá)41.4%,遠(yuǎn)超同期核心工業(yè)軟件19.3%的年復(fù)合增長(zhǎng)率,到2028年,AI+工業(yè)軟件的滲透率也將從2025年的9%提升至22%。索辰科技、寶信軟件、華為等均已布局AI+工業(yè)軟件產(chǎn)品。展望未來(lái),認(rèn)為AI+工業(yè)軟件的發(fā)展方向有:①生態(tài)整合加速軟件的全生命周期覆蓋。②生成式AI推動(dòng)工業(yè)流程范式變革。工業(yè)軟件格局或受到AI的影響加速迭代進(jìn)化。

以上便是此次帶來(lái)的英偉達(dá)Cosmos相關(guān)內(nèi)容,通過(guò)本文,希望大家對(duì)英偉達(dá)Cosmos已經(jīng)具備一定的了解。如果你喜歡本文,不妨持續(xù)關(guān)注我們網(wǎng)站哦,將于后期帶來(lái)更多精彩內(nèi)容。最后,十分感謝大家的閱讀,have a nice day!

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉