國產(chǎn)Sora來襲？清華團(tuán)隊(duì)突破AI視頻生成！

時(shí)間：2024-04-28 11:33:59

關(guān)鍵字： Sora 清華 AI Vidu

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]業(yè)內(nèi)消息，在昨天的中關(guān)村論壇未來人工智能先鋒論壇上，生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性視頻大模型——Vidu。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型，性能全面對(duì)標(biāo)Sora，并在加速迭代提升中。

業(yè)內(nèi)消息，在昨天的中關(guān)村論壇未來人工智能先鋒論壇上，生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性視頻大模型——Vidu。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型，性能全面對(duì)標(biāo)Sora，并在加速迭代提升中。

該模型采用團(tuán)隊(duì)原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-ViT，支持一鍵生成長達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容。Vidu不僅能夠模擬真實(shí)物理世界，還擁有豐富想象力，具備多鏡頭生成、時(shí)空一致性高等特點(diǎn)。

Vidu的快速突破源自于團(tuán)隊(duì)在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型的長期積累和多項(xiàng)原創(chuàng)性成果。其核心技術(shù)U-ViT架構(gòu)由團(tuán)隊(duì)于2022年9月提出，早于Sora采用的DiT架構(gòu)，是全球首個(gè)Diffusion與Transformer融合的架構(gòu)，完全由團(tuán)隊(duì)自主研發(fā)。

自今年2月Sora發(fā)布推出后，團(tuán)隊(duì)基于對(duì)U-ViT架構(gòu)的深入理解以及長期積累的工程與數(shù)據(jù)經(jīng)驗(yàn)，在短短兩個(gè)月進(jìn)一步突破長視頻表示與處理關(guān)鍵技術(shù)，研發(fā)推出Vidu視頻大模型，顯著提升視頻的連貫性與動(dòng)態(tài)性。

「Vidu」背后的團(tuán)隊(duì)生數(shù)科技是一支清華背景的大模型創(chuàng)業(yè)團(tuán)隊(duì)，致力于專注于視頻生成、3D生成、圖像生成等多模態(tài)領(lǐng)域。自2023年成立以來，團(tuán)隊(duì)已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV百度風(fēng)投、字節(jié)系錦秋基金等多家知名產(chǎn)業(yè)機(jī)構(gòu)的認(rèn)可，完成數(shù)億元融資。

據(jù)悉，生數(shù)科技是目前國內(nèi)在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團(tuán)隊(duì)。此次「Vidu」的推出，是生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的再一次創(chuàng)新和領(lǐng)先。