國產(chǎn)Sora來襲?清華團(tuán)隊(duì)突破AI視頻生成!
業(yè)內(nèi)消息,在昨天的中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)正式發(fā)布中國首個(gè)長時(shí)長、高一致性、高動(dòng)態(tài)性視頻大模型——Vidu。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對(duì)標(biāo)Sora,并在加速迭代提升中。
該模型采用團(tuán)隊(duì)原創(chuàng)的Diffusion與Transformer融合的架構(gòu)U-ViT,支持一鍵生成長達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容。Vidu不僅能夠模擬真實(shí)物理世界,還擁有豐富想象力,具備多鏡頭生成、時(shí)空一致性高等特點(diǎn)。
Vidu的快速突破源自于團(tuán)隊(duì)在貝葉斯機(jī)器學(xué)習(xí)和多模態(tài)大模型的長期積累和多項(xiàng)原創(chuàng)性成果。其核心技術(shù)U-ViT架構(gòu)由團(tuán)隊(duì)于2022年9月提出,早于Sora采用的DiT架構(gòu),是全球首個(gè)Diffusion與Transformer融合的架構(gòu),完全由團(tuán)隊(duì)自主研發(fā)。
自今年2月Sora發(fā)布推出后,團(tuán)隊(duì)基于對(duì)U-ViT架構(gòu)的深入理解以及長期積累的工程與數(shù)據(jù)經(jīng)驗(yàn),在短短兩個(gè)月進(jìn)一步突破長視頻表示與處理關(guān)鍵技術(shù),研發(fā)推出Vidu視頻大模型,顯著提升視頻的連貫性與動(dòng)態(tài)性。
「Vidu」背后的團(tuán)隊(duì)生數(shù)科技是一支清華背景的大模型創(chuàng)業(yè)團(tuán)隊(duì),致力于專注于視頻生成、3D生成、圖像生成等多模態(tài)領(lǐng)域。自2023年成立以來,團(tuán)隊(duì)已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV百度風(fēng)投、字節(jié)系錦秋基金等多家知名產(chǎn)業(yè)機(jī)構(gòu)的認(rèn)可,完成數(shù)億元融資。
據(jù)悉,生數(shù)科技是目前國內(nèi)在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團(tuán)隊(duì)。此次「Vidu」的推出,是生數(shù)科技在多模態(tài)原生大模型領(lǐng)域的再一次創(chuàng)新和領(lǐng)先。