谷歌發(fā)力世界模型：從OpenAI挖來(lái)Sora核心負(fù)責(zé)人！

時(shí)間：2025-01-08 11:15:12

關(guān)鍵字：谷歌 AI 芯片半導(dǎo)體

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]1月7日消息，據(jù)媒體報(bào)道，谷歌正在組建一個(gè)新的團(tuán)隊(duì)，專注于開發(fā)可以模擬物理世界的人工智能模型。

1月7日消息，據(jù)媒體報(bào)道，谷歌正在組建一個(gè)新的團(tuán)隊(duì)，專注于開發(fā)可以模擬物理世界的人工智能模型。

據(jù)了解，該團(tuán)隊(duì)的負(fù)責(zé)人是蒂姆·布魯克斯，他此前是OpenAI視頻生成器Sora的聯(lián)合負(fù)責(zé)人之一，后于2024年10月離開OpenAI，跳槽至谷歌的人工智能研究實(shí)驗(yàn)室谷歌DeepMind。

據(jù)蒂姆·布魯克斯在社交媒體X上的最新發(fā)帖透露，他領(lǐng)導(dǎo)的這個(gè)新團(tuán)隊(duì)隸屬于DeepMind，將致力于開發(fā)可以模擬物理世界的人工智能模型。

他在帖文中這樣寫到：“DeepMind有雄心勃勃的計(jì)劃，要制造大規(guī)模的生成模型來(lái)模擬世界。我正在招聘一個(gè)新的團(tuán)隊(duì)來(lái)完成這個(gè)目標(biāo)?！?

據(jù)悉，布魯克斯的新團(tuán)隊(duì)將著眼于開發(fā)“實(shí)時(shí)交互生成”工具，并研究如何將將這些模型與現(xiàn)有的多模式模型(例如谷歌的Gemini)進(jìn)行整合。

他在工作描述中強(qiáng)調(diào)：“我們認(rèn)為，在視頻和多模態(tài)數(shù)據(jù)上擴(kuò)展人工智能訓(xùn)練是通向通用人工智能(AGI)的關(guān)鍵路徑。世界模型將為視覺推理與模擬、代理規(guī)劃以及實(shí)時(shí)互動(dòng)娛樂等多個(gè)領(lǐng)域提供強(qiáng)大動(dòng)力。”

據(jù)悉，“世界模型”是目前技術(shù)流派中難度最高的一種，其特點(diǎn)在于讓機(jī)器能夠像人類一樣對(duì)真實(shí)世界有一個(gè)全面而準(zhǔn)確的認(rèn)知。

目前，許多初創(chuàng)公司和大型科技公司都在追逐世界模型，包括有影響力的人工智能研究員李飛飛的World Labs、以色列新貴Decart和初創(chuàng)公司Odyssey等。這些公司認(rèn)為，世界模型有一天可以用來(lái)創(chuàng)建互動(dòng)媒體，如視頻游戲和電影，并運(yùn)行逼真的模擬，如機(jī)器人訓(xùn)練環(huán)境。

值得注意的是，新的團(tuán)隊(duì)還將與谷歌現(xiàn)有的Gemini、Veo和Genie團(tuán)隊(duì)合作，并以后者團(tuán)隊(duì)的工作為基礎(chǔ)，將模型擴(kuò)展到“最高水平的計(jì)算”。

其中，Gemini是谷歌的旗艦AI模型系列，用于圖像分析和文本生成等任務(wù);Veo是谷歌的視頻生成模型;而Genie則是谷歌的基礎(chǔ)世界模型，它支持用戶通過(guò)文本、合成圖像、照片甚至草圖等方式，創(chuàng)造出具有高度可玩性的交互式環(huán)境和可控的虛擬世界。