揭秘生成式人工智能如何重塑視頻會議體驗(yàn)

時間：2024-08-19 11:21:05

關(guān)鍵字： Hailo 人工智能

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]人工智能將大大提升視頻會議的互動性和沉浸感,為集成商和系統(tǒng)設(shè)計(jì)師們帶來全新的機(jī)遇。

據(jù)Hailo首席技術(shù)官Avi Baum先生介紹,人工智能將大大提升視頻會議的互動性和沉浸感,為集成商和系統(tǒng)設(shè)計(jì)師們帶來全新的機(jī)遇。

揭秘生成式人工智能如何重塑視頻會議體驗(yàn)

盡管虛擬會議已經(jīng)廣泛普及并成為主流方式,但現(xiàn)有技術(shù)尚無法全面復(fù)刻面對面交流所帶來的體驗(yàn)。與此同時,生成式人工智能技術(shù)的飛速發(fā)展,為破解混合會議長期以來面臨的諸多挑戰(zhàn)提供了創(chuàng)新性解決方案。

生成式人工智能無疑將大大提升虛擬會議的效率和吸引力,使其能夠高度模擬現(xiàn)實(shí)生活中的交流體驗(yàn)。然而,要實(shí)現(xiàn)這一愿景,這些前沿功能須在實(shí)時環(huán)境中運(yùn)作,確保最低延遲,同時保持成本效益,讓各類用戶都能負(fù)擔(dān)得起。這迫切要求部分創(chuàng)新的人工智能特性能夠被無縫集成到各類連接終端設(shè)備中,以提供出色的用戶體驗(yàn)。

幸運(yùn)的是,解決方案供應(yīng)商正在迅速將生成式人工智能融入到主流視頻會議平臺和計(jì)算機(jī)中,以實(shí)現(xiàn)實(shí)時優(yōu)化、沉浸式虛擬體驗(yàn)增強(qiáng)以及高效的自動化會議管理。這一系列創(chuàng)新舉措不僅推動了技術(shù)邊界的拓展,而且能夠顯著提升客戶在混合及虛擬會議場景中的體驗(yàn)。

虛擬復(fù)刻

生成式人工智能以出色的性能,優(yōu)化了虛擬會議中的視頻、音頻及文本交互體驗(yàn)。特別是在混合會議場景中,人工智能驅(qū)動的智能視頻處理技術(shù)能夠智能調(diào)整視角,讓遠(yuǎn)程參與者得以聚焦于發(fā)言人的實(shí)時畫面,從而精準(zhǔn)復(fù)制出面對面交流的體驗(yàn),摒棄了以往單調(diào)的、僅限于展示整個會議室靜態(tài)場景的局限。

神經(jīng)輻射場(NeRF)或類似技術(shù)能夠創(chuàng)造遠(yuǎn)程參與者的生動視圖,賦予每一位參與者沉浸式的體驗(yàn)享受,同時實(shí)現(xiàn)視角的動態(tài)變換。隨后,借助人工智能,這些多元視角被巧妙地融合成統(tǒng)一的視圖,以統(tǒng)一的大小、姿勢或風(fēng)格顯示。此外,如果會議室中有白板,人工智能可以自動識別并將其上的文字轉(zhuǎn)換為可編輯格式,甚至可以創(chuàng)建專屬會議記錄,提升會議效率。

生成式人工智能可以深度融入每位參與者的工作流程,無論是身處虛擬空間還是現(xiàn)實(shí)會議室,它都能通過先進(jìn)的音頻與文本處理能力提升工作效率。這一智能助手可以將音頻轉(zhuǎn)換為文本,以創(chuàng)建會議摘要,根據(jù)指示將任務(wù)分配給相應(yīng)負(fù)責(zé)人,甚至即時提供相關(guān)建議。對于多語言交流環(huán)境,此類助手還能提供即時音頻翻譯,從而消除語言障礙。

然而,盡管生成式人工智能展現(xiàn)出令人矚目的潛力,其當(dāng)前實(shí)現(xiàn)形式仍受限于底層技術(shù)的發(fā)展水平。要全面釋放其力量,單純依賴現(xiàn)有的云服務(wù)架構(gòu)已難以滿足需求,而是需要一種更為普及的解決方案,確保在任何情境下都能輕松激活并享受其帶來的變革性體驗(yàn)。

面向未來的可拓展性

為了使生成式人工智能在視頻會議中發(fā)揮最大效用,視頻會議系統(tǒng)應(yīng)具備在終端設(shè)備上自主執(zhí)行生成式人工智能處理的能力,無論這些設(shè)備是個人電腦還是會議網(wǎng)關(guān),都無需依賴云端進(jìn)行處理。

在會議系統(tǒng)中,可擴(kuò)展性是一個至關(guān)重要的特性。就可擴(kuò)展性而言,識別哪些場景適合采用集中處理,以及哪些情況需要邊緣處理,這一點(diǎn)顯得尤為重要。

集中處理在以下三種情況下尤為有利:

? 時間共享:當(dāng)功能需求較為簡單,且中心機(jī)器能夠以一小部分容量輕松應(yīng)對時(例如,處理參與者進(jìn)入房間或取消靜音時的提醒),中心機(jī)器便能夠?yàn)樗薪K端提供服務(wù)。在此情況下,每個終端在不同時間段內(nèi)運(yùn)行,且不會對系統(tǒng)造成明顯影響。

? 資源共享:當(dāng)功能包含所有終端共有的固有處理需求時(例如,在共享數(shù)據(jù)庫上進(jìn)行搜索),可以執(zhí)行一次共享處理,并為多個或所有終端重復(fù)使用。

? 信息共享:當(dāng)所有參與者需要共享相同信息時(例如,沒有個人注釋的共享白板),可以實(shí)現(xiàn)信息的共享。

前文所述的大部分功能并不符合上述三種情況。為了構(gòu)建一個可擴(kuò)展的視頻會議系統(tǒng),并使這些功能對所有參與者都可用,我們需要為不同的節(jié)點(diǎn)配備適當(dāng)?shù)娜斯ぶ悄苡?jì)算能力。

揭秘生成式人工智能如何重塑視頻會議體驗(yàn)

這將帶來多重益處,包括:

? 低延遲:在虛擬會議中,低延遲對于實(shí)現(xiàn)順暢的交流至關(guān)重要,無論是實(shí)時翻譯、內(nèi)容創(chuàng)建還是視頻調(diào)整。通過在邊緣設(shè)備上利用生成式人工智能,可以有效減少延遲,確保會議流暢進(jìn)行,同時為用戶提供無縫銜接的體驗(yàn),無需任何等待時間。

? 節(jié)約成本:基于云的生成式人工智能工具的月度訂閱費(fèi)用,對許多企業(yè)而言可能構(gòu)成不小的負(fù)擔(dān)。隨著滿足多樣化用戶需求(如聊天、搜索引擎、圖像/視頻創(chuàng)建)的工具不斷涌現(xiàn),成本迅速攀升,這無疑進(jìn)一步加劇了企業(yè)的預(yù)算壓力。因此,將生成式人工智能遷移到用戶的個人電腦或會議設(shè)備上,使用戶無需承擔(dān)月度訂閱費(fèi)用即可享有這些工具,無疑提供了一個更為經(jīng)濟(jì)的解決方案。

? 寬帶和連接性:帶寬和連接性是虛擬會議中常見的問題,尤其是在參與者網(wǎng)絡(luò)連接受限的情況下,如旅途中或偏遠(yuǎn)地區(qū)。而基于邊緣的生成式人工智能能夠在本地處理無關(guān)信息,確保僅傳輸相關(guān)且重要的數(shù)據(jù),從而實(shí)現(xiàn)不間斷且高效的會議體驗(yàn)。

? 環(huán)境影響:基于云的人工智能處理對環(huán)境造成的影響不容忽視,其過程中會消耗大量能源并產(chǎn)生污染。卡內(nèi)基梅隆大學(xué)和Hugging Face的研究人員對不同機(jī)器學(xué)習(xí)任務(wù)的碳足跡進(jìn)行了測量。研究結(jié)果表明,涉及新內(nèi)容生成的人工智能任務(wù),如文本生成、摘要、圖像描述和圖像生成等,是非常耗能的。研究還發(fā)現(xiàn),耗能的人工智能模型每次會話會產(chǎn)生近1600克二氧化碳,其環(huán)境影響相當(dāng)于駕駛汽油車行駛約6.4公里。

相比之下,邊緣設(shè)備為生成式人工智能提供了一種更可持續(xù)的選擇。它們消耗更少的電力,減少了冷卻需求,并降低了碳足跡,從而有助于實(shí)現(xiàn)更綠色、更環(huán)保的人工智能會議方式。

融入人工智能

在不遠(yuǎn)的將來,音視頻系統(tǒng)集成商與設(shè)計(jì)師將安裝專為生成式人工智能時代設(shè)計(jì)的視頻會議系統(tǒng),既能享受生成式人工智能所帶來的便利,同時亦能確保邊緣處理在性能、可靠性和安全性方面的優(yōu)勢。

這些未來的視頻會議系統(tǒng)將在邊緣設(shè)備上直接處理人工智能任務(wù),需要構(gòu)建閉環(huán)系統(tǒng)來分擔(dān)目前云端處理的部分工作。通過在筆記本電腦、會議室設(shè)備及攝像頭等終端上處理人工智能數(shù)據(jù),可以確保會議的順暢運(yùn)行,并有效控制成本,同時使人工智能生成的內(nèi)容(例如自動摘要或動態(tài)演示文稿)更加安全可靠。

Hailo提供的人工智能處理器是專為高效處理人工智能模型而設(shè)計(jì)的,以適配各種邊緣設(shè)備,同時以合理的價格提供數(shù)據(jù)中心級的性能表現(xiàn)。目前,該公司正與會議設(shè)備制造商展開合作,致力于將人工智能處理器集成至其硬件之中,共同推動未來的視頻會議系統(tǒng)成為現(xiàn)實(shí)。