原創(chuàng)

隨著數(shù)據(jù)規(guī)模的指數(shù)級(jí)增長(zhǎng)，大模型已經(jīng)逐漸成深度學(xué)習(xí)認(rèn)知智能的橋梁

時(shí)間：2022-09-14 15:00:01

關(guān)鍵字： AI AI新基座華為

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]算法、算力和數(shù)據(jù)是人工智能三大核心要素，也是人工智能的三大基石。AI 算法持續(xù)突破創(chuàng)新，模型復(fù)雜度指數(shù)級(jí)提升的同時(shí)，準(zhǔn)確率和效率也在不斷提高，在各個(gè)細(xì)分領(lǐng)域應(yīng)用加速落地。

算法、算力和數(shù)據(jù)是人工智能三大核心要素，也是人工智能的三大基石。AI 算法持續(xù)突破創(chuàng)新，模型復(fù)雜度指數(shù)級(jí)提升的同時(shí)，準(zhǔn)確率和效率也在不斷提高，在各個(gè)細(xì)分領(lǐng)域應(yīng)用加速落地。隨著芯片處理能力提升、硬件價(jià)格下降、神經(jīng)網(wǎng)絡(luò)模型優(yōu)化，AI 算力也在大幅提升。與此同時(shí)，AI 產(chǎn)業(yè)級(jí)應(yīng)用已經(jīng)進(jìn)入大數(shù)據(jù)、大模型時(shí)代。

當(dāng)前，全球主流 AI 框架和模型的技術(shù)演進(jìn)及創(chuàng)新進(jìn)展如何?如何提升算法模型的準(zhǔn)確率和效率?如何將 AI 框架和模型應(yīng)用于實(shí)際場(chǎng)景中，實(shí)現(xiàn)產(chǎn)業(yè)創(chuàng)新?在 AICON 2022 “AI 框架與模型” 分論壇上，眾多 AI 領(lǐng)域?qū)＜覍⒐餐接戇@些問(wèn)題。

AICON 2022 由 LF AI & DATA 基金會(huì)主辦，將于 9 月 8 日在杭州舉行。大會(huì)由一個(gè)主論壇以及 “AI 框架與模型”“AI + 數(shù)據(jù)”“AI 工程化”“昇思生態(tài)論壇” 四個(gè)分論壇組成，聚焦 AI 前沿技術(shù)、產(chǎn)業(yè)化和商業(yè)化的動(dòng)態(tài)。

屆時(shí)，來(lái)自全球的人工智能領(lǐng)域頂尖科學(xué)家、行業(yè)專(zhuān)家及著名企業(yè)家將齊聚一堂，重點(diǎn)關(guān)注人工智能技術(shù)領(lǐng)域的行業(yè)變革與技術(shù)創(chuàng)新，共同圍繞核心技術(shù)、行業(yè)落地、產(chǎn)業(yè)賦能、發(fā)展要素、治理機(jī)制等熱門(mén)話題進(jìn)行深入探討和交流，分享全球人工智能行業(yè)新趨勢(shì)、新動(dòng)向，探索人工智能發(fā)展新模式新路徑。

近年來(lái)，大模型已經(jīng)成為整個(gè) AI (人工智能)產(chǎn)學(xué)界追逐的技術(shù)“寵兒”，“煉大模型”如火如荼，包括OpenAI、Google、微軟、英偉達(dá)、百度、華為、阿里巴巴等企業(yè)巨頭紛紛參與其中，各式各樣參數(shù)不一、任務(wù)導(dǎo)向不同的“大模型”也陸續(xù)面市。一時(shí)間，“煉大模型”成為了當(dāng)下AI產(chǎn)業(yè)發(fā)展的一個(gè)主旋律。

方融科技高級(jí)工程師、科技部國(guó)家科技專(zhuān)家周迪在接受《中國(guó)經(jīng)營(yíng)報(bào)》記者采訪時(shí)表示，Al大模型歷經(jīng)了前幾年的探索期、突破期，部分技術(shù)已經(jīng)逐漸成熟，現(xiàn)在在一定程度上達(dá)到推廣期了。各大企業(yè)紛紛發(fā)布AI大模型，就是搶抓這個(gè)時(shí)間節(jié)點(diǎn)，在這方面先取得入場(chǎng)門(mén)票。大模型具有效果好、泛化性強(qiáng)、研發(fā)流程標(biāo)準(zhǔn)化程度高等特點(diǎn)，正在成為人工智能技術(shù)及應(yīng)用的新基座。

據(jù)中國(guó)信息通信研究院測(cè)算，2021年，算力核心產(chǎn)業(yè)規(guī)模超過(guò)1.5萬(wàn)億元，關(guān)聯(lián)產(chǎn)業(yè)規(guī)模超過(guò)8萬(wàn)億元。其中，云計(jì)算市場(chǎng)規(guī)模超過(guò)3000億元，IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)服務(wù)市場(chǎng)規(guī)模超過(guò)1500億元，人工智能核心產(chǎn)業(yè)規(guī)模超過(guò)4000億元。

在過(guò)去，絕大部分人工智能企業(yè)和研究機(jī)構(gòu)遵循算法、算力和數(shù)據(jù)三位一體的研究范式，即以一定的算力和數(shù)據(jù)為基礎(chǔ)，使用開(kāi)源算法框架訓(xùn)練智能模型。而這也導(dǎo)致了當(dāng)前大部分人工智能處于“手工作坊式”階段，面對(duì)各類(lèi)行業(yè)的下游應(yīng)用，AI 逐漸展現(xiàn)出碎片化、多樣化的特點(diǎn)，也出現(xiàn)了模型通用性不高的缺陷。這不僅是AI技術(shù)面臨的挑戰(zhàn)，也限制了AI的產(chǎn)業(yè)化進(jìn)程。

“從各類(lèi)電商平臺(tái)的智能推薦到日常生活中的刷臉支付，現(xiàn)在我們生活的方方面面都離不開(kāi)AI。為了滿足這些需求，我們需要為每種特定場(chǎng)景收集大量的數(shù)據(jù)，再?gòu)闹性O(shè)計(jì)出專(zhuān)用于特定任務(wù)的模型，”周迪對(duì)記者說(shuō)道，“AI大模型希望做到的就是能夠基于這個(gè)模型整合各類(lèi)需求，從而適應(yīng)多種差異化的業(yè)務(wù)場(chǎng)景，解決AI在賦能千行百業(yè)中面臨的碎片化、多樣化問(wèn)題。”

AI大模型提供了一種通用化的解決方案，通過(guò)“預(yù)訓(xùn)練大模型+下游任務(wù)微調(diào)”的方式，可以有效地從大量標(biāo)記和未標(biāo)記的數(shù)據(jù)中捕獲知識(shí)，極大地?cái)U(kuò)展了模型的泛化能力。

華為昇騰計(jì)算業(yè)務(wù)總裁張迪煊對(duì)記者表示，過(guò)去在一個(gè)單一的AI應(yīng)用場(chǎng)景里面，其實(shí)是由很多模型組成的，通過(guò)多模型支撐一個(gè)場(chǎng)景來(lái)完成多個(gè)任務(wù)。而大模型是AI發(fā)展的趨勢(shì)，也就是通過(guò)大模型能解決人工智能很多的問(wèn)題，因?yàn)榇竽Ｐ途邆浜芎玫姆夯裕梢酝ㄟ^(guò)大模型實(shí)現(xiàn)多個(gè)任務(wù)，原來(lái)場(chǎng)景需要多個(gè)小模型，現(xiàn)在大模型可以服務(wù)多個(gè)場(chǎng)景，這是生產(chǎn)效率的提升?，F(xiàn)在國(guó)家相關(guān)部門(mén)也在牽頭制定大模型的沙盤(pán)，避免科研機(jī)構(gòu)、企業(yè)重復(fù)研發(fā)，通過(guò)各個(gè)領(lǐng)域的大模型與行業(yè)場(chǎng)景結(jié)合，可以更好地加速人工智能技術(shù)產(chǎn)業(yè)落地。

阿里巴巴資深副總裁、達(dá)摩院副院長(zhǎng)周靖人則認(rèn)為：“大模型模仿了人類(lèi)構(gòu)建認(rèn)知的過(guò)程，這是當(dāng)下我們面臨的重要機(jī)遇。通過(guò)融合AI在語(yǔ)言、語(yǔ)音、視覺(jué)等不同模態(tài)和領(lǐng)域的知識(shí)體系，我們期望多模態(tài)大模型能成為下一代人工智能算法的基石，讓AI從只能使用‘單一感官’到‘五官全開(kāi)’，且能調(diào)用儲(chǔ)備豐富知識(shí)的大腦來(lái)理解世界和進(jìn)行思考，最終實(shí)現(xiàn)接近人類(lèi)水平的認(rèn)知智能?！?

從2020年開(kāi)始，國(guó)際最頂尖的AI技術(shù)發(fā)展，愈來(lái)愈像一場(chǎng)比拼資金與人才的軍備競(jìng)賽。

2020年，OpenAI發(fā)布NLP預(yù)訓(xùn)練模型GPT-3，光論文就有72頁(yè)，作者多達(dá)31人，該模型參數(shù)1750億，耗資1200萬(wàn)美元;

2021年1月，谷歌發(fā)布首個(gè)萬(wàn)億級(jí)模型Switch Transformer，宣布突破了GPT-3參數(shù)記錄;

4月，華為盤(pán)古大模型參數(shù)規(guī)模達(dá)到千億級(jí)別，定位于中文語(yǔ)言預(yù)訓(xùn)練模型;

11月，微軟和英偉達(dá)在燒壞了4480塊CPU后，完成了5300億參數(shù)的自然語(yǔ)言生成模型(MT-NLG)，一舉拿下單體Transformer語(yǔ)言模型界“最大”和“最強(qiáng)”兩個(gè)稱(chēng)號(hào);

今年1月，Meta宣布要與英偉達(dá)打造AI超級(jí)計(jì)算機(jī)RSC，RSC每秒運(yùn)算可達(dá)50億次，算力可以排到全球前四的水平。

除此之外，阿里、浪潮、北京智源研究院等，均發(fā)布了最新產(chǎn)品，平均參數(shù)過(guò)百億。

看起來(lái)，這些預(yù)訓(xùn)練模型的參數(shù)規(guī)模沒(méi)有最大，只有更大，且正以遠(yuǎn)超摩爾定律的速度增長(zhǎng)。其在對(duì)話、語(yǔ)義識(shí)別方面的表現(xiàn)，一次次刷新人們的認(rèn)知。

這一年，由OpenAI公司開(kāi)發(fā)的GPT-3橫空出世，獲得了“互聯(lián)網(wǎng)原子彈”，“人工智能界的卡麗熙”，“算力吞噬者”，“下崗工人制造機(jī)”，“幼年期的天網(wǎng)”等一系列外號(hào)。它的驚艷表現(xiàn)包括但不限于：

有開(kāi)發(fā)者給GPT-3 做了圖靈測(cè)試，發(fā)現(xiàn)GPT-3對(duì)答如流，正常得不像個(gè)機(jī)器?！叭绻谑昵坝猛瑯拥膯?wèn)題做測(cè)試，我會(huì)認(rèn)為答題者一定是人?，F(xiàn)在，我們不能再以為AI回答不了常識(shí)性的問(wèn)題了。”

深度學(xué)習(xí)發(fā)展至今，語(yǔ)言、視覺(jué)、推薦、代碼生成等多個(gè)領(lǐng)域相繼出現(xiàn)一些“大模型”成果，不斷刷新著人們對(duì) AI 的認(rèn)知與想象。深度學(xué)習(xí)依賴(lài)對(duì)大量數(shù)據(jù)的訓(xùn)練，而“大模型”的參數(shù)更多、函數(shù)更復(fù)雜，這樣的特征使得模型所演算出來(lái)的結(jié)果更精準(zhǔn)。隨著萬(wàn)物互聯(lián)世界的進(jìn)一步發(fā)展，數(shù)據(jù)量的擴(kuò)展與數(shù)據(jù)收集已不再是難題，隨之而來(lái)的新命題是如何處理海量數(shù)據(jù)，并且做出更好地訓(xùn)練。

早在 2017 年，Transformer 結(jié)構(gòu)被提出，使得深度學(xué)習(xí)模型參數(shù)突破了1億;2018 年，BERT 網(wǎng)絡(luò)模型的提出，使得參數(shù)量首次超過(guò) 3 億規(guī)模;2020 年，擁有 1750 億個(gè)參數(shù)的 GPT-3 橫空出世;2021 年推出的 ZionEX 系統(tǒng)，其所支持的推薦模型大小已超過(guò) 10 萬(wàn)億規(guī)?！?

隨著數(shù)據(jù)規(guī)模的指數(shù)級(jí)增長(zhǎng)，大模型已經(jīng)逐漸被認(rèn)為是通過(guò)深度學(xué)習(xí)認(rèn)知智能的橋梁。

然而，數(shù)據(jù)量的暴增提出了新的命題——如何跨越通信等瓶頸，提升大模型的訓(xùn)練效率?為了支持大模型的訓(xùn)練，往往需要一套大規(guī)模分布式訓(xùn)練框架來(lái)訓(xùn)練大模型。

對(duì)此，華為交出的答卷便是昇思 MindSpore AI 框架，原生支持大模型訓(xùn)練。昇思 MindSpore 擁有業(yè)界領(lǐng)先的全自動(dòng)并行能力，提供 6 維混合并行算法，即數(shù)據(jù)并行、模型并行、流水并行、優(yōu)化器并行等能力;極致的全局內(nèi)存復(fù)用能力，在開(kāi)發(fā)者無(wú)感知的情況下，自動(dòng)實(shí)現(xiàn) NPU 內(nèi)存 / CPU 內(nèi)存 / NVMe 硬盤(pán)存儲(chǔ)的多級(jí)存儲(chǔ)優(yōu)化，極大降低模型訓(xùn)練成本;極簡(jiǎn)的斷點(diǎn)續(xù)訓(xùn)能力，可解決大集群訓(xùn)練故障導(dǎo)致的任務(wù)中斷問(wèn)題……通過(guò)這些特性，可以很好地解決大模型開(kāi)發(fā)時(shí)遇到的內(nèi)存占用、通信瓶頸、調(diào)試復(fù)雜、部署難等問(wèn)題。

近年來(lái)，大模型表現(xiàn)出前所未有的理解與創(chuàng)造能力，且打破了傳統(tǒng)AI(人工智能)只能處理單一任務(wù)的限制，讓人類(lèi)離通用人工智能的目標(biāo)近了一步。但大模型仍存在許多技術(shù)難點(diǎn)，同時(shí)受算力資源限制，其訓(xùn)練與落地應(yīng)用頗具挑戰(zhàn)。

據(jù)周靖人介紹，為了讓大模型更加“融會(huì)貫通”，達(dá)摩院在中國(guó)國(guó)內(nèi)率先構(gòu)建了AI統(tǒng)一底座，在業(yè)界首次實(shí)現(xiàn)模態(tài)表示、任務(wù)表示、模型結(jié)構(gòu)的統(tǒng)一。

在不引入新增結(jié)構(gòu)的情況下，通義統(tǒng)一底座中M6-OFA模型，可同時(shí)處理圖像描述、視覺(jué)定位、文生圖、視覺(jué)蘊(yùn)含、文檔摘要等10余項(xiàng)單模態(tài)和跨模態(tài)任務(wù)，且效果達(dá)到國(guó)際領(lǐng)先水平。

“大模型模仿了人類(lèi)構(gòu)建認(rèn)知的過(guò)程，這是當(dāng)下我們面臨的重要機(jī)遇。通過(guò)融合AI在語(yǔ)言、語(yǔ)音、視覺(jué)等不同模態(tài)和領(lǐng)域的知識(shí)體系，我們期望多模態(tài)大模型能成為下一代人工智能算法的基石，讓AI從只能使用‘單一感官’到‘五官全開(kāi)’，且能調(diào)用儲(chǔ)備豐富知識(shí)的大腦來(lái)理解世界和思考，最終實(shí)現(xiàn)接近人類(lèi)水平的認(rèn)知智能?！敝芫溉吮硎?。

同時(shí)，達(dá)摩院構(gòu)建了層次化的模型體系，其中通用模型層覆蓋自然語(yǔ)言處理、多模態(tài)、計(jì)算機(jī)視覺(jué)，專(zhuān)業(yè)模型層深入電商、醫(yī)療、法律、金融、娛樂(lè)等行業(yè)。

通過(guò)部署超大模型及輕量化版本，阿里巴巴“”通義”大模型系列已在超過(guò)200個(gè)場(chǎng)景中提供服務(wù)，實(shí)現(xiàn)了2%-10%的應(yīng)用效果提升。典型使用場(chǎng)景包括電商跨模態(tài)搜索、AI輔助設(shè)計(jì)、開(kāi)放域人機(jī)對(duì)話、法律文書(shū)學(xué)習(xí)、醫(yī)療文本理解等。