北京市發(fā)布首批人工智能大模型高質(zhì)量數(shù)據(jù)集
數(shù)據(jù)是人工智能產(chǎn)業(yè)發(fā)展的“牛鼻子”,在產(chǎn)業(yè)鏈中起著價值倍增“放大器”的作用。在進(jìn)行模型訓(xùn)練中,許多模型企業(yè)均反映面臨訓(xùn)練數(shù)據(jù)匱乏、質(zhì)量難以保障等問題。為積極搶抓人工智能產(chǎn)業(yè)發(fā)展機(jī)遇,充分發(fā)揮得天獨(dú)厚的數(shù)據(jù)資源優(yōu)勢,北京市積極引導(dǎo)各類市場主體加強(qiáng)數(shù)據(jù)要素流動,不斷夯實(shí)人工智能產(chǎn)業(yè)發(fā)展基礎(chǔ)。
7月2日,“2023 全球數(shù)字經(jīng)濟(jì)大會人工智能高峰論壇”在京舉辦,本次論壇上發(fā)布了首批“北京市人工智能大模型高質(zhì)量數(shù)據(jù)集”,10 家單位的 18 個高質(zhì)量訓(xùn)練數(shù)據(jù)集入選,包括人民日報語料數(shù)據(jù)集、國家法律法規(guī)語料數(shù)據(jù)集、兩會參政議政建言數(shù)據(jù)集、“科情頭條”全球科技動態(tài)數(shù)據(jù)集、中國科學(xué)引文數(shù)據(jù)庫數(shù)據(jù)集、科技文獻(xiàn)挖掘語義標(biāo)注數(shù)據(jù)集等,涵蓋經(jīng)濟(jì)、政治、文化、社會、生態(tài)等不同領(lǐng)域,涉及文本、圖像、音頻、視頻等多種形式,總規(guī)模超過 500T。這些高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)將為通用大模型和行業(yè)大模型訓(xùn)練提供有力的數(shù)據(jù)資源保障,進(jìn)一步促進(jìn)北京市數(shù)據(jù)要素的高效流通和價值釋放,助力通用人工智能產(chǎn)業(yè)發(fā)展和數(shù)據(jù)要素市場的建設(shè)。
5月19日,北京市經(jīng)濟(jì)和信息化局還聯(lián)合北京市發(fā)展改革委、北京市科委、中關(guān)村管委會共同發(fā)布了《北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃》,其中數(shù)據(jù)伙伴將發(fā)揮海量數(shù)據(jù)資源優(yōu)勢,為大模型訓(xùn)練提供高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)。經(jīng)過兩批次評選,共計19家單位入圍,涵蓋企事業(yè)單位、科研院所、平臺企業(yè)等。通過市場化機(jī)制,這些數(shù)據(jù)伙伴企業(yè)將釋放一批高質(zhì)量數(shù)據(jù)集。
下一步,北京市將在北京國際大數(shù)據(jù)交易所和北京AI數(shù)據(jù)標(biāo)注庫平臺上線數(shù)據(jù)集產(chǎn)品目錄,供大模型相關(guān)企業(yè)及時獲取數(shù)據(jù)集產(chǎn)品信息并進(jìn)行供需對接。同時,北京市正在探索打造數(shù)據(jù)訓(xùn)練基地,通過建設(shè)可信空間,匯聚更多高質(zhì)量數(shù)據(jù),集中對外提供服務(wù)。這將進(jìn)一步推動北京市大模型技術(shù)的研發(fā)和應(yīng)用落地,賦能千行百業(yè)數(shù)智化轉(zhuǎn)型升級。