北京市發(fā)布首批人工智能大模型高質(zhì)量數(shù)據(jù)集
數(shù)據(jù)是人工智能產(chǎn)業(yè)發(fā)展的“牛鼻子”,在產(chǎn)業(yè)鏈中起著價值倍增“放大器”的作用。在進行模型訓練中,許多模型企業(yè)均反映面臨訓練數(shù)據(jù)匱乏、質(zhì)量難以保障等問題。為積極搶抓人工智能產(chǎn)業(yè)發(fā)展機遇,充分發(fā)揮得天獨厚的數(shù)據(jù)資源優(yōu)勢,北京市積極引導各類市場主體加強數(shù)據(jù)要素流動,不斷夯實人工智能產(chǎn)業(yè)發(fā)展基礎。
7月2日,“2023 全球數(shù)字經(jīng)濟大會人工智能高峰論壇”在京舉辦,本次論壇上發(fā)布了首批“北京市人工智能大模型高質(zhì)量數(shù)據(jù)集”,10 家單位的 18 個高質(zhì)量訓練數(shù)據(jù)集入選,包括人民日報語料數(shù)據(jù)集、國家法律法規(guī)語料數(shù)據(jù)集、兩會參政議政建言數(shù)據(jù)集、“科情頭條”全球科技動態(tài)數(shù)據(jù)集、中國科學引文數(shù)據(jù)庫數(shù)據(jù)集、科技文獻挖掘語義標注數(shù)據(jù)集等,涵蓋經(jīng)濟、政治、文化、社會、生態(tài)等不同領域,涉及文本、圖像、音頻、視頻等多種形式,總規(guī)模超過 500T。這些高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)將為通用大模型和行業(yè)大模型訓練提供有力的數(shù)據(jù)資源保障,進一步促進北京市數(shù)據(jù)要素的高效流通和價值釋放,助力通用人工智能產(chǎn)業(yè)發(fā)展和數(shù)據(jù)要素市場的建設。
5月19日,北京市經(jīng)濟和信息化局還聯(lián)合北京市發(fā)展改革委、北京市科委、中關村管委會共同發(fā)布了《北京市通用人工智能產(chǎn)業(yè)創(chuàng)新伙伴計劃》,其中數(shù)據(jù)伙伴將發(fā)揮海量數(shù)據(jù)資源優(yōu)勢,為大模型訓練提供高質(zhì)量、大規(guī)模、多樣性的數(shù)據(jù)。經(jīng)過兩批次評選,共計19家單位入圍,涵蓋企事業(yè)單位、科研院所、平臺企業(yè)等。通過市場化機制,這些數(shù)據(jù)伙伴企業(yè)將釋放一批高質(zhì)量數(shù)據(jù)集。
下一步,北京市將在北京國際大數(shù)據(jù)交易所和北京AI數(shù)據(jù)標注庫平臺上線數(shù)據(jù)集產(chǎn)品目錄,供大模型相關企業(yè)及時獲取數(shù)據(jù)集產(chǎn)品信息并進行供需對接。同時,北京市正在探索打造數(shù)據(jù)訓練基地,通過建設可信空間,匯聚更多高質(zhì)量數(shù)據(jù),集中對外提供服務。這將進一步推動北京市大模型技術的研發(fā)和應用落地,賦能千行百業(yè)數(shù)智化轉型升級。