曝字節(jié)跳動(dòng)實(shí)習(xí)生“投毒”自家大模型,損失超千萬(wàn)美元?官方回應(yīng)來(lái)了!
近日,關(guān)于字節(jié)跳動(dòng)大模型訓(xùn)練遭實(shí)習(xí)生“投毒”一事引發(fā)了廣泛關(guān)注。
根據(jù)網(wǎng)傳消息顯示,某頭部大廠的大模型訓(xùn)練被實(shí)習(xí)生入侵,注入了破壞代碼,導(dǎo)致其訓(xùn)練成果不可靠,可能需要重新訓(xùn)練。此次“投毒”事件,遭到入侵的代碼注入了8000多張卡,帶來(lái)的損失可能超過(guò)千萬(wàn)美元。
(網(wǎng)傳字節(jié)跳動(dòng)大模型訓(xùn)練被實(shí)習(xí)生攻擊)
另?yè)?jù)知情人士透露,該大廠為字節(jié)跳動(dòng),事情發(fā)生在2024年6月底,某著名高校博士生田某某,在商業(yè)化技術(shù)團(tuán)隊(duì)實(shí)習(xí)時(shí),因?qū)F(tuán)隊(duì)資源分配不滿,于是便利用HF(huggingface)平臺(tái)的漏洞,在公司的共享模型里寫入破壞代碼,導(dǎo)致模型的訓(xùn)練效果忽高忽低,無(wú)法產(chǎn)生預(yù)期的訓(xùn)練效果。
該知情人士稱,這件事對(duì)公司近30位各級(jí)員工造成了巨大傷害,他們的努力和工作成果在近一個(gè)季度內(nèi)全都白費(fèi)。
同時(shí),該知情人士還分享了一則調(diào)查人員對(duì)田姓實(shí)習(xí)生的詢問(wèn)錄音,錄音中的對(duì)話還原了其攻擊的過(guò)程:田某最先輸入的code本來(lái)是被用于影響通訊和隨機(jī)性的,“最開始的時(shí)候它并不是以攻擊為目的,它是為了debug,但這確實(shí)會(huì)涉及到程序的一些運(yùn)行情況。但后面它經(jīng)過(guò)一些文件,就是那些upload文件,code也會(huì)被update,code就變成了攻擊code。它大概的作用就是去修改code,然后就會(huì)造成一些后果?!?/span>
(網(wǎng)傳字節(jié)跳動(dòng)大模型訓(xùn)練被實(shí)習(xí)生攻擊)
該事件一經(jīng)曝光,立刻引起了網(wǎng)友們的關(guān)注和熱議,而字節(jié)跳動(dòng)官方也在第一時(shí)間作出了回應(yīng)。
10月19日,字節(jié)跳動(dòng)發(fā)布澄清說(shuō)明稱,“確有商業(yè)化技術(shù)團(tuán)隊(duì)實(shí)習(xí)生惡意干擾團(tuán)隊(duì)研究項(xiàng)目的模型訓(xùn)練任務(wù),該實(shí)習(xí)生已被辭退,但這并不影響商業(yè)化的正式項(xiàng)目及線上業(yè)務(wù),也不涉及字節(jié)跳動(dòng)大模型等其他業(yè)務(wù)。”
同時(shí),字節(jié)跳動(dòng)強(qiáng)調(diào),網(wǎng)傳“涉及8000多卡、損失上千萬(wàn)美元”嚴(yán)重夸大。經(jīng)核實(shí),涉事人一直在商業(yè)化技術(shù)團(tuán)隊(duì)實(shí)習(xí),并沒(méi)有AI Lab實(shí)習(xí)經(jīng)歷,其社交媒體個(gè)人簡(jiǎn)介及部分媒體報(bào)道有誤。
字節(jié)跳動(dòng)表示,該實(shí)習(xí)生已在8月被公司辭退,公司也將其行為同步給行業(yè)聯(lián)盟和所在學(xué)校,交由校方處理。
(字節(jié)跳動(dòng)回應(yīng)“實(shí)習(xí)生破壞大模型”事件)
針對(duì)此事,有行業(yè)專家指出,該事件也反映了字節(jié)跳動(dòng)的安全管理問(wèn)題,包括權(quán)限隔離、共用代碼的審計(jì)等。
最后,大家有何看法?歡迎在評(píng)論區(qū)留言,闡述你的觀點(diǎn)。