阿里安全AI識別語義分析技術再獲突破，可快速攔截色情黑話

時間：2020-09-28 15:55:12

關鍵字： AI 互聯網

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]近日，阿里安全宣布，面對“多人運動”“王者五排”等不斷變異升級的黑話暗語，阿里AI鑒黃技術能力升級，可精準快速地進行識別攔截。這對人工智能技術的發(fā)展具有非常重要的意義，讓AI引入知識后并不對原始語義產生曲解，正是訓練智能AI模型需要重點解決的難題。

近日，阿里安全宣布，面對“多人運動”“王者五排”等不斷變異升級的黑話暗語，阿里AI鑒黃技術能力升級，可精準快速地進行識別攔截。這對人工智能技術的發(fā)展具有非常重要的意義，讓AI引入知識后并不對原始語義產生曲解，正是訓練智能AI模型需要重點解決的難題。

涉黃黑話變異升級難識別

在內容安全場景下，黑灰產通常會利用黑話來繞開檢測引擎，比如會出現這種語句“小哥哥，要不要來我們這里多人運動?。俊薄按筇柌Ａн^濾彩珠大水瓶玻璃水壺全套配件到手即用”。

“這對人工智能技術帶來了非常大的挑戰(zhàn)?！卑⒗锇踩呒壦惴▽＜议_陽表示，目前谷歌發(fā)布的BERT自然語言處理模型已經在文本理解領域取得了突破性進展，但在識別上述黑話時仍難以發(fā)揮作用，尚不能撕掉黑話的“偽裝”，辨別其指代“色情、毒品”的本來含義。

對此，開陽解釋，技術和預訓練語言模型有一定局限性，經過大量公開語料進行學習訓練后，模型能理解字、詞、句之間的語義關系，比如判斷“足球”跟“多人運動”屬于同類話題；“水壺”“器皿”和“燒水”屬于同類話題。

???“‘多人運動’等黑話通常背后由某個特定事件造成，這些事件比較隨機，也無規(guī)律可循。”開陽介紹稱，這樣的語料難以積累，加上占比極低，建立預訓練模型變得不太容易。

AI技術升級可理解文字語義

那么，鑒黃機器人能否接收到“多人運動”黑話背后的事件信息，從而給出更精準的判斷？

開陽稱，阿里新一代安全架構核心AI技術可以做到這一點。他介紹，如果過去的鑒黃AI只停留在識別直觀的“圖片、字符串、語音”這些表層信息上，升級之后的鑒黃AI則可以理解字符串背后的深意。如果看到“小哥哥，要不要來我們這里多人運動??？”這樣的語句，AI經智能分析后可識別出這是一條色情信息。

“升級后的AI鑒黃師增加了基于知識圖譜的識別黑話的能力，將人工經驗知識引入，讓機器智能與人工經驗更好地結合，大大提升了文本理解與語義識別的能力?！遍_陽介紹，這也是技術升級后的最大亮點，只需要把新的黑話知識添加到知識圖譜中就可生效，發(fā)現輿情事件導致的變異時間可能在小時級，但識別只需幾十毫秒。

簡單而言，就是以熱點事件為中心，圍繞事件本身，將相關聯的人物、事件、特定的詞語繪成一張關聯圖譜。以“多人運動”為例，將出軌事件新聞作為核心，關聯該事件的男女主角、事件引發(fā)的熱詞“多人運動”“王者五排”“群P”等。

?以羅XX事件為例打造的關聯圖譜

由于升級后的技術可識別更隱晦、內涵的風險內容，AI技術除在鑒黃領域大有可為外，還能大大提升與其他黑灰產變異升級的對抗能力?！拔覀兊哪Ｐ湍茚槍π率录焖俑兄谑录l(fā)掘新關聯詞，并構建知識，及時為新風險識別提供能力?！遍_陽說。