當前位置:首頁 > 物聯(lián)網(wǎng) > 智能應(yīng)用
[導(dǎo)讀]內(nèi)容審核對于任何數(shù)字平臺都至關(guān)重要,以確保用戶的信任和安全。盡管人類節(jié)制可以處理某些任務(wù),但隨著平臺規(guī)模,AI驅(qū)動的實時節(jié)制變得至關(guān)重要。機器學習(ML)動力系統(tǒng)可以通過最小的再培訓(xùn)和操作成本進行有效的大規(guī)模調(diào)節(jié)內(nèi)容。本分步指南概述了部署AI驅(qū)動的實時審核系統(tǒng)的方法。

內(nèi)容審核對于任何數(shù)字平臺都至關(guān)重要,以確保用戶的信任和安全。盡管人類節(jié)制可以處理某些任務(wù),但隨著平臺規(guī)模,AI驅(qū)動的實時節(jié)制變得至關(guān)重要。機器學習(ML)動力系統(tǒng)可以通過最小的再培訓(xùn)和操作成本進行有效的大規(guī)模調(diào)節(jié)內(nèi)容。本分步指南概述了部署AI驅(qū)動的實時審核系統(tǒng)的方法。

實時審核系統(tǒng)的屬性

實時內(nèi)容審核系統(tǒng)評估用戶提取的內(nèi)容(文本,圖像,視頻或其他格式),以確保符合平臺策略。有效系統(tǒng)的關(guān)鍵屬性包括:

· 速度:能夠查看內(nèi)容而不降低用戶體驗或引入大量延遲的能力。

· 可伸縮性:能夠及時處理數(shù)千個請求。

· 準確性:最大程度地減少假陽性和假否定性的可靠性。

部署AI內(nèi)容審核系統(tǒng)的逐步指南

步驟1:定義政策

政策是任何內(nèi)容審核系統(tǒng)的基礎(chǔ)。政策定義了將評估內(nèi)容的規(guī)則??赡苡胁煌恼?,例如仇恨言論,預(yù)防欺詐,成人和性內(nèi)容等。這是X(Twitter)定義的政策的一個例子。

這些策略被定義為目標規(guī)則,可以將其存儲為可輕松訪問和評估的配置。

步驟2:數(shù)據(jù)收集和預(yù)處理

一旦定義了政策,我們就需要收集數(shù)據(jù)以作為培訓(xùn)機器學習模型的樣本。該數(shù)據(jù)集應(yīng)包括平臺上預(yù)期的不同類型的內(nèi)容以及符合策略和不合格的示例的良好組合,以避免偏見。

數(shù)據(jù)源:

· 合成數(shù)據(jù)生成:使用生成AI創(chuàng)建數(shù)據(jù)。

· 開源數(shù)據(jù)集:多個數(shù)據(jù)集可在平臺和其他開源網(wǎng)站上在線獲得。選擇適合平臺需求的數(shù)據(jù)集。

· 歷史用戶生成的內(nèi)容:從道德上利用用戶發(fā)布的歷史內(nèi)容。

一旦收集數(shù)據(jù),就需要將其標記為訓(xùn)練有素的人類審稿人,他們對平臺政策有深刻的了解。該標記的數(shù)據(jù)將被視為“黃金集”,可用于訓(xùn)練或微調(diào)ML模型。

在ML模型可以在數(shù)據(jù)上運行并產(chǎn)生結(jié)果之前,必須對數(shù)據(jù)進行處理以效率和兼容性。一些預(yù)處理技術(shù)可能包括:

· 文本數(shù)據(jù):通過刪除停止單詞并將其分解為n-grams,將文本歸一化,具體取決于應(yīng)該如何消耗數(shù)據(jù)。

· 圖像數(shù)據(jù):將圖像標準化到某些分辨率或像素或大小或格式以兼容。

· 視頻:提取不同的幀以將它們作為圖像處理。

· 音頻:使用廣泛可用的NLP模型將音頻轉(zhuǎn)錄到文本中,然后使用文本模型。但是,這種方法可能會錯過任何需要調(diào)節(jié)的非語言內(nèi)容。

步驟3:模型培訓(xùn)和選擇

可以根據(jù)平臺的需求和支持的內(nèi)容類型使用多種模型。需要考慮的一些選項是:

文本

1. 單詞/術(shù)語頻率截止文檔頻率(TF-IDF):有害或政策競爭的單詞可以分配高權(quán)重,即使很少發(fā)生政策,也可以捕獲違反政策的行為。但是,這種方法可能有局限性,因為符合違規(guī)文本的單詞列表將受到限制,并且成熟的演員可以找到漏洞。

2. 變形金剛:這是GPT背后的想法,可以有效地捕捉委婉語或有害文本的微妙形式。一種可能的方法是根據(jù)平臺的政策微調(diào)GPT。

圖像

1. 預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN):這些模型在大型圖像數(shù)據(jù)集上進行了培訓(xùn),可以識別有害內(nèi)容,例如裸體,暴力等。

2. 自定義CNNS:為了提高精度和召回,可以針對特定類別進行微調(diào),并適合平臺的策略需求。

所有這些模型必須針對“黃金數(shù)據(jù)集”進行培訓(xùn)和評估,以在部署前實現(xiàn)所需的性能??梢耘嘤?xùn)模型以生成標簽,然后可以對其進行處理以提供有關(guān)內(nèi)容的決定。

步驟4:部署

一旦模型準備好部署,它們就可以使用某些API來暴露它們,而不同的服務(wù)可以要求實時審核。如果不需要較不緊急任務(wù)的實時審核,則可以設(shè)置批處理處理系統(tǒng)。

步驟5:人類評論

AI/ML系統(tǒng)可能無法自信地決定所有情況??赡軙霈F(xiàn)模棱兩可的決定,而預(yù)測的ML得分可以低于所選的閾值以確保自信決策。在這些情況下,應(yīng)由人類主持人審查內(nèi)容以進行準確的決策。人類審稿人對于審查AI系統(tǒng)做出的虛假積極決定至關(guān)重要。人類審閱者可以使用決策樹(以決策樹的形式編碼的策略)生成類似的標簽,并且這些標簽可用于最終確定決策。

步驟6:標簽處理器

標簽處理器可用于解釋ML系統(tǒng)和人類審閱者生成的標簽,并將其轉(zhuǎn)換為可行的用戶決策。這可能是一個直接的系統(tǒng),將系統(tǒng)生成的字符串映射到人類可讀的字符串。

步驟7:分析和報告

Tableau和Power BI之類的工具可用于跟蹤和可視化適度指標,Apache Airflow可用于生成見解。要監(jiān)視的關(guān)鍵指標包括ML系統(tǒng),人類審查時間,吞吐量和響應(yīng)時間的精確度和召回時間。

結(jié)論

構(gòu)建和部署AI驅(qū)動的實時審核系統(tǒng)可確保數(shù)字平臺的可擴展性和安全性。本指南為平衡速度,準確性和人類監(jiān)督提供了路線圖,以確保內(nèi)容與平臺的政策和價值觀保持一致。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉