當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀] IDC 預計,2019 年全球智能家居設備市場出貨量將達到 8.327 億臺,將同比增長 26.9%。蛋糕之大讓業(yè)界一片歡騰,尤其是進入門檻較低的語音識別應用市場,吸引了眾多 AI 創(chuàng)業(yè)公司的目

IDC 預計,2019 年全球智能家居設備市場出貨量將達到 8.327 億臺,將同比增長 26.9%。蛋糕之大讓業(yè)界一片歡騰,尤其是進入門檻較低的語音識別應用市場,吸引了眾多 AI 創(chuàng)業(yè)公司的目光,市面上出現(xiàn)了多款針對語音識別的 AI 芯片,其中不乏思必馳、云之聲等算法廠商,還有出門問問、若琪等終端廠商,語音 AI 芯片市場的競爭變得異常激烈。

近期,探境科技也推出了具有 AI 雙麥降噪功能的語音識別方案,即 Voitist 音旋風 612??赡芎芏嗳藢μ骄晨萍疾⒉皇鞘煜ぃ鋵嵾@并不是一家新的 AI 公司,而是在 2017 年就已經成立,只是公司初期在埋頭研發(fā),因此很少出現(xiàn)在公眾的視野中。據(jù)其技術副總裁李同治介紹,“公司創(chuàng)始人魯勇曾經在全球著名半導體公司 Marvell 擔任研發(fā)高管,研發(fā)團隊有著給蘋果、三星、希捷、西數(shù)、特斯拉等國際頂級公司量產芯片供貨的經驗,公司的目標是為客戶提供終端人工智能芯片及整體解決方案。如今,公司在北京、上海、深圳、杭州、合肥及美國硅谷都設立了研發(fā)基地,目前公司員工近 200 人,其中技術研發(fā)人員 150 人,平均研發(fā)經驗在 15 年以上?!?/p>

在今年的 7 月份,探境科技就推出了首款 AI 語音識別芯片音旋風 611,并且已經量產,李同治介紹,“音旋風 611 支持多達 200 條命令詞,能夠覆蓋家庭生活場景中幾乎所有常見的語音控制命令;在識別率方面,不低于 99%的喚醒率,超過 97%的識別率,以及低于 24 小時 1 次的誤喚醒率。適用于各種需要語音進行控制的應用場景,芯片內嵌領先的 NPU 架構,配合單麥克風即可實現(xiàn) 5-10m 遠距離的語音識別,識別延遲小于 0.2 秒,不需要依賴云和網絡,可在本地完成推理運算,音旋風 612 是 611 的升級版?!?/p>

AI 公司以技術取勝才能走得更遠,探境科技能夠推出這樣的產品也全依賴于技術驅動。AI 應用需要軟件和硬件共同實現(xiàn),市面上的很多公司要么單獨做算法,要么單獨做硬件,這就容易出現(xiàn)軟件和硬件匹配困難的問題,探境科技是在軟件和硬件兩方面同時研發(fā),從而實現(xiàn)軟硬件融合,包括芯片設計、結構框架、系統(tǒng)、算法等全部自主研發(fā)。在發(fā)布會上,探境科技負責人從硬件方面介紹了公司的獨特技術存儲優(yōu)先架構,從軟件方面分析了公司的三大黑科技。

“殺手锏”:存儲優(yōu)先架構

傳統(tǒng)的處理器一般都采用馮·諾伊曼體系結構,計算單元和存儲單元相互獨立,每次運算計算單元將數(shù)據(jù)從存儲單元中提取出來,處理完成后再寫回存儲單元中。近年來,處理器性能飛速提升,但是訪問存儲器的速度并沒有相應的提升,所以訪問存儲器的速度無法跟上處理器消耗數(shù)據(jù)的速度,導致處理器的計算性能無法充分發(fā)揮出來,這就出現(xiàn)“存儲墻”問題。

為了解決“存儲墻”問題,探境科技推出了存儲優(yōu)先架構(即SFA架構),這是一種不同的技術路線。探境科技創(chuàng)始人魯勇解釋,所有深度學習算法和 AI 芯片都面臨一個問題,它們并不是要做卷積運算的乘法或加法,這并不是最難解決的問題,難點是在于有很多數(shù)據(jù)在重復使用,數(shù)據(jù)在存儲器里的位置、相對關系、讀取的性能會影響到算法運行的性能。而且數(shù)據(jù)的存儲帶寬要求很大,存儲功耗很高。傳統(tǒng)上的解決方式不考慮存儲墻的問題,暴力增加存儲單元,成本很高。我們用一種獨特的芯片架構來推翻馮諾依曼體系架構,把數(shù)據(jù)讀取的次數(shù)降低,降低數(shù)據(jù)的冗余,從而降低帶寬的需求,通過算法和調度數(shù)據(jù)的方式,改進數(shù)據(jù)管理,在硬件上控制數(shù)據(jù)流,降低數(shù)據(jù)重復使用,通過軟件和硬件結合,在芯片上降低資源的鏈接復雜度,這種架構我們稱為存儲優(yōu)先架構,其實我們改善的是芯片本身的原因?!?/p>

從效果來看,魯勇強調,“這種方法可以帶來超高的能效比,數(shù)據(jù)訪問可降低 10-100 倍,存儲子系統(tǒng)功耗下降 10 倍以上,28nm 工藝系統(tǒng)能效超過 4T Ops/W。”

魯勇將 SFA 架構稱為真正符合商業(yè)應用的 AI 芯片架構,因為其采用成熟的設計方案,無需對底層器件進行修改設計,可以走商業(yè)化路徑;通用性高,芯片面向的場景眾多,必須支持多種算法才可以被商業(yè)化;同時易用性高,用戶學習成本低,模型移植簡單。

需要指出的是,一般 AI 芯片只針對某一神經網絡進行運算,SFA 架構支持任何神經網絡,而且可以調整參數(shù)。

存儲優(yōu)先算法既然如此高效,為什么其它 AI 公司沒有開發(fā)?魯勇的解釋是,這是一項有技術門檻的技術,不僅在技術上需要要懂數(shù)學原理、架構、數(shù)據(jù)管理知識,同時需要有豐富的芯片設計經驗,綜合起來才能做到高效率,這些都是探境科技所具備的。

如果說存儲優(yōu)先架構是探境科技在硬件上實現(xiàn)的優(yōu)化,軟件上又做了哪些工作?李同治向我們做了詳細介紹。

三大“黑科技”加身,出貨量過百萬

李同治將探境科技在軟件上的創(chuàng)新歸結為三大“黑科技”,分別是 AI 降噪算法、高計算強度神經網絡 HONN、基于 FCSP 的端到端 AI 雙麥算法。

黑科技之一:AI降噪算法

目前在智能家居應用中,語音識別面臨環(huán)境噪雜或者距離遠,從而導致識別不清的難題,智能家居設備廠家急需一種能夠準確過濾噪音,并提取目標聲源的方案。

在語音識別技術中,信噪比是衡量識別的目標聲源與其它干擾聲源強度比值的對數(shù)。一般將信噪比低于 15dB 的稱為噪聲環(huán)境。信噪比越低,識別難度越大。在語音識別的研發(fā)過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環(huán)節(jié)。想做好識別,首先要在降噪處理上下功夫。

探境科技自研了 AI 降噪算法基于深度學習,不僅能夠處理穩(wěn)態(tài)的噪聲,非穩(wěn)態(tài)的突發(fā)性噪聲也能快速過濾。為了驗證探境 AI 降噪算法的有效性,技術人員將一批信噪比在 3dB 左右的語音數(shù)據(jù)送到一個知名的云端公開語音識別引擎做了測試,降噪后比降噪前提高 30%識別準確率。

黑科技之二:高計算強度神經網絡HONN

在對聲音進行降噪處理之后,就進入到了語音識別環(huán)節(jié)。在這一環(huán)節(jié)中,神經網絡模型所需的算力決定了模型的描述能力,同時也決定了模型處理能力和識別率的上限。在傳統(tǒng)的語音識別算法里,國內很多語音識別芯片都采用了全連接操作 DNN 技術。但是相對全連接操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模塊的處理方法類似,能夠提取滿足大腦認知的本質特征。

探境將其計算機視覺中的一些經驗遷移到語音識別中,在語音識別算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經網絡,即 HONN(High OperaTIon Neural Network)。

李同治解釋,“對比發(fā)現(xiàn),HONN 僅需要 350k 的存儲空間,而 DNN 需要 1.6M 的存儲空間,更低的存儲需求意味著成本更低。同時 DNN 與 HONN 所需的算力相反,處理高強度模型單幀時,HONN 需要超過幾百兆 OPS,而一般的 DNN 模型僅為個位數(shù)的算力,兩者相差超過 30 倍。對于神經網絡來說,模型所需的算力決定了模型識別率的上限。相對安靜的環(huán)境下兩者之間差別不大,但是當信噪比進一步降低時,基于 HONN 的方法識別優(yōu)勢非常明顯?!?/p>

在實際測試中,在抽油煙機的噪音中(大約 70 分貝),HONN 方式下的識別信噪比約為 3~5dB,單燈模型的識別效果非常準確。

黑科技之三:基于FCSP的端到端AI雙麥算法

信噪比還有一種更嚴苛的情況,就是 0dB 和負 dB,0dB 意味著噪聲和信號強度一樣,甚至噪聲比語音信號還要強,面對這種應用場景,探境科技采用了基于 FCSP 的端到端 AI 雙麥算法。

傳統(tǒng)的麥克風陣列處理算法有幾大缺點,從而造成處理效果并不理想。“為了克服傳統(tǒng)處理方式的缺點,我們設計出了基于 FCSP 的端到端 AI 雙麥算法。”李同治對記者表示“FCSP(Frequency Complex Subspace ProjecTIon)是我們自研的頻域復數(shù)子空間投影算法的簡稱,這個算法直接輸入陣列信號,輸出的是最終的識別結果,中間部分全部交給基于深度學習的 AI 算法來處理,不再使用傳統(tǒng)的數(shù)字信號處理方法。信號增強與識別模塊整體以降低識別錯誤率為目標進行優(yōu)化,避免了語音增強與語音識別模塊錯配的問題?!?/p>

另外,在模型訓練期間,采取了“注意力增強”的學習方法,能夠靈敏的檢測到喚醒詞和命令詞,即使干擾信號與目標信號方向接近,也能靈敏的進行喚醒和識別。李同治做了一個形象的比喻,“這個類似于在一個嘈雜的環(huán)境里面,如果有人喊自己的名字,一下子就能反應過來?!?/p>

李同治強調,“我們采取了頻域復數(shù)子空間投影,抗噪性能強,在信噪比為 0dB 時,相對于傳統(tǒng)的處理算法,相對識別錯誤率降低超過 20%?!?/p>

通過 AI 語音算法+HONN 神經網絡模型來提升識別率,再通過 FCSP“端到端”的雙麥處理算法簡化識別流程,降低最終識別錯誤率,探境的語音算法實現(xiàn)了跨越式的升級,加上通過存儲優(yōu)先架構打造的 AI 芯片,探境科技可以為客戶提供芯片、算法俱全的 Turn-key 方案。

除了支持 AI 雙麥的 VoiTIst 音旋風 612 之外,還包括在離線一體的 VoiTIst 音旋風 621、以及語音芯片的旗艦產品——可支持本地 NLP 的音旋風 7 系列。探境目前擁有約 30 家合作伙伴,既有美的、海爾等智能家居制造大廠,也有世強科技在垂直領域頗具影響力的渠道商,知名智能家居制造商阿凡達智控也剛剛與探境達成合作,目前,探境科技的產品出貨量已達百萬級別。

未來規(guī)劃:從語音到圖像,離線在線一體方案已在路上

近兩年,邊緣計算大熱,隨著數(shù)據(jù)量不斷增大,云端的承載壓力越來越大,因此終端客戶尋求在邊緣完成部分數(shù)據(jù)處理,從而分擔云端的壓力。尤其在 AI 領域,未來對延遲和帶寬提出更苛刻的要求,探境科技也認為,真正的人工智能應用場景,是不需要借助云端服務等做遠程支持的,只有將人工智能做到終端上來,讓每個設備都具備人工智能,才是現(xiàn)階段“人工智能”的進化。

目前廠商多采用在線方案,就是打一個數(shù)據(jù)包放到云端,而離線方案是語音識別算法在本地,音樂等播放內容還是放在云端。據(jù)魯勇透露,未來探境還會將語音產品進行二次升級,推出更多在線離線一體化方案。探境科技采用 HONN 神經網絡模型,意味著處理模型變小,放在邊緣的存儲容量變小,成本也隨之降低。關于用戶對在線方案和離在線一起方案的選擇,魯勇表示,離線在線一體方案和在線方案兩種會共存,畢竟用戶的想法不同,選擇也不同。

關于產品規(guī)劃,魯勇還表示,“探境不僅僅是一個語音芯片公司,而是一家語音、圖像整體結合的 AI 芯片公司。除了語言市場之外,我們還看好工業(yè)視覺、新零售、安防、輔助駕駛等市場。我們的圖像芯片在 2019 年 Q4 就已經流片成功,在某些應用中已經開始產生營收。AI 芯片的蛋糕非常大,探境希望可以聯(lián)合上下游一起,開發(fā)生態(tài),開放 SDK 和工具鏈,不僅是大家可以直接使用我們的產品,我們也希望有大量的合作伙伴,完成更多的場景開發(fā)。”

魯勇認為,AI 芯片這一領域不像手機 APP 那樣,瞬間可以憑一款應用獲得數(shù)百萬的用戶,AI 芯片更像馬拉松長跑,比的是耐力,而不是沖刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。探境作為創(chuàng)業(yè)公司,雖然進入市場比較晚,但是這也是一個拐點期,市場教育工作已經完成,后面市場競爭還是看核心技術,我們的優(yōu)勢在于軟件和硬件都自主研發(fā),因此算法移植非???,我們將從智能家居領域開始,先打好地基,再逐漸加碼,等待市場大潮的到來。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉