人工智能的起源是在1956年Dart Month會議上,是一種能夠和人一樣進行感知、人質、決策、執(zhí)行的人工程序,如今人工智能正在成為時代的趨勢,逐漸進入真正爆發(fā)的前夜。目前在計算智能和感知智能方面AI都已經趕上甚至超過人類,Alphago戰(zhàn)勝李世石就是一個很好的例子,而認知智能則是當下人工智能的重點挑戰(zhàn)。
為此,科大訊飛在3月30號在深圳阿基米互聯網公社舉辦“訊飛核心技術開發(fā)日——麥入云端,引領智能交互新主義”沙龍活動,分享了對人工智能的理解和為此而做出的努力,并帶來了完整的智能硬件語音交互解決方案和開放平臺核心交互技術。
圖:科大訊飛開放平臺副總經理馬漢君
科大訊飛開放平臺副總經理馬漢君表示,人工智能分成三個階段,分別是計算智能、感知智能以及認知智能。目前計算智能已經超過了人類的一種模式,從最開始的原子彈的計算已經代表了計算的能力;感知智能,機器人正在快速的接近人類,美國在研究機器狗、谷歌無人汽車也證明這點;認知智能,這才是當前人工智能的挑戰(zhàn),就是如何讓機器對知識的一種學習和理解。
同時指出,在去年訊飛發(fā)布了AIUI,這是一個為智能硬件量身定制的智能交互方案,重新定義了萬物互聯時代人機語音交互標準,具備了遠場降噪、方言識別、語音糾錯、多輪對話等功能,通過統(tǒng)一接口、開放的服務擴展、靈活的能力搭配實現人機交互與產品體驗的結合??拼笥嶏w希望和合作伙伴一起,用人工智能改變世界。
圖:科大訊飛云平臺事業(yè)部產品經理張良春
在人工智能領域,科大訊飛帶來打破遠場語音交互瓶頸的最新利器——環(huán)形五麥克風陣列??拼笥嶏w云平臺事業(yè)部產品經理張良春表示,五麥麥克風陣列是常說的四加一環(huán)形,在這種范圍內是在人聲識別有非常好的要求,其遠場拾音距離可達5米、支持360全平面拾音角度、支持連續(xù)喚醒、回聲消除、語音打斷。
4+1環(huán)形五麥克風陣列產品模式
張良春指出,使用科大訊飛的麥克風陣列模塊可以幫助開發(fā)者迅速開發(fā)產品,大大節(jié)省產品開發(fā)周期,也提供包括單麥、雙麥、四麥線性、環(huán)形五麥和環(huán)形七麥等軟核方案,特別是環(huán)形七麥方案支持7米拾音距離、360°聲源定位、±10°聲源定位精度,陣列錄入的音頻信噪比更高。同時,硬件方案搭配科大訊飛開放平臺的語音喚醒閉環(huán)優(yōu)化服務、語音識別、語義理解深度定制、身份鑒別、自然語音合成等功能,可以讓開發(fā)者的產品如同黑暗中的螢火蟲那么鮮明和出眾。
這個是五麥克風陣列的一些產品模式,主要是把語音數據變控,以及音頻處理都放在一個硬件上。有五個麥克風同時收錄了5個音頻,同時送入硬件模塊中,可以對信息進行處理,機器也需要給它供電。張良春談到,這個模塊的優(yōu)點就是快速集成,可以快速的形成產品,就一個字快,在正常的條件下有優(yōu)點,也有一些不足之處。它的不足之處肯定就是成本有點偏高,只適合小批量的開發(fā)來使用。
在五麥克風陣列軟核的方案上,有兩個方面值得重視。一個是音頻收集,由音頻收集到音頻匯聚到處理,每個結點訊飛都會為提供相應產品,幫助用戶來更好的集成軟件;另一個是音頻匯聚,基本上音頻處理的CPO或者IPO在處理音頻只能處理移動云,還需要有一個音頻匯聚的電路進行處理。