語音識別技術(shù)帶你感受不一樣的語音交互
(文章來源:百度智能云)
萬物互聯(lián)的時代,語音識別被視為人機交互的新入口,人與機器通過自然語言交互成為可能。近年來,語音識別在智能終端、智能家居等領(lǐng)域的運用也日漸深入。然而,如何讓機器更好地“聽懂”人類語言,更快速地進行交互,一直是各家攻堅克難的技術(shù)高地。百度智能云支持下的明星產(chǎn)品——語音識別極速版,很好地解決了這些難題。
百度輸入法探索版發(fā)布會上,首次發(fā)布了領(lǐng)先國際的語音技術(shù):在線語音領(lǐng)域全球首創(chuàng)的流式多級截斷注意力模型SMLTA「Streaming trancated multi-layer attenTIon」,這是首次在大規(guī)模語音識別工業(yè)界采用注意力模型,在百度輸入法產(chǎn)品發(fā)布后,驚艷的語音輸入體驗得到了業(yè)界的一致好評。
基于以上成果,百度智能云持續(xù)進行更多創(chuàng)新,提升識別率的同時又大幅優(yōu)化解碼速度。百度智能云語音方向首次將這一系列技術(shù)創(chuàng)新整合為語音能力對外開放——“語音識別極速版”,擁有更快的響應(yīng)速度,相對識別準確度提升15%,為開發(fā)者帶來更極致的識別體驗。
語音識別極速版在API調(diào)用方式下,實時率小于0.1,意味著5s的音頻不到500ms即可完成識別過程,極大減少了識別音頻所需時間,提升了語音交互的響應(yīng)體驗。在近距離安靜環(huán)境下,識別準確率可達到98%,同時支持略帶口音、童聲、耳語的識別,使語音識別應(yīng)用更加廣泛。
百度智能云ABC智能語音技術(shù),致力于不斷為開發(fā)者提供業(yè)界優(yōu)質(zhì)的語音服務(wù):高精準語音識別,1米內(nèi)普通話識別率為98%;支持中文、英文識別。高精度語音喚醒,安靜喚醒精度100%;ACE打斷喚醒精度97%。智能意圖理解,包含200+個垂類;50+場景。
流暢自然的語音合成,中英混讀;提供多音色發(fā)音人,支持語速、音調(diào)設(shè)置。這次推出的語音識別極速版擁有專有的GPU服務(wù)集群,可以提供99.99%企業(yè)級穩(wěn)定保障服務(wù)。未來,多平臺的SDK也即將推出,使APP、服務(wù)器端也可應(yīng)用這一領(lǐng)先技術(shù)。