引言
在過去的半個月中,國內人工智能領域的融資消息幾乎被AI語音交互搶占,智能語音交互系統研發(fā)商蛙聲科技獲得天使輪融資,遠望資本投資;圖靈機器人完成3.5億元B+輪融資,投資方為中一資本、前海梧桐并購基金;語音技術提供商思必馳宣布完成D輪5億元融資,由元禾控股、中國民生投資集團領投,深創(chuàng)投、富士康、聯發(fā)科跟投。這是否意味著繼亞馬遜、谷歌、蘋果等國際科技巨頭在AI語音交互戰(zhàn)略熱潮后,國內以中文為基礎的AI語音交互產業(yè)的風口已經到來?
一、智能語音技術成果顯著,商業(yè)化落地初具規(guī)模、市場潛力如何?
AI語音交互技術的落地需要有扎實的語音識別技術、強大的語言處理能力及準確的數據支撐。搭載了語音交互系統的智能硬件,便是物聯網時代呈現,而智能硬件生態(tài)圈的布局也是實現場景化應用的重要因素。
繼Siri、 GoogleNow、Cortana及Alexa的智能語音逐步達到成熟的應用階段后,智能語音正在以最自然的交互方式潛移默化地改變著我們的生活。
隨著AI技術的不斷深入,智能語音的應用范圍也在不斷拓展。無論是教育、醫(yī)療、客服、電信等傳統行業(yè),還是智能家居、移動互聯網、汽車電子終端、智能機器人、智能客服等新興領域,智能語音早已成為百搭標配,語音功能也幾乎成為了“智能”的代名詞。在巨大的潛在市場面前,國內企業(yè)諸如科大訊飛、思必馳、云知聲、捷通華聲、百度等公司在智能家居、智能車載、智能可穿戴等領域都已積極入局。
二、AI加持下的語音交互技術現有水平到底怎樣?
在智能語音進階的過程中,“先讓機器聽到、聽懂、反饋,再讓機器思考、溝通、決策”是諸多智能語音企業(yè)的愿景,而技術實力則是實現該愿景的第一話語權。
方象知產研究院基于AI語音交互技術現有水平進行分析歸納總結(見表一),對表中的關鍵核心技術進行分析發(fā)現,就技術通路而言,AI語音交互技術囊括了一條完整的人工智能路徑。一套完整的AI語音交互系統需要不同層次的技術支撐,除了需要具備AI大腦感知、AI大腦認知及AI大腦決策三個層面,還要具備語音識別、自然語言處理及語音合成三大模塊,其中蘊含著語音識別(ASR)、語義理解(NLU)、自然語言生成(NLG)及語音合成(TTS)四項關鍵核心技術。
表一:AI語音交互技術現狀解析
據統計,語音識別技術、自然語言處理技術及語音合成技術的全球專利申請量呈逐年上升趨勢。2017年各項技術的全球申請量分別約為400項、130項及22項,其中申請主體主要集中在蘋果、微軟、谷歌及百度等公司。在產業(yè)化過程中,感知、認知和智能決策是三個不斷深化發(fā)展的過程,目前AI語音交互技術正在經歷從感知智能、向認知智能的飛躍。
三、技術價值角度解析技術前景、發(fā)展趨勢及投資分散點在哪里?
AI語音交互能夠完成怎樣的獨有任務并體現其價值呢?基于上述分析,方象知產研究院認為,持續(xù)的數據積累與技術升級是AI語音交互未來發(fā)展的趨勢,更加智能與流暢的技術實現、快速便捷地達成指令、隱私安全性的保障等都是尚需突破的技術關鍵點。
AI語音交互需要在具體的應用場景中高效、便捷地解決人機交互需求才能產生價值,合適的語音入口是關鍵。智能音箱、智能電視、家庭機器人、車載場景、可穿戴設備等都有可能成為AI語音交互技術的關鍵應用場景,也會是當前積極布局AI語音交互的科技巨頭們的必爭之地。