人工智能的重要組成部分 智能語音應(yīng)用場(chǎng)景廣闊
智能語音是人工智能技術(shù)的重要組成部分,包括語音識(shí)別、語義理解、自然語言處理、語音交互等。
當(dāng)前,人工智能的關(guān)鍵技術(shù)均以實(shí)現(xiàn)感知智能和認(rèn)知智能為目標(biāo)。語音識(shí)別、圖像識(shí)別和機(jī)器人視覺、生物識(shí)別等目前最火熱的領(lǐng)域,主要解決的是感知智能的需求,就是使得人工智能能夠感知周圍的世界,能夠“聽見”或者“看到”。
自然語言理解、智能會(huì)話、智能決策、人機(jī)交互等技術(shù)更加側(cè)重的是認(rèn)知智能的領(lǐng)域,解決“聽懂”、“看懂”,并且根據(jù)學(xué)習(xí)到的知識(shí)對(duì)人類的要求或者周圍的環(huán)境做出反應(yīng)的能力。
在關(guān)鍵技術(shù)層中,語音識(shí)別、自然語義理解(Nature Language Process, NLP)、機(jī)器學(xué)習(xí)領(lǐng)域的關(guān)鍵技術(shù)在人工智能技術(shù)當(dāng)中居于重要地位,是人機(jī)交互技術(shù)的基礎(chǔ)。
圖表 1 語音交互流程圖
智能語音應(yīng)用場(chǎng)景廣闊,市場(chǎng)規(guī)模始終保持高速增長(zhǎng)
智能語音技術(shù)在經(jīng)濟(jì)社會(huì)中應(yīng)用場(chǎng)景持續(xù)擴(kuò)展,目前已被廣泛應(yīng)用于教育、醫(yī)療、客服、個(gè)人語音助手等行業(yè)市場(chǎng)和個(gè)人用戶等領(lǐng)域。中國(guó)智能語音市場(chǎng)已形成了包括上游的基礎(chǔ)設(shè)施制造(芯片、傳感器、算力)、中游的技術(shù)實(shí)現(xiàn)(語音合成、語音識(shí)別、語義理解等)以及下游的眾多應(yīng)用服務(wù)(家居、客服、教育等)的完整產(chǎn)業(yè)鏈結(jié)構(gòu)。
智能語音技術(shù)在整個(gè)產(chǎn)業(yè)鏈中起到了承接的作用,將人工智能的技術(shù)低層產(chǎn)業(yè)化,并在智能家居、可穿戴設(shè)備、機(jī)器人等行業(yè)落地,是整個(gè)人工智能產(chǎn)業(yè)鏈中的關(guān)鍵一環(huán)。
圖表 2 智能語音行業(yè)產(chǎn)業(yè)鏈
根據(jù)中國(guó)信息通信研究院的數(shù)據(jù)顯示,2018年中國(guó)人工智能市場(chǎng)規(guī)模達(dá)230億元,智能語音所占市場(chǎng)份額為22%,約50.4億元。
在整個(gè)人工智能產(chǎn)業(yè)中,智能語音產(chǎn)業(yè)化程度相對(duì)成熟,是所占份額比例較大的細(xì)分領(lǐng)域,由2014年的8.5億元人民幣發(fā)展至2018年的50.4億元人民幣,整個(gè)行業(yè)始終保持著高速發(fā)展,并將在未來持續(xù)保持下去。預(yù)計(jì)到2023年,智能語音行業(yè)市場(chǎng)規(guī)模將突破100億元人民幣。
圖表 3 2014-2018年中國(guó)智能語音行業(yè)市場(chǎng)規(guī)模及增速(單位:億元)
智能語音技術(shù)以其廣闊的產(chǎn)業(yè)化應(yīng)用席卷人們?nèi)粘I詈凸ぷ鞯姆椒矫婷?,其產(chǎn)業(yè)規(guī)模的大幅提升主要源于兩方面的驅(qū)動(dòng)支持。第一,大數(shù)據(jù)、云計(jì)算等技術(shù)的快速發(fā)展使得智能語音技術(shù)的應(yīng)用不斷成熟,能夠滿足政府、金融、家電、汽車等多領(lǐng)域垂直行業(yè)的應(yīng)用需求。
第二,各國(guó)政府、相關(guān)行業(yè)及資本都持續(xù)關(guān)注智能語音技術(shù)的研發(fā)和產(chǎn)業(yè)化。作為戰(zhàn)略性和前瞻性的重要新興產(chǎn)業(yè),語音交互技術(shù)始終是世界各國(guó)科學(xué)界和投資界的關(guān)注焦點(diǎn),各國(guó)都力爭(zhēng)率先取得關(guān)鍵技術(shù)突破,占據(jù)產(chǎn)業(yè)先機(jī)位置,以取得智能語音產(chǎn)業(yè)的領(lǐng)導(dǎo)權(quán)。中國(guó)、美國(guó)、歐洲、日本等國(guó)政府均專門立項(xiàng)予以重點(diǎn)扶持,并投入重金設(shè)立專項(xiàng)計(jì)劃。
圖表 4 多方驅(qū)動(dòng)智能語音產(chǎn)業(yè)規(guī)模升級(jí)
相比西方國(guó)家,語音識(shí)別技術(shù)和自然語言處理技術(shù)在中國(guó)的發(fā)展尤其迅猛,很大程度上是由自身的獨(dú)特因素所導(dǎo)致。如用戶規(guī)模較大,以及中文難以手寫等。
(1)用戶群體龐大:作為人口大國(guó),中國(guó)有著更大的用戶基數(shù),且人均資源少,可用機(jī)器替代的崗位數(shù)量多于其余國(guó)家,有著廣闊的增長(zhǎng)空間。如在客服領(lǐng)域,在中國(guó)每個(gè)客服需要處理的業(yè)務(wù)數(shù)量遠(yuǎn)大于西方國(guó)家,智能語音識(shí)別技術(shù)能夠很好地解決類似問題。
(2)中文難以手寫:與其他語系的文字相比,中文的手寫較為繁瑣,語音相比打字是一種更為自然的輸入方式。且漢語句法和語法相對(duì)簡(jiǎn)單,沒有虛擬語氣和條件語句,降低了語音識(shí)別的難度。
中國(guó)智能語音行業(yè)發(fā)展現(xiàn)狀:市場(chǎng)集中度高,參與者不斷涌入
隨著人工智能和語音交互等概念的日益火熱,國(guó)內(nèi)各類企業(yè)紛紛涌入智能語音市場(chǎng),以產(chǎn)業(yè)內(nèi)合作的方式,將語音技術(shù)植入產(chǎn)品或應(yīng)用于相關(guān)業(yè)務(wù)場(chǎng)景,開放語音生態(tài)系統(tǒng),構(gòu)建全產(chǎn)業(yè)生態(tài)鏈。以企業(yè)性質(zhì)作為劃分標(biāo)準(zhǔn),中國(guó)智能語音行業(yè)的參與企業(yè)可分為以下四類:
(1)行業(yè)經(jīng)驗(yàn)豐富的專業(yè)語音公司。在深度學(xué)習(xí)算法大規(guī)模應(yīng)用前,就已開始從事這個(gè)領(lǐng)域的專業(yè)語音公司,如科大訊飛和小i機(jī)器人,專注在垂直領(lǐng)域并深耕多年,具備豐富的行業(yè)知識(shí)。
(2)AI初創(chuàng)公司。如思必馳、云知聲、出門問問,此類公司主要關(guān)注多用途的云平臺(tái)和某些特定的垂直領(lǐng)域,如智能汽車或智能家居,并集中研發(fā)智能語音技術(shù)在這些領(lǐng)域的應(yīng)用。
(3)中國(guó)本土互聯(lián)網(wǎng)公司。如百度、阿里、騰訊等為代表,主要推出移動(dòng)端消費(fèi)者語音產(chǎn)品。所使用的多用途云平臺(tái)源自其自身的核心產(chǎn)品,如騰訊的微信。
(4)海外互聯(lián)網(wǎng)公司。如亞馬遜、蘋果、Nuance等,近年來通過并購(gòu)等手段,夯實(shí)核心技術(shù),開放應(yīng)用平臺(tái),擴(kuò)展以AI為核心的生態(tài)系統(tǒng)。如亞馬遜公布的開源深度學(xué)習(xí)和機(jī)器學(xué)習(xí)工具DSSTNE,微軟的開源AI平臺(tái)Project Malmo等。
主要參與廠商:在全球市場(chǎng)方面,2018年全球智能語音行業(yè)市值超過150億美元,Nuance、谷歌、蘋果、微軟和科大訊飛作為排名前五的廠商,市場(chǎng)份額合計(jì)占比超過80%。
在中國(guó)智能語音市場(chǎng),科大訊飛以44%的市占率高居榜首,2018年,中國(guó)智能語音市場(chǎng)排名前五的廠商是科大訊飛、百度、蘋果、Nuance和小i機(jī)器人,合計(jì)占據(jù)了85%的市場(chǎng)份額,行業(yè)整體呈現(xiàn)高集中度。
圖表 5 2018年全球智能語音行業(yè)市場(chǎng)份額(左)2018年中國(guó)智能語音行業(yè)市場(chǎng)份額(右)
競(jìng)爭(zhēng)格局:馬太效應(yīng)凸顯,頭部企業(yè)壟斷市場(chǎng)
智能語音行業(yè)作為技術(shù)先導(dǎo)型的新興行業(yè),具有顯著的馬太效應(yīng)與較高的行業(yè)壁壘。行業(yè)發(fā)展初期,技術(shù)領(lǐng)先型企業(yè)占據(jù)市場(chǎng)先機(jī)后,會(huì)通過數(shù)據(jù)與資源的積累在后繼競(jìng)爭(zhēng)中占據(jù)更大的競(jìng)爭(zhēng)優(yōu)勢(shì),導(dǎo)致后來者短期內(nèi)難以趕超的局面。
圖表 6 智能語音行業(yè)主要壁壘
由于行業(yè)壁壘高且具有馬太效應(yīng),在中國(guó)范圍內(nèi)看來,僅有少數(shù)廠商在智能語音市場(chǎng)具備較強(qiáng)競(jìng)爭(zhēng)力。一類是傳統(tǒng)語音技術(shù)廠商,如科大訊飛,擁有長(zhǎng)期技術(shù)和用戶積累。另一類是以BAT為代表的IT巨頭,憑借在互聯(lián)網(wǎng)端的優(yōu)勢(shì)迅速搶占了語音信息流入口。
2010年后,各大IT巨頭紛紛通過自主研發(fā)或并購(gòu)/參股的方式深入布局智能語音產(chǎn)業(yè),不采用傳統(tǒng)的技術(shù)授權(quán)、技術(shù)解決方案提供、技術(shù)維護(hù)等業(yè)務(wù)模式,推動(dòng)技術(shù)免費(fèi)、增值服務(wù)收費(fèi)成為新型商業(yè)模式,打破了以科大訊飛等為代表的傳統(tǒng)語音技術(shù)廠商一家獨(dú)大的局面,并不斷對(duì)消費(fèi)者的交互習(xí)慣產(chǎn)生影響。
另一方面,隨著深度學(xué)習(xí)的引入和發(fā)展,智能語音的算法紅利正逐漸消失,自2010年深度學(xué)習(xí)首次引入語音識(shí)別后,配合計(jì)算能力的提升和海量語音語料數(shù)據(jù)的積累,識(shí)別準(zhǔn)確率得到大幅提升??萍季揞^對(duì)于深度學(xué)習(xí)算法及機(jī)器學(xué)習(xí)框架的開源使得智能語音技術(shù)的調(diào)用變得更為簡(jiǎn)單,模塊化的設(shè)計(jì)顯著降低了應(yīng)用部署和實(shí)施的門檻,在此大環(huán)境下,智能語音產(chǎn)業(yè)由一家獨(dú)大演變?yōu)槎喾礁?jìng)爭(zhēng)的格局。