當(dāng)前位置:首頁 > 芯聞號(hào) > 廠商文章
[導(dǎo)讀]遠(yuǎn)場語音識(shí)別套件之開箱很榮幸,在2019年我依舊在百度AI平臺(tái)下茁壯成長,這次收到了來自百度的測試邀請,我將有機(jī)會(huì)拿到最新的前沿產(chǎn)品~為各位獻(xiàn)上來自前線的戰(zhàn)況~我在過去和百度語音打交道的這些日子,曾遇到過很多問題

遠(yuǎn)場語音識(shí)別套件之開箱

很榮幸,在2019年我依舊在百度AI平臺(tái)下茁壯成長,這次收到了來自百度的測試邀請,我將有機(jī)會(huì)拿到最新的前沿產(chǎn)品~為各位獻(xiàn)上來自前線的戰(zhàn)況~

我在過去和百度語音打交道的這些日子,曾遇到過很多問題,比如識(shí)別慢、精度差。自身原因和設(shè)備原因太多,舉步艱難。我覺得一個(gè)非音頻內(nèi)行的人很難進(jìn)一步提升在這一塊的性能與質(zhì)量。

但現(xiàn)在,百度語音正不斷地完善,已經(jīng)推出多種我非常適用的新東西,例如:

上個(gè)月剛上線的 百度語音識(shí)別極速版

該項(xiàng)能力經(jīng)我自己特定樣本測試,可以提高識(shí)別速度約3~9倍,在上側(cè)傳送門的測試樣例中,最慢的普通版和最快的極速版耗時(shí)甚至相差24倍,可見該極速版,可謂是目前普通版的最佳替代方案了!

這次我將為各位帶來的百度開發(fā)套件的新星啦

遠(yuǎn)場語音開發(fā)套件!

這是一款很不錯(cuò)的產(chǎn)品,就像之前的人臉開發(fā)套件一樣,他能有效幫助想要落地語音識(shí)別的企業(yè)和個(gè)人開發(fā)者們快速開發(fā)出屬于自己的業(yè)務(wù)產(chǎn)品。

在本次產(chǎn)品的規(guī)格中,有三種配置可選,依次是:

6+1環(huán)形麥陣列4mic線性陣列3mic三角陣列他們各有各的應(yīng)用場景,為了更好地提升各位未來的產(chǎn)品,一定要聽我說完他們的優(yōu)點(diǎn)喔!

6+1環(huán)麥陣列

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

6+1環(huán)形陣列由6顆麥克風(fēng)圍繞一圈,中間分布一顆組成,可實(shí)現(xiàn):

360°零死角環(huán)繞聲場

增強(qiáng)GSC聲源定位及波束形成效果

基于非線性消除的AEC技術(shù)

推薦用于智能音箱等智能家居產(chǎn)品。

像現(xiàn)在主流的天貓精靈、小米音箱,都是采用的環(huán)形6麥陣列喔!

還有像國外的amazon echo 采用了類似解決方案

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

他可以做到無死角的識(shí)別和聲源定位喔!這還是值得玩一玩的~

線性4麥陣列

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

4mic陣列由4顆麥克風(fēng)橫向排列

陣型狹長占用空間小,可適配各種硬件結(jié)構(gòu)設(shè)計(jì)。

推薦應(yīng)用于智能電視、平板、以及空調(diào)、冰箱等傳統(tǒng)白電產(chǎn)品。

三角麥克陣列

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

3mic陣列是由3顆麥克風(fēng)三角形方式排列

支持雙音區(qū),兼顧主/副駕的語音交互需求

增強(qiáng)GSC聲源定位及波束形成效果

基于非線性消除的AEC技術(shù)

3mic也支持聲源定位喔

本次我所收到的是4mic陣列套件呢。他也是帶有聲源定位的哦~

廢話不多說,開箱開始!

首先這次開發(fā)套件的外包裝精致小巧,方方正正的外包裝有種撲面而來的低調(diào)奢華與神秘感,不知道各位有沒有看過四驅(qū)兄弟呢?

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

真是側(cè)漏著一股神秘的氣息呢!揭開它的面紗,看看里面吧

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

包裝盒內(nèi)非常簡單明了,一張3折頁,簡單的說明書,開發(fā)套件本尊及數(shù)據(jù)線和電源線。

說明書簡單介紹了包裝內(nèi)容清單、開發(fā)板的接口示意圖、硬件連接指南、測試方式和軟件開發(fā)環(huán)境搭建引導(dǎo),比較簡單。

我們來看一下開發(fā)套件本身吧,本套件使用的開發(fā)板是來自深圳市百能達(dá)電子有限公司和百度聯(lián)手打造的RK3308開發(fā)板,擁有128M的ram和128M的flash。cpu采用的是微芯瑞的rk3308,4核ARM Cortex-A35。

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

wifi方面僅支持2.4g頻段,藍(lán)牙支持到4.0。

在本套件上額外有一片wifi天線,所以wifi質(zhì)量杠杠的。

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

麥克風(fēng)可兼容上方的3種陣列。

數(shù)據(jù)線是usb-micro,主要用于adb調(diào)試。

所配套的是輸出為12V2A的電源。

遠(yuǎn)場語音識(shí)別套件之hello world(mac篇)

點(diǎn)亮設(shè)備,插上usb線,我們即將進(jìn)入環(huán)境配置階段。

本篇使用macOS majave 10.14.4做演示。

插入設(shè)備前,應(yīng)當(dāng)保證自己的系統(tǒng)內(nèi)具備adb環(huán)境。在terminal內(nèi)確認(rèn)一下

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

至于如何安裝,可參考百度搜索下的各種adb部署文章~

然后我們第一步首先要幫助開發(fā)套件連接到我們的wifi中來。

根據(jù)《百度大腦-遠(yuǎn)場語音開發(fā)套件-RK3308開發(fā)平臺(tái)使用說明.pdf》中所提到的wifi配置,可以順利完成入網(wǎng)。這里我做一遍操作

使用數(shù)據(jù)線連接設(shè)備后,我們可以用

adb devices命令查詢到開發(fā)套件

隨后鍵入 adb shell,使用命令行調(diào)試設(shè)備

cd /data/cfg 進(jìn)入到wifi配置文件的目錄下

通過vi命令打開配置文件

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

默認(rèn)情況下家用路由器的話,只需要修改ssid(wifi名稱)和psk(password key)即可。

若wifi有特殊情況,自行添加

key_mgmt=WPA-PSK // 加密方式

# key_mgmt=NONE // 不加密

修改完成后保存配置

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

隨后輸入

wpa_cli reconfigure

wpa_cli reconnect

指令激活重新聯(lián)網(wǎng)

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

此時(shí)此刻,我們就完成了設(shè)備入網(wǎng)了。

語音識(shí)別、合成都需要用到網(wǎng)絡(luò),所以一定要正確入網(wǎng)喔!

(藍(lán)牙我目前用不到,所以暫時(shí)沒有繼續(xù)去配置)

接著我們來嘗試啟動(dòng)語音識(shí)別的demo程序,來看一看環(huán)境是否正常

所有sdk資源及相關(guān)文件都在根目錄oem文件夾內(nèi)

根據(jù)產(chǎn)品說明書,我們需要先啟動(dòng) alsa_audio_main_service服務(wù)。

啟動(dòng)它之前,我們需要對(duì)目錄權(quán)限進(jìn)行相關(guān)修改賦予權(quán)限后進(jìn)行啟動(dòng)

multi_4_2 指的是使用4陣列板聲卡2。&后臺(tái)啟動(dòng)

然后使用 ps -A檢查一下服務(wù)是否正確啟動(dòng)在后臺(tái)中

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

啟動(dòng)了alsa服務(wù)后,我們就可以去前往中啟動(dòng)demo了

樣例程序文件位于/oem/BDSpeechSDK/sample目錄中, 運(yùn)行時(shí)依賴lib、resources、extern目錄中的庫及資源文件。

所以我們需要在啟動(dòng)時(shí)共享庫

關(guān)于共享庫可以看這里

我們運(yùn)行指令

cd /oem/BDSpeechSDK/sample/wakeup

LD_LIBRARY_PATH=/oem ./e2e_wp_asr_test

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

試著喊一下”小度小度,今天天氣怎么樣”試試?

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

可以發(fā)現(xiàn),這次套件采用了流式識(shí)別喔!附帶中間結(jié)果的!

并且在3米遠(yuǎn)的位置,使用悄悄話的方式呼喚小度小度,也能成功喚醒!

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

可能在英語方面還有待加強(qiáng)吧~

(也許是我的英語太散裝了)

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

關(guān)于語音合成

示例程序會(huì)將文本“456hello你好今天天氣不錯(cuò)”傳送給服務(wù)器,由服務(wù)器生成對(duì)應(yīng)的語音,保存為pcm文件,用戶可以進(jìn)行播放體驗(yàn)。

在終端啟動(dòng)語音合成功能,生成文本“456hello你好今天天氣不錯(cuò)”對(duì)應(yīng)的語音。

cd /oem/BDSpeechSDK/sample/tts

LD_LIBRARY_PATH=/oem ./online_test

測試程序暫未提供用戶傳入合成文本生成語音的功能,用戶可以參照樣例程序自行開發(fā)。

運(yùn)行結(jié)束后,會(huì)在當(dāng)前目錄下生成一個(gè)xxx.pcm,其中xxx是一個(gè)測試時(shí)的時(shí)間戳.在終端執(zhí)行如下命令體驗(yàn)語音合成效果

aplay -t raw -c 1 -f S16_LE -r 16000 xxx.pcm

遠(yuǎn)場語音識(shí)別套件之交叉編譯SampleCode

經(jīng)過了近一周的努力,總算能夠成功地將sample程序成功的交叉編譯出來了。

本篇只針對(duì)如何成功交叉編譯,解決我遇到的問題而設(shè)立的。重點(diǎn)是交叉編譯的流程

這邊我在mac上利用parallel部署了ubuntu虛擬機(jī)。為了重新確認(rèn)一遍步驟,我重新裝了一臺(tái)機(jī)器并重頭進(jìn)行了一遍步驟。并故意重現(xiàn)了我這幾天碰到過的錯(cuò)誤及解決辦法,可能可以幫助到各位。

這邊需要以下內(nèi)容:

rk3308的交叉編譯工具鏈

gcc環(huán)境

ubuntu16.04 lts版

下載SDK

將rk3308板子內(nèi)的oem內(nèi)BDSpeechSDK目錄復(fù)制到虛擬機(jī)內(nèi)。可以進(jìn)行adb pull /oem/BDSpeechSDK指令download下來

隨后將sdk放到虛擬機(jī)。我這里就直接放在了home根目錄

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

rk3308的編譯在標(biāo)準(zhǔn)linux上是編不出來的。我們這里需要用到交叉編譯工具鏈,這是一個(gè)特殊的編譯器,可以認(rèn)為是在A平臺(tái)編譯出B平臺(tái)才能運(yùn)行的工具包。

然后將交叉編譯鏈也復(fù)制到虛擬機(jī)里

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

按要求構(gòu)建項(xiàng)目工程目錄結(jié)構(gòu)

基于目前創(chuàng)建日期為4月23日的quick_start.md中所述

mkdir my_specch_project

cd my_speech_projects

touch Makefile

mkdir src

touch src/main.cpp

創(chuàng)建如下的目錄結(jié)構(gòu):

my_speech_project/

├── Makefile

└── src

└── main.cpp

我們到sample目錄下,創(chuàng)建project文件夾并創(chuàng)建src目錄,創(chuàng)建指定的文件

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

編寫(copy) sample代碼

sample/asr/wakeup/src中的e2e_wp_asr_test.cpp和在quick_start.md中都有相應(yīng)的demo代碼,這里我就直接將wakeup/src中的sample代碼拷貝到這里替換main.cpp

這里先不做任何改動(dòng),就照搬就行。目前的第一目的是盡快正確交叉編譯并成功在板子上跑起來

編寫(copy) Makefile代碼

makefile可以幫助工程快速連接編譯,他能省掉很多功夫。由于本人不是純正的c++開發(fā)工程師,所以這里copy了quick_start.md中的makefile代碼

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

這里容易出現(xiàn)的第一個(gè)問題:

照搬后由于縮進(jìn),當(dāng)你ctrlCV時(shí),極有可能將縮進(jìn)一起復(fù)制過來,所以這里需要將代碼縮進(jìn)都去除,保持整潔。在后面編譯時(shí)我會(huì)演示出現(xiàn)縮進(jìn)的錯(cuò)誤提示,這里我繼續(xù)保持原有的格式。

嘗試編譯

在quick_start.md中編譯部分,要求我們配置完成后,在Makefile所在的目錄執(zhí)行

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

這里 path-to-cross-compiler-root需要替換成我們工具鏈的根目錄/bin即可/host其實(shí)就是我們工具鏈的根目錄

那在我這樣的目錄環(huán)境,等效替換成了

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

這里會(huì)出現(xiàn)很多問題。如果上方的操作跟我一樣,那你也很有可能碰到這些問題!

錯(cuò)誤1. Makefile:18

由于特殊縮進(jìn)導(dǎo)致的makefile編譯錯(cuò)誤

錯(cuò)誤具體提示如下

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

經(jīng)過我多次測試,我打了很多空行也會(huì)錯(cuò)在第18行這里。后來解決的方法就是將縮進(jìn)全部去除就可以了!

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

錯(cuò)誤2.undefined reference

消除了上方的縮進(jìn)后再次進(jìn)行編譯,會(huì)出現(xiàn)新的提示:

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

這個(gè)錯(cuò)誤是因?yàn)槿鄙賏lsa的so庫導(dǎo)致的。這個(gè)錯(cuò)誤也被寫在了quick_start.md中

如果遇到類似 ld: 找不到 -lbd_alsa_audio_client的錯(cuò)誤,請開發(fā)者自行從官網(wǎng)下載alsa服務(wù)包或自行從開發(fā)套件中/ome/目錄下提取相關(guān)庫放到工程下參與鏈接即可。

這邊我們從oem目錄中pull一個(gè)文件下來。他在/oem目錄下,名為libbd_alsa_audio_client.so。將它復(fù)制到BDSpeechSDK/lib下,這個(gè)目錄專門放外部依賴的庫文件,這個(gè)也放這里吧。

然后再次嘗試編譯,沒有任何錯(cuò)誤提示了,編譯通過

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

然后在Makefile的同目錄上就可以看到一個(gè)main的可執(zhí)行程序了。這個(gè)程序是可以在rk3308的環(huán)境下執(zhí)行的。將它通過adb放到板子里。這里提醒下,tmp目錄在斷電后會(huì)清洗。

(這里省略adb push ./main /tmp的過程)

嘗試adb下打開main

我們的main也依賴于alsa的服務(wù),所以在這里直接將alsa設(shè)置成開機(jī)啟動(dòng)得了。

/oem/Rklunch.sh 這個(gè)文件就是rk3308板子開機(jī)后會(huì)跑的一個(gè)執(zhí)行文件,我們可以把所有需要在開機(jī)時(shí)啟動(dòng)的東西,都寫在這個(gè)文件里,這樣板子下次就會(huì)幫我們自動(dòng)啟動(dòng)alsa了。

這里新增了幾行代碼,主要是改一下目錄權(quán)限,然后運(yùn)行alsa服務(wù)。

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

但是這一次還是沒有啟動(dòng)的,需要自己手動(dòng)啟動(dòng)一下alsa。啟動(dòng)方式就是上面5句話。

這里也可以通過reboot指令重啟板子,但是tmp剛放進(jìn)來的main文件就被洗掉了,但可以檢驗(yàn)開機(jī)啟動(dòng)是否正常,這個(gè)自行權(quán)衡吧~

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

啟動(dòng)alsa后我們?nèi)?dòng)main

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

如果看到這個(gè)輸出,那么我們離成功不遠(yuǎn)了。但是其中有一句輸出影響了整個(gè)程序。這不是編譯問題!

錯(cuò)誤3. dat file invalid

error:5, domain:38, desc:Wakeup: dat file invalid., sn:

這里意思是沒成功載入dat文件。

我們看一下代碼。在wakeup_config函數(shù)中,可以看到它配置dat文件的路徑,

是../../resources/esis_resource.pkg

只要把這個(gè)層級(jí)改成絕對(duì)路徑,或者把路徑改短 ./esis_resource.pkg,并把pkg文件拷貝過來即可

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

然后重新編譯,adb push到tmp下,這里省略

記得把dat文件也push到tmp下,如果跟我的改法一樣的話

然后再次執(zhí)行main

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

可以發(fā)現(xiàn)喚醒進(jìn)入回調(diào)激活了引擎加載和啟動(dòng)喚醒。

我們這時(shí)候可以嘗試使用了.

小度小度,今天上海天氣如何?

 

百度遠(yuǎn)場語音識(shí)別套件-開箱評(píng)測

至此已經(jīng)完成了demo項(xiàng)目工程的交叉編譯工作。

這只是默認(rèn)sample程序編譯出來的效果喔,還有很多隱藏功能帶解鎖。

這是我7天來的努力成果,如果這篇文章對(duì)你有所幫助,請給一個(gè)贊吧~

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動(dòng)力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉