基于樹莓派的電話錄音系統(tǒng)研究
掃描二維碼
隨時(shí)隨地手機(jī)看文章
引言
根據(jù)南方電網(wǎng)調(diào)度規(guī)范的要求,500kV變電站應(yīng)配置錄音系統(tǒng),調(diào)度機(jī)構(gòu)應(yīng)實(shí)現(xiàn)錄音系統(tǒng)的雙重化配置。準(zhǔn)確可靠的原始錄音能為事件處理提供可靠的證據(jù),防止出現(xiàn)糾紛。
目前局內(nèi)變電站通信室空間狹小,機(jī)柜位置緊張,然而站內(nèi)的電話錄音系統(tǒng)設(shè)備體積龐大,占據(jù)了大量的空間。同時(shí),目前電話錄音系統(tǒng)普遍存在錄音音質(zhì)較差,查詢和檢索煩瑣復(fù)雜的問題,不利于長(zhǎng)期存儲(chǔ)和管理,難以對(duì)分布于不同區(qū)域的電話進(jìn)行遠(yuǎn)程錄音監(jiān)聽。按規(guī)范要求,調(diào)度錄音應(yīng)保存至少6個(gè)月,電話錄音內(nèi)容可用于安全監(jiān)管,是判定責(zé)任糾紛的重要依據(jù),對(duì)提高公司服務(wù)質(zhì)量、增強(qiáng)競(jìng)爭(zhēng)實(shí)力等具有重要意義。但現(xiàn)有的錄音方式相對(duì)落后,無(wú)法滿足以上要求。樹莓派相對(duì)于其他的載體價(jià)格更低,但計(jì)算能力強(qiáng)大,具有很高的性價(jià)比。搭建基于樹莓派的電話錄音系統(tǒng),可以解決傳統(tǒng)錄音系統(tǒng)體積龐大的缺陷,節(jié)約機(jī)房?jī)?nèi)部可利用空間,實(shí)現(xiàn)語(yǔ)音文字高識(shí)別轉(zhuǎn)化,保存?zhèn)鬏敺奖?同時(shí),該系統(tǒng)支持多端口輸入,具備強(qiáng)大的兼容性與可拓展性。
1基于樹莓派的電話錄音系統(tǒng)簡(jiǎn)介及優(yōu)勢(shì)
使用基于樹莓派的電話錄音系統(tǒng),可解決傳統(tǒng)錄音系統(tǒng)體積龐大的缺陷,充分利用機(jī)房空間,滿足多通道錄音的要求,具備強(qiáng)大的兼容性與可拓展性,同時(shí)能改善錄音質(zhì)量,提高自動(dòng)化程度,降低操作的復(fù)雜度,方便用戶運(yùn)維系統(tǒng)。
1.1設(shè)備小型化
最初,樹莓派是由基于Atmel的ATmega644單片機(jī)制成的,它采用ARM處理器,與傳統(tǒng)芯片相比具有更高的性能。它的外形只有信用卡大小,以SD/MicroSD卡為內(nèi)存硬盤,具有HDMI等多種接口,具備個(gè)人計(jì)算機(jī)的基本功能,可以實(shí)現(xiàn)錄音設(shè)備的小型化。樹莓派采用Linux操作系統(tǒng),代碼采用Linux系統(tǒng)下的Python語(yǔ)言,功能強(qiáng)大,操作方便?;跇漭傻男滦弯浺粝到y(tǒng)可以節(jié)省機(jī)房空間,提高機(jī)房空間的利用效率。
1.2系統(tǒng)安全性高
系統(tǒng)權(quán)限管理制度嚴(yán)格,根據(jù)用戶權(quán)限不同劃分不同的操作權(quán)限,系統(tǒng)通過加密的并網(wǎng)權(quán)限,滿足錄音電話的保密要求,保障了網(wǎng)絡(luò)安全。
1.3用戶界面更友好
基于樹莓派的電話錄音系統(tǒng)用戶界面友好,采用圖形化操作界面,可以查看錄音記錄及語(yǔ)音對(duì)應(yīng)的文字記錄,可以實(shí)時(shí)顯示不同錄音通道所處的工作狀態(tài),可以方便快捷地查找信息,界面具有提示和在線幫助機(jī)制,可以幫助用戶快速了解系統(tǒng)的使用方法,降低操作難度。本系統(tǒng)是基于web開發(fā)的操作系統(tǒng),不需要PC也可以登錄,操作更加便捷。
2基于樹莓派的電話錄音系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
2.1體系結(jié)構(gòu)
本系統(tǒng)是基于web開發(fā)的操作系統(tǒng),其中采用B/S架構(gòu)開發(fā)的web操作層為用戶交互層,用戶通過瀏覽器直接訪問系統(tǒng)進(jìn)行相關(guān)操作:設(shè)備交互層通過串口連接UwB定位設(shè)備,根據(jù)電子圍欄的位置關(guān)系進(jìn)行數(shù)據(jù)處理入庫(kù)。
系統(tǒng)總體架構(gòu)如表1所示。
語(yǔ)音識(shí)別模塊可以將完成特征提取的原始語(yǔ)音信號(hào)轉(zhuǎn)化為相應(yīng)的特征向量,配合聲學(xué)模型、語(yǔ)音字典和語(yǔ)音模型得到識(shí)別結(jié)果。語(yǔ)音特征提取模塊可以識(shí)別語(yǔ)音上有用的特征,排除說話人性別、年齡、說話習(xí)慣和錄音條件等不同引起的變化的影響,避免噪聲干擾。語(yǔ)音識(shí)別系統(tǒng)如圖1所示。
語(yǔ)音識(shí)別系統(tǒng)由特征提取、聲學(xué)模型、發(fā)音字典、語(yǔ)言模型和解碼器5個(gè)部分組成,語(yǔ)言識(shí)別通常使用隱馬爾可夫模型,根據(jù)語(yǔ)音信號(hào)推斷對(duì)應(yīng)的文字,語(yǔ)音的特征序列為01T=(o1,o2,…,oT):語(yǔ)言模型P(w)代表特定詞序出現(xiàn)的先驗(yàn)概率:聲學(xué)模型P(01T|w)代表當(dāng)給定詞序?yàn)閣時(shí),輸出聲學(xué)特征01T的概率,根據(jù)最大后驗(yàn)概率,詞序列~w如下:
聲學(xué)特征01T的概率P(01T)與詞序w無(wú)關(guān),可以忽略不計(jì),所以式(1)可表示為:
馬爾可夫性表示現(xiàn)在決定未來(lái)狀態(tài)。馬爾可夫鏈描述了時(shí)刻(l-1)決定當(dāng)前時(shí)刻l的狀態(tài)概率分布。隱馬爾可夫模型在此基礎(chǔ)上引入了隱狀態(tài)的概念,它只與當(dāng)前的狀態(tài)有關(guān)。
確定馬爾可夫狀態(tài),需要確定以下5個(gè)參數(shù):狀態(tài)空間2=(Si),i=1,2,k,N:初始狀態(tài)的概率分布m=mi:狀態(tài)轉(zhuǎn)移概率矩陣A=[aij],i=1,2,k,N:觀測(cè)序列0=(oi):狀態(tài)輸出概率B=(bi(ok))。其中,bi(ok)表示狀態(tài)i發(fā)生觀測(cè)到輸出語(yǔ)音特征ok的概率:aij表示從狀態(tài)Si到Sj的轉(zhuǎn)移概率:mi表示狀態(tài)Si的初始概率分布。
特征提取模塊將輸入語(yǔ)音轉(zhuǎn)換為可用于模型訓(xùn)練的特征矢量,梅爾頻率倒譜系數(shù)MFCC是語(yǔ)音識(shí)別中常用的特征。首先對(duì)語(yǔ)音信號(hào)進(jìn)行分幀、加窗,把語(yǔ)音信號(hào)切分為語(yǔ)音片段,一幀語(yǔ)音片段的長(zhǎng)度為10~30mS。由于直接截?cái)嗾Z(yǔ)音信號(hào)會(huì)造成頻譜泄漏,因此需對(duì)每幀數(shù)據(jù)做加窗處理,選擇漢寧窗、漢明窗等合適的窗函數(shù)減輕影響。之后通過傅里葉變換將幀信號(hào)從時(shí)域轉(zhuǎn)換到頻域分析,傅里葉變換公式如下:
式中:Sa為加窗后第a幀語(yǔ)音信號(hào):Sa(k)為對(duì)應(yīng)的傅里葉變換后的語(yǔ)音信號(hào):n為時(shí)間變量:k為常數(shù):N為整數(shù),表示幀長(zhǎng)。
然后計(jì)算Mel子帶對(duì)數(shù)能量Em,通過離散余弦變換DCT轉(zhuǎn)換到DCT域,得到MFCC特征向量,DCT變換公式如下:
式中:C(n)為特征值:皿為Mel濾波器中濾波器的數(shù)量:m為時(shí)間變量:L為整數(shù),表示MFCC系數(shù)階數(shù)。
MFCC提取過程如圖2所示。
采用隱馬爾可夫模型進(jìn)行聲學(xué)建模,使用高斯混合模型-隱馬爾可夫模型(GMM-HMM)做模型訓(xùn)練,進(jìn)行數(shù)據(jù)對(duì)齊,狀態(tài)輸出概率bi(k)表示狀態(tài)Si的條件下輸出語(yǔ)音特征ok的概率。之后以此作為訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)DNN模型的標(biāo)準(zhǔn),用DNN模型替換GMM模型,計(jì)算觀察概率,保留轉(zhuǎn)移概率和初始概率等其他部分,估算HMM狀態(tài)的后驗(yàn)概率。
基于DNN-HMM的聲學(xué)模型語(yǔ)音識(shí)別準(zhǔn)確率更高,可以自動(dòng)學(xué)習(xí)聲學(xué)狀態(tài)和特征向量之間的分布關(guān)系,提升語(yǔ)音識(shí)別系統(tǒng)的性能。
2.2系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
本文設(shè)計(jì)的基于樹莓派的電話錄音系統(tǒng)按功能可分為錄音、儲(chǔ)存和語(yǔ)音識(shí)別轉(zhuǎn)換幾個(gè)部分。錄音系統(tǒng)采用觸發(fā)式錄音,電話摘機(jī)應(yīng)答時(shí)自動(dòng)開始錄音,形成語(yǔ)音數(shù)據(jù)隊(duì)列,通話結(jié)束后語(yǔ)音通話通過錄音文件寫入模塊存儲(chǔ)在電話錄音系統(tǒng)中,形成語(yǔ)音文件隊(duì)列,之后通過中文語(yǔ)音轉(zhuǎn)寫模塊將錄音文件轉(zhuǎn)成文字。日志記錄層中記錄了系統(tǒng)操作信息與操作錯(cuò)誤信息,便于查詢出錯(cuò)情況。錄音系統(tǒng)架構(gòu)圖如圖3所示。
電話錄音系統(tǒng)的界面如圖4所示。用戶可以通過展示界面查看錄音狀態(tài),播放音頻文件,實(shí)現(xiàn)實(shí)時(shí)監(jiān)聽。用戶根據(jù)錄音時(shí)間查詢音頻文件,系統(tǒng)采用多線程技術(shù),實(shí)現(xiàn)對(duì)同時(shí)錄音的多部電話的并行控制,統(tǒng)一管理位于不同空間的電話。該系統(tǒng)還可通過語(yǔ)音識(shí)別將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文字,用戶可以將音頻文件和文字文件備份到U盤上,實(shí)現(xiàn)脫機(jī)查詢。
3測(cè)試結(jié)果
經(jīng)過測(cè)試,本系統(tǒng)的語(yǔ)音識(shí)別率相比其他系統(tǒng)提升了5%~10%,反應(yīng)時(shí)間也縮短了。與原有的錄音系統(tǒng)相比,本系統(tǒng)可以在手機(jī)上進(jìn)行操作,便攜程度提高,同時(shí)語(yǔ)音識(shí)別率較高,可以將語(yǔ)音轉(zhuǎn)化為對(duì)應(yīng)的文字,快速識(shí)別語(yǔ)音內(nèi)容是否合規(guī),并結(jié)合南方電網(wǎng)的調(diào)度規(guī)范等規(guī)章制度進(jìn)行判斷。
錄音設(shè)備在輸入語(yǔ)音信號(hào)后進(jìn)行語(yǔ)音錄制與語(yǔ)音識(shí)別,之后將錄制的語(yǔ)音與語(yǔ)音識(shí)別轉(zhuǎn)換的文字上傳至系統(tǒng),用戶可以通過人機(jī)交互終端查詢錄音結(jié)果。錄音流程如圖5所示。
基于樹莓派的電話錄音系統(tǒng)可以通過電腦、手機(jī)等終端訪問,將語(yǔ)音轉(zhuǎn)為對(duì)應(yīng)的文字,應(yīng)用在調(diào)度臺(tái)、變電站里可以保存錄音數(shù)據(jù),更方便工作人員保留錄音證據(jù),對(duì)用電話進(jìn)行的工作許可可以更好地進(jìn)行監(jiān)督,提升了工作效率。
該電話錄音系統(tǒng)占地面積小,終端設(shè)備的屏幕大小是7英寸,設(shè)備具有USB和RJ11等接口,可以連接電話、U盤等設(shè)備,以此記錄保存語(yǔ)音通話。
4結(jié)語(yǔ)
本文設(shè)計(jì)的基于樹莓派的電話錄音系統(tǒng)使用了隱馬爾可夫模型和深度學(xué)習(xí)等技術(shù),錄音效果好,語(yǔ)音識(shí)別準(zhǔn)確率高。另外,本系統(tǒng)解決了傳統(tǒng)錄音系統(tǒng)占地面積過大的問題,操作方式簡(jiǎn)單,適用于變電站、調(diào)度臺(tái)等場(chǎng)合。除了電力行業(yè)以外,系統(tǒng)還適用于鐵路、石油、公安等行業(yè)的調(diào)度指揮中心和客戶服務(wù)中心。