當(dāng)前位置:首頁(yè) > 工業(yè)控制 > 《機(jī)電信息》
[導(dǎo)讀]摘要:電話錄音系統(tǒng)廣泛應(yīng)用于電力通信中,它在調(diào)度語(yǔ)音下達(dá)的過程中起著重要的作用。然而傳統(tǒng)的錄音系統(tǒng)存在占地面積過大、查詢錄音信息不方便等問題,鑒于此,運(yùn)用深度神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型(DNN-HMM模型),基于樹莓派設(shè)計(jì)了一種電話錄音系統(tǒng),通過特征提取等方式識(shí)別語(yǔ)音并進(jìn)行錄音,錄音完成后可以通過電腦、手機(jī)等終端方便快捷地查看錄音以及語(yǔ)音對(duì)應(yīng)的文字版文件。

引言

根據(jù)南方電網(wǎng)調(diào)度規(guī)范的要求,500kV變電站應(yīng)配置錄音系統(tǒng),調(diào)度機(jī)構(gòu)應(yīng)實(shí)現(xiàn)錄音系統(tǒng)的雙重化配置。準(zhǔn)確可靠的原始錄音能為事件處理提供可靠的證據(jù),防止出現(xiàn)糾紛。

目前局內(nèi)變電站通信室空間狹小,機(jī)柜位置緊張,然而站內(nèi)的電話錄音系統(tǒng)設(shè)備體積龐大,占據(jù)了大量的空間。同時(shí),目前電話錄音系統(tǒng)普遍存在錄音音質(zhì)較差,查詢和檢索煩瑣復(fù)雜的問題,不利于長(zhǎng)期存儲(chǔ)和管理,難以對(duì)分布于不同區(qū)域的電話進(jìn)行遠(yuǎn)程錄音監(jiān)聽。按規(guī)范要求,調(diào)度錄音應(yīng)保存至少6個(gè)月,電話錄音內(nèi)容可用于安全監(jiān)管,是判定責(zé)任糾紛的重要依據(jù),對(duì)提高公司服務(wù)質(zhì)量、增強(qiáng)競(jìng)爭(zhēng)實(shí)力等具有重要意義。但現(xiàn)有的錄音方式相對(duì)落后,無(wú)法滿足以上要求。樹莓派相對(duì)于其他的載體價(jià)格更低,但計(jì)算能力強(qiáng)大,具有很高的性價(jià)比。搭建基于樹莓派的電話錄音系統(tǒng),可以解決傳統(tǒng)錄音系統(tǒng)體積龐大的缺陷,節(jié)約機(jī)房?jī)?nèi)部可利用空間,實(shí)現(xiàn)語(yǔ)音文字高識(shí)別轉(zhuǎn)化,保存?zhèn)鬏敺奖?同時(shí),該系統(tǒng)支持多端口輸入,具備強(qiáng)大的兼容性與可拓展性。

1基于樹莓派的電話錄音系統(tǒng)簡(jiǎn)介及優(yōu)勢(shì)

使用基于樹莓派的電話錄音系統(tǒng),可解決傳統(tǒng)錄音系統(tǒng)體積龐大的缺陷,充分利用機(jī)房空間,滿足多通道錄音的要求,具備強(qiáng)大的兼容性與可拓展性,同時(shí)能改善錄音質(zhì)量,提高自動(dòng)化程度,降低操作的復(fù)雜度,方便用戶運(yùn)維系統(tǒng)。

1.1設(shè)備小型化

最初,樹莓派是由基于Atmel的ATmega644單片機(jī)制成的,它采用ARM處理器,與傳統(tǒng)芯片相比具有更高的性能。它的外形只有信用卡大小,以SD/MicroSD卡為內(nèi)存硬盤,具有HDMI等多種接口,具備個(gè)人計(jì)算機(jī)的基本功能,可以實(shí)現(xiàn)錄音設(shè)備的小型化。樹莓派采用Linux操作系統(tǒng),代碼采用Linux系統(tǒng)下的Python語(yǔ)言,功能強(qiáng)大,操作方便?;跇漭傻男滦弯浺粝到y(tǒng)可以節(jié)省機(jī)房空間,提高機(jī)房空間的利用效率。

1.2系統(tǒng)安全性高

系統(tǒng)權(quán)限管理制度嚴(yán)格,根據(jù)用戶權(quán)限不同劃分不同的操作權(quán)限,系統(tǒng)通過加密的并網(wǎng)權(quán)限,滿足錄音電話的保密要求,保障了網(wǎng)絡(luò)安全。

1.3用戶界面更友好

基于樹莓派的電話錄音系統(tǒng)用戶界面友好,采用圖形化操作界面,可以查看錄音記錄及語(yǔ)音對(duì)應(yīng)的文字記錄,可以實(shí)時(shí)顯示不同錄音通道所處的工作狀態(tài),可以方便快捷地查找信息,界面具有提示和在線幫助機(jī)制,可以幫助用戶快速了解系統(tǒng)的使用方法,降低操作難度。本系統(tǒng)是基于web開發(fā)的操作系統(tǒng),不需要PC也可以登錄,操作更加便捷。

2基于樹莓派的電話錄音系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2.1體系結(jié)構(gòu)

本系統(tǒng)是基于web開發(fā)的操作系統(tǒng),其中采用B/S架構(gòu)開發(fā)的web操作層為用戶交互層,用戶通過瀏覽器直接訪問系統(tǒng)進(jìn)行相關(guān)操作:設(shè)備交互層通過串口連接UwB定位設(shè)備,根據(jù)電子圍欄的位置關(guān)系進(jìn)行數(shù)據(jù)處理入庫(kù)。

系統(tǒng)總體架構(gòu)如表1所示。

語(yǔ)音識(shí)別模塊可以將完成特征提取的原始語(yǔ)音信號(hào)轉(zhuǎn)化為相應(yīng)的特征向量,配合聲學(xué)模型、語(yǔ)音字典和語(yǔ)音模型得到識(shí)別結(jié)果。語(yǔ)音特征提取模塊可以識(shí)別語(yǔ)音上有用的特征,排除說話人性別、年齡、說話習(xí)慣和錄音條件等不同引起的變化的影響,避免噪聲干擾。語(yǔ)音識(shí)別系統(tǒng)如圖1所示。

語(yǔ)音識(shí)別系統(tǒng)由特征提取、聲學(xué)模型、發(fā)音字典、語(yǔ)言模型和解碼器5個(gè)部分組成,語(yǔ)言識(shí)別通常使用隱馬爾可夫模型,根據(jù)語(yǔ)音信號(hào)推斷對(duì)應(yīng)的文字,語(yǔ)音的特征序列為01T=(o1,o2,…,oT):語(yǔ)言模型P(w)代表特定詞序出現(xiàn)的先驗(yàn)概率:聲學(xué)模型P(01T|w)代表當(dāng)給定詞序?yàn)閣時(shí),輸出聲學(xué)特征01T的概率,根據(jù)最大后驗(yàn)概率,詞序列~w如下:

聲學(xué)特征01T的概率P(01T)與詞序w無(wú)關(guān),可以忽略不計(jì),所以式(1)可表示為:

馬爾可夫性表示現(xiàn)在決定未來(lái)狀態(tài)。馬爾可夫鏈描述了時(shí)刻(l-1)決定當(dāng)前時(shí)刻l的狀態(tài)概率分布。隱馬爾可夫模型在此基礎(chǔ)上引入了隱狀態(tài)的概念,它只與當(dāng)前的狀態(tài)有關(guān)。

確定馬爾可夫狀態(tài),需要確定以下5個(gè)參數(shù):狀態(tài)空間2=(Si),i=1,2,k,N:初始狀態(tài)的概率分布m=mi:狀態(tài)轉(zhuǎn)移概率矩陣A=[aij],i=1,2,k,N:觀測(cè)序列0=(oi):狀態(tài)輸出概率B=(bi(ok))。其中,bi(ok)表示狀態(tài)i發(fā)生觀測(cè)到輸出語(yǔ)音特征ok的概率:aij表示從狀態(tài)Si到Sj的轉(zhuǎn)移概率:mi表示狀態(tài)Si的初始概率分布。

特征提取模塊將輸入語(yǔ)音轉(zhuǎn)換為可用于模型訓(xùn)練的特征矢量,梅爾頻率倒譜系數(shù)MFCC是語(yǔ)音識(shí)別中常用的特征。首先對(duì)語(yǔ)音信號(hào)進(jìn)行分幀、加窗,把語(yǔ)音信號(hào)切分為語(yǔ)音片段,一幀語(yǔ)音片段的長(zhǎng)度為10~30mS。由于直接截?cái)嗾Z(yǔ)音信號(hào)會(huì)造成頻譜泄漏,因此需對(duì)每幀數(shù)據(jù)做加窗處理,選擇漢寧窗、漢明窗等合適的窗函數(shù)減輕影響。之后通過傅里葉變換將幀信號(hào)從時(shí)域轉(zhuǎn)換到頻域分析,傅里葉變換公式如下:

式中:Sa為加窗后第a幀語(yǔ)音信號(hào):Sa(k)為對(duì)應(yīng)的傅里葉變換后的語(yǔ)音信號(hào):n為時(shí)間變量:k為常數(shù):N為整數(shù),表示幀長(zhǎng)。

然后計(jì)算Mel子帶對(duì)數(shù)能量Em,通過離散余弦變換DCT轉(zhuǎn)換到DCT域,得到MFCC特征向量,DCT變換公式如下:

式中:C(n)為特征值:皿為Mel濾波器中濾波器的數(shù)量:m為時(shí)間變量:L為整數(shù),表示MFCC系數(shù)階數(shù)。

MFCC提取過程如圖2所示。

采用隱馬爾可夫模型進(jìn)行聲學(xué)建模,使用高斯混合模型-隱馬爾可夫模型(GMM-HMM)做模型訓(xùn)練,進(jìn)行數(shù)據(jù)對(duì)齊,狀態(tài)輸出概率bi(k)表示狀態(tài)Si的條件下輸出語(yǔ)音特征ok的概率。之后以此作為訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)DNN模型的標(biāo)準(zhǔn),用DNN模型替換GMM模型,計(jì)算觀察概率,保留轉(zhuǎn)移概率和初始概率等其他部分,估算HMM狀態(tài)的后驗(yàn)概率。

基于DNN-HMM的聲學(xué)模型語(yǔ)音識(shí)別準(zhǔn)確率更高,可以自動(dòng)學(xué)習(xí)聲學(xué)狀態(tài)和特征向量之間的分布關(guān)系,提升語(yǔ)音識(shí)別系統(tǒng)的性能。

2.2系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

本文設(shè)計(jì)的基于樹莓派的電話錄音系統(tǒng)按功能可分為錄音、儲(chǔ)存和語(yǔ)音識(shí)別轉(zhuǎn)換幾個(gè)部分。錄音系統(tǒng)采用觸發(fā)式錄音,電話摘機(jī)應(yīng)答時(shí)自動(dòng)開始錄音,形成語(yǔ)音數(shù)據(jù)隊(duì)列,通話結(jié)束后語(yǔ)音通話通過錄音文件寫入模塊存儲(chǔ)在電話錄音系統(tǒng)中,形成語(yǔ)音文件隊(duì)列,之后通過中文語(yǔ)音轉(zhuǎn)寫模塊將錄音文件轉(zhuǎn)成文字。日志記錄層中記錄了系統(tǒng)操作信息與操作錯(cuò)誤信息,便于查詢出錯(cuò)情況。錄音系統(tǒng)架構(gòu)圖如圖3所示。

電話錄音系統(tǒng)的界面如圖4所示。用戶可以通過展示界面查看錄音狀態(tài),播放音頻文件,實(shí)現(xiàn)實(shí)時(shí)監(jiān)聽。用戶根據(jù)錄音時(shí)間查詢音頻文件,系統(tǒng)采用多線程技術(shù),實(shí)現(xiàn)對(duì)同時(shí)錄音的多部電話的并行控制,統(tǒng)一管理位于不同空間的電話。該系統(tǒng)還可通過語(yǔ)音識(shí)別將語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為文字,用戶可以將音頻文件和文字文件備份到U盤上,實(shí)現(xiàn)脫機(jī)查詢。

3測(cè)試結(jié)果

經(jīng)過測(cè)試,本系統(tǒng)的語(yǔ)音識(shí)別率相比其他系統(tǒng)提升了5%~10%,反應(yīng)時(shí)間也縮短了。與原有的錄音系統(tǒng)相比,本系統(tǒng)可以在手機(jī)上進(jìn)行操作,便攜程度提高,同時(shí)語(yǔ)音識(shí)別率較高,可以將語(yǔ)音轉(zhuǎn)化為對(duì)應(yīng)的文字,快速識(shí)別語(yǔ)音內(nèi)容是否合規(guī),并結(jié)合南方電網(wǎng)的調(diào)度規(guī)范等規(guī)章制度進(jìn)行判斷。

錄音設(shè)備在輸入語(yǔ)音信號(hào)后進(jìn)行語(yǔ)音錄制與語(yǔ)音識(shí)別,之后將錄制的語(yǔ)音與語(yǔ)音識(shí)別轉(zhuǎn)換的文字上傳至系統(tǒng),用戶可以通過人機(jī)交互終端查詢錄音結(jié)果。錄音流程如圖5所示。

基于樹莓派的電話錄音系統(tǒng)可以通過電腦、手機(jī)等終端訪問,將語(yǔ)音轉(zhuǎn)為對(duì)應(yīng)的文字,應(yīng)用在調(diào)度臺(tái)、變電站里可以保存錄音數(shù)據(jù),更方便工作人員保留錄音證據(jù),對(duì)用電話進(jìn)行的工作許可可以更好地進(jìn)行監(jiān)督,提升了工作效率。

該電話錄音系統(tǒng)占地面積小,終端設(shè)備的屏幕大小是7英寸,設(shè)備具有USB和RJ11等接口,可以連接電話、U盤等設(shè)備,以此記錄保存語(yǔ)音通話。

4結(jié)語(yǔ)

本文設(shè)計(jì)的基于樹莓派的電話錄音系統(tǒng)使用了隱馬爾可夫模型和深度學(xué)習(xí)等技術(shù),錄音效果好,語(yǔ)音識(shí)別準(zhǔn)確率高。另外,本系統(tǒng)解決了傳統(tǒng)錄音系統(tǒng)占地面積過大的問題,操作方式簡(jiǎn)單,適用于變電站、調(diào)度臺(tái)等場(chǎng)合。除了電力行業(yè)以外,系統(tǒng)還適用于鐵路、石油、公安等行業(yè)的調(diào)度指揮中心和客戶服務(wù)中心。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉