大數(shù)據(jù)時代基于中文標記的圖像視頻綜合檢索方法研究

時間：2021-11-15 23:55:40

關(guān)鍵字：大數(shù)據(jù) 中文標記圖像視頻綜合檢索

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]摘要：隨著各類物聯(lián)網(wǎng)、云計算等示范工程的試點應(yīng)用，人類步入了大數(shù)據(jù)時代。圖像、視頻等多媒體綜合應(yīng)用是大數(shù)據(jù)時代的基本特征之一，文章綜合研究了基于OCR、基于圖像特征和基于標記的圖像視頻檢索技術(shù)，提出了一種基于中文標記的數(shù)據(jù)中心視頻圖像資源綜合檢索方法，以期為提高數(shù)據(jù)中心多媒體數(shù)據(jù)的可用性提供借鑒。

引言

隨著傳統(tǒng)數(shù)據(jù)中心向多媒體數(shù)據(jù)中心的發(fā)展，數(shù)據(jù)中心服務(wù)模式已經(jīng)發(fā)生了翻天覆地的變化。大數(shù)據(jù)時代的核心特性有兩個要點：一是一切都被記錄，二是一切都被數(shù)字化。隨著大數(shù)據(jù)時代的來臨，它帶來兩個重大變化：一是數(shù)據(jù)量爆炸性增長，據(jù)統(tǒng)計，最近兩年來國內(nèi)各類機房產(chǎn)生的數(shù)據(jù)量大于2010年以前人類文明所產(chǎn)生的數(shù)據(jù)量的總和；二是數(shù)據(jù)來源極其豐富，特別是諸如圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)所占比例逐年增長。從存儲方面看，傳統(tǒng)數(shù)據(jù)中心存儲內(nèi)容包括資源信息、業(yè)務(wù)信息、統(tǒng)計信息、指揮信息等，主要以結(jié)構(gòu)化的數(shù)據(jù)表的形式存在，現(xiàn)在數(shù)據(jù)中心存儲文本、數(shù)字、圖像、視頻、聲音等多種數(shù)據(jù)形式。這些變化對數(shù)據(jù)中心檢索技術(shù)要求越來越高，主要體現(xiàn)在：一是檢索載體多樣化?，F(xiàn)代數(shù)據(jù)中心需要綜合利用磁盤、磁帶等綜合性數(shù)據(jù)庫。二是檢索手段綜合化。檢索目標由單一的文本檢索向文本、圖片、視頻、聲音、地理信息多種目標發(fā)展。三是檢索時機全域化。新數(shù)據(jù)文件增加不應(yīng)中斷向用戶的服務(wù)，保障24h全天候檢索的可用性。因此，為了更好地利用海量圖像、視頻等非結(jié)構(gòu)化數(shù)據(jù)，提高圖像視頻數(shù)據(jù)的檢索效率，同時提高圖像視頻數(shù)據(jù)的可用性,有必要對圖像視頻檢索方法進行深入研究。

1圖像視頻檢索在大數(shù)據(jù)時代的意義

多媒體信息包括文本、圖像、音頻、視頻等信息。使用關(guān)鍵詞檢索，只能查詢到媒體文件對應(yīng)的文件名等特征，而無法對媒體文件內(nèi)容進行查詢，所以對于多媒體信息的查詢應(yīng)該不同于簡單的文本信息的查詢。隨著越來越多的視頻多媒體形成了海量文檔，急需研究新一代的信息檢索技術(shù)。

現(xiàn)代數(shù)據(jù)中心的發(fā)展具體來說，涉及數(shù)字化技術(shù)、超大規(guī)模數(shù)據(jù)庫技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體信息處理技術(shù)、信息壓縮與傳送技術(shù)、分布式處理技術(shù)、安全保密技術(shù)、可靠性技術(shù)、數(shù)據(jù)倉庫與聯(lián)機分析處理技術(shù)、信息抽取技術(shù)、數(shù)據(jù)挖掘技術(shù)、基于內(nèi)容的檢索技術(shù)、自然語言理解技術(shù)等。在眾多技術(shù)門類中，對視頻圖像的檢索顯得尤為重要。本文主要研究基于內(nèi)容匹配的數(shù)據(jù)中心圖片視頻資源的綜合信息檢索技術(shù)，為鐵路、水路、公路、航空、交通保障等領(lǐng)域的數(shù)據(jù)中心建設(shè)以及綜合性基礎(chǔ)性中心多媒體檢索技術(shù)的發(fā)展提供理論參考。

2國內(nèi)外的研究現(xiàn)狀及動態(tài)

國外基于關(guān)鍵鏡頭關(guān)鍵幀的視頻檢索技術(shù)已經(jīng)發(fā)展了很多年，隨著視頻數(shù)據(jù)急劇增加，圖像視頻檢索已經(jīng)成為一個新的研究熱點。從第一屆DIAL’04（The first International Workshop on Document Image Analysis for Libraries）開始，圖像視頻檢索就一直被當做專題來研究，近年來，數(shù)字圖像視頻檢索受到了極大的關(guān)注，DIAL、ICDAR等每次研討會議均對其進行專題討論。但是，由于國外圖片視頻中標記大多采用英文形式，而我國數(shù)據(jù)中心中圖片視頻標記是中文的，中英文在筆畫排列、字詞句構(gòu)成、組織方式等方面差異太大，他們的視覺特征明顯不同，現(xiàn)有的很多方法無法直接被我們直接采用。為了研究我國海量中文圖像數(shù)據(jù)的管理、檢索、利用，因此必須研究具有我國自主知識產(chǎn)權(quán)的基于中文標記的數(shù)字中心圖像視頻資源綜合檢索方法。

2.1基于OCR的文檔圖像檢索

在海量的視頻圖像數(shù)據(jù)中，其中一部分可進行正確的OCR識別，進行上下文標記,完全可用傳統(tǒng)信息檢索技術(shù)檢索。對于各語系而言，其檢索技術(shù)是相通的，只是OCR技術(shù)不同而已，但受到OCR技術(shù)的限制和視頻圖像本身質(zhì)量的影響。在許多情況下，OCR識別結(jié)果并不盡人意，識別正確率對檢索結(jié)果影響很大。目前，主要有兩種容忍OCR識別錯誤的方法:一是對查詢詞進行擴充，估算OCR轉(zhuǎn)換錯誤，并對OCR誤差詞進行檢索；二是采用單詞距離匹配的策略，主要是通過在矢量空間中進行詞與詞的匹配，計算出查詢詞與OCR識別目標的距離來排序。采取這兩種檢索誤差容忍技術(shù)后，檢索正確率明顯提高，但統(tǒng)計顯示，當OCR識別正確率低于75%時，視頻圖像檢索質(zhì)量將很難達到用戶滿意。

2.2基于圖像特征的圖像視頻檢索

視頻資料中，大量的關(guān)鍵幀、鏡頭是不能進行OCR識別的，主要有以下幾個方面原因：其一是技術(shù)限制。由于OCR技術(shù)本身的局限，對于非規(guī)則字體、復(fù)雜背景、圖像質(zhì)量差、字符嚴重形變/扭曲、字符分割不完整等情況，OCR無能為力。即使能部分識別正確，但需要大量的人工校正，效率很低。其二是功能限制。對于簽字或者印章等需要用于確定性的具有法律效力的文件，不適合采用OCR進行識別。例如，史料文獻、名人手跡、重要的人工標記與墨跡、書法書畫等也只能以文檔圖像的格式呈現(xiàn)。

基于圖像特征的檢索技術(shù)已經(jīng)被越來越多的專家學(xué)者所研究?；趫D像特征的檢索過程與CBIR(ContentBasedImageRetrieval)過程相似，但技術(shù)迥異。CBIR常用的顏紋理等基本特征不再有效，必須根據(jù)文檔圖像本身特點，抽取相應(yīng)圖像視頻特征及規(guī)律進行檢索，目前研究主要集中于基于內(nèi)容相似性和基于關(guān)鍵詞檢索。基于文檔凸顯內(nèi)容相似性的建設(shè)主要是抽取基于文檔全局特征與基于幀圖像的局部特征來進行。全局特征主要有字符紋理統(tǒng)計、直方圖統(tǒng)計、字符投影分布、字符行統(tǒng)計等，而局部特征主要是字符圖像塊的區(qū)域?qū)挾?、位置與面積等。還可將幀頁面分為多層網(wǎng)格，抽取每個網(wǎng)格特征，進行基于網(wǎng)格的相似性比較。為了克服網(wǎng)絡(luò)尺寸最優(yōu)選擇的一些問題，Cesarini、Mairinai等利用基于MXY樹進行檢索，在圖像區(qū)域分割時建立MXY,綜合全局特征與MXY樹結(jié)構(gòu)特征形成特征矢量進行相似性比較。

2.3基于標記的圖像視頻檢索

在基于空域語義上下文的概念標注優(yōu)化中，Jiang等人基于概念之間的相關(guān)性學(xué)習(xí)得到一個語義圖模型，在對某個鏡頭進行標注時，首先得到各個概念對于這個鏡頭的預(yù)測結(jié)果,然后利用這個圖模型對預(yù)測結(jié)果進行平滑優(yōu)化，并且在這個過程中考慮數(shù)據(jù)跨域的問題，即訓(xùn)練語義圖模型的數(shù)據(jù)和對之進行優(yōu)化的數(shù)據(jù)來自于不同的域，取得了較好的結(jié)果。Smith等人提出了一種DiscriminativeModelFusion(DMF)方法，該方法將不同概念檢測子對鏡頭的輸出概率形成一個向量，然后以這個向量為鏡頭特征進訓(xùn)練，并預(yù)測概念標注結(jié)果。Jiang等人對這個方法進行了修改，加入了用戶提供的標注信息。這些方法的問題在于，它們受限于語義詞典的大小，只在詞典中的概念數(shù)目較少的時候證明比較有效。

3基于中文標記的數(shù)據(jù)中心視頻圖像資源綜合檢索方法

3.1主要技術(shù)原理

在大數(shù)據(jù)時代，針對數(shù)據(jù)中心中文視頻圖像的特征，本文研究提出一種基于中文標記的數(shù)據(jù)中心視頻圖像資源綜合檢索方法，主要技術(shù)原理框圖如圖1所示。

圖1基于圖像視頻檢索的數(shù)據(jù)中心存儲體系結(jié)構(gòu)和服務(wù)架構(gòu)

3.2主要方法

好的存儲結(jié)構(gòu)是檢索的前提和關(guān)鍵，也是檢索的方法之一。本文所采用的檢索方法采用一種復(fù)雜應(yīng)用環(huán)境下數(shù)據(jù)中心體系結(jié)構(gòu)和服務(wù)架構(gòu)。

首先，采用特征描述的視頻圖像檢索方式。特征提取是圖像處理中的一個初級運算，也就是說它是對一個圖像進行的第一個運算處理。它檢查每個像素來確定該像素是否代表一個特征。假如它是一個更大的算法的一部分，那么這個算法一般只檢查圖像的特征區(qū)域。作為特征提取的一個前提運算，輸入圖像一般通過高斯模糊核在尺度空間中被平滑。此后通過局部導(dǎo)數(shù)運算來計算圖像的一個或多個特征。有時,假如特征提取需要許多的計算時間，而可以使用的時間有限制，一個高層次算法可以用來控制特征提取階層，這樣僅圖像的部分被用來尋找特征。由于許多計算機圖像算法使用特征提取作為其初級計算步驟，因此有大量特征提取算法被發(fā)展，其提取的特征各種各樣，它們的計算復(fù)雜性和可重復(fù)性也非常不同。

其次，數(shù)據(jù)中心圖像視頻文檔特征提取和索引建模技術(shù)是高效檢索的關(guān)鍵。如前所述，視頻內(nèi)容本身包含豐富的視覺上下文信息，這些上下文信息是自然存在的，而不是相互獨立的，一般可分為兩類，即空域視覺上下文信息和時域視覺上下文信息?？沼蛞曈X上下文是指視覺幀內(nèi)部的視覺信息之間存在的相關(guān)性。本項目針對空域視覺上下文信息和時域視覺上下文信息進行建模，為圖像視頻的快速檢索提供基礎(chǔ)。

4基于中文標記的圖像視頻綜合檢索特點

基于中文標記的圖像視頻綜合檢索方法主要有以下特點。首先是提出了特征描述方法。對于一個給定的視頻鏡頭,在三維網(wǎng)格上進行采樣，對于采樣得到的點進行聚類，形成視覺詞典，把每個采樣點映射到特征空間離它最近的那個視覺詞。這樣，一個視頻鏡頭就可以看作是一個由視覺詞組成的立方體結(jié)構(gòu)。然后,根據(jù)視覺詞在立方體結(jié)構(gòu)中的相對位置,把它們看做一個視覺詞的序列，并用一個擴展的馬爾科夫鏈對之進行建模。這樣，視覺詞在時空域中的關(guān)系可以用該模型中的狀態(tài)轉(zhuǎn)移矩陣進行描述，并和原始的Bag-of-words特征結(jié)合，作為視頻內(nèi)容的特征描述，可以有效提高其區(qū)分不同內(nèi)容視頻的能力。我們把該特征應(yīng)用到兩個不同的問題中，即視頻概念標注和動作識別。

其次，提出一種兩階段的視頻概念標注優(yōu)化方法。思路大致如下：一方面，分別利用星型結(jié)構(gòu)和鏈式結(jié)構(gòu)的ConditionalRandomFiled(CRF，條件隨機場)對視頻中的空域語義上下文和時域語義上下文進行建模，并借用其訓(xùn)練預(yù)測方法完成優(yōu)化過程。和現(xiàn)有方法相比，本文方法能夠更為準確地對概念之間的相互關(guān)系進行描述。利用訓(xùn)練集中人工標注的語義信息，體現(xiàn)人類對于視頻內(nèi)容和語義概念的理解，該方法能夠有效提高概念標注的結(jié)果。由于訓(xùn)練數(shù)據(jù)的局限性和問題本身的復(fù)雜性，基于語義上下文的優(yōu)化方法不可能完美地對概念之間的關(guān)系進行建模，因此，本項目提出一種基于半監(jiān)督學(xué)習(xí)的調(diào)整方法，作為基于語義上下文優(yōu)化方法的有效補充：認為得分較高的鏡頭被進行了正確的標注，通過在視頻鏡頭之間建立圖結(jié)構(gòu)，利用視覺上的相似性，采用半監(jiān)督學(xué)習(xí)的方法用概念標注中置信度較高的優(yōu)化結(jié)果對其余結(jié)果進行調(diào)整，能夠進一步提高視頻概念標注的準確率。

最后，提出一種基于顏色聚類和多幀融合的視頻文字識別方法。主要思路大致如下：首先，在視頻文字檢測中，統(tǒng)一考慮了文字區(qū)域圖像的兩個明顯特征致顏色和密集邊緣，采用近鄰傳播聚類算法，基于圖像中邊緣顏色的復(fù)雜程度,自適應(yīng)地把彩色邊緣分解到多個邊緣子圖中，使得在各個子圖中檢測文字區(qū)域更加準確。其次，在視頻文字增強中，根據(jù)文字筆畫強度圖，過濾掉模糊文字區(qū)域，并綜合平均融合和最小值融合，對在不同視頻幀中檢測到的，包含相同內(nèi)容的文字區(qū)域圖像進行融合，能夠得到背景更為簡單，筆畫更為清晰的文字區(qū)域圖像。再次，在視頻文字提取中，一方面，通過自適應(yīng)地選取具有較高文字對比度的顏色分量進行二值化,能夠得到比現(xiàn)有的方法更好的二值化結(jié)果；另一方面，基于圖像中文字與背景的顏色差異，利用顏色聚類進行噪聲去除,能夠更為有效地提高文字識別率。實驗證明本文提出的基于中文標記的圖像視頻檢索方法能夠較好地完成視頻圖像檢索。

5結(jié)語

大數(shù)據(jù)時代數(shù)據(jù)中心檢索載體多樣化、檢索手段綜合化、檢索時機全域化，各類數(shù)據(jù)中心不僅存儲容量急劇增加，而且視頻、圖像等多媒體數(shù)據(jù)比重逐年增加，因此提高檢索效率，增加數(shù)據(jù)的可用性成為多媒體數(shù)據(jù)中心的重要任務(wù)。多媒體數(shù)據(jù)檢索方式多樣，檢索原理復(fù)雜，目前還處于起步階段,伴隨我國經(jīng)濟社會的快速發(fā)展，大數(shù)據(jù)時代即將來臨，各行各業(yè)數(shù)據(jù)的不斷融合，圖像視頻檢索必將大顯身手。

20211115_619282d6d4029__大數(shù)據(jù)時代基于中文標記的圖像視頻綜合檢索方法研究