AI大數(shù)據(jù)下的云存儲(chǔ)的關(guān)鍵技術(shù)是什么
針對(duì)視頻云存儲(chǔ)技術(shù),業(yè)內(nèi)主流安防廠家可以說(shuō)已經(jīng)做得爐火純青了。安防廠家將云存儲(chǔ)的底層技術(shù)與安防專用流媒體結(jié)合,形成了安防特色云直存產(chǎn)品。無(wú)需外部設(shè)備拉流,存儲(chǔ)可直接接收前端傳輸過(guò)來(lái)的數(shù)據(jù)。但如今,安防行業(yè)也發(fā)生了翻天覆地的變化,視頻流已經(jīng)完全不能代表安防行業(yè)的數(shù)據(jù)特色了,AI時(shí)代即將來(lái)臨。
目前業(yè)內(nèi)的AI數(shù)據(jù)內(nèi)容主要有人臉數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)兩種,包含機(jī)動(dòng)車(chē)、非機(jī)動(dòng)車(chē)、行人。數(shù)據(jù)類型包含了圖片、抓拍記錄、報(bào)警記錄、圖片屬性信息等一系列非結(jié)構(gòu)化數(shù)據(jù)。這類數(shù)據(jù)的特點(diǎn)是比較碎片化,與視頻流數(shù)據(jù)類型不同。視頻流可以保證持續(xù)不斷的寫(xiě)入,而且文件打包大小比較均勻。但是碎片化的文件,由于其大小和數(shù)量都是未知,零散的寫(xiě)入對(duì)CPU和硬盤(pán)資源的消耗都是很大的。對(duì)CPU來(lái)說(shuō),需要同時(shí)處理很多的線程。對(duì)于硬盤(pán)來(lái)說(shuō),磁頭需要不斷的換道尋址,大大減少了硬盤(pán)的壽命。
對(duì)于這種比較特別的數(shù)據(jù)類型,傳統(tǒng)的流媒體服務(wù)無(wú)法進(jìn)行處理。目前主流安防廠商都為此專門(mén)開(kāi)發(fā)了用于拉取此類數(shù)據(jù)流的軟件,安裝在通用的存儲(chǔ)硬件中就可實(shí)現(xiàn)存儲(chǔ)功能。由于是新興市場(chǎng),目前絕大多數(shù)場(chǎng)景中使用單臺(tái)設(shè)備存儲(chǔ)就可以滿足,但隨著AI的普及,數(shù)據(jù)量也將不斷增大,對(duì)于一座城市來(lái)講,為了掌握城市中交通狀況,需要采集每一條道路、每一個(gè)路口的車(chē)輛數(shù)量信息、擁堵信息以及車(chē)流走向等。通過(guò)算法后的數(shù)據(jù),可以模擬城市交通的運(yùn)行狀況,以此來(lái)預(yù)測(cè)下一秒的動(dòng)向,及時(shí)作出預(yù)警方案,實(shí)現(xiàn)真正的大數(shù)據(jù)時(shí)代。當(dāng)數(shù)據(jù)規(guī)模擴(kuò)大到一定程度的時(shí)候,底層的云存儲(chǔ)機(jī)制將是人們不得不考慮的技術(shù)支撐。但這樣的話問(wèn)題就出現(xiàn)了,傳統(tǒng)安防云存儲(chǔ)只有對(duì)視頻的接入能力,無(wú)法主動(dòng)獲取結(jié)構(gòu)化數(shù)據(jù)。于是,在未來(lái)的短期內(nèi),這種AI數(shù)據(jù)云存儲(chǔ)勢(shì)必成為存儲(chǔ)應(yīng)用層的主流。
雖然通過(guò)應(yīng)用層與底層的對(duì)接,可以實(shí)現(xiàn)一體化的AI數(shù)據(jù)云存儲(chǔ),但是當(dāng)數(shù)據(jù)類型進(jìn)一步進(jìn)化,出現(xiàn)新的數(shù)據(jù)結(jié)構(gòu)時(shí),云存儲(chǔ)將如何應(yīng)對(duì)?一味地做兼容開(kāi)發(fā)勢(shì)必不是長(zhǎng)久之計(jì),還會(huì)浪費(fèi)人力物力。更糟糕的是,如果在一個(gè)現(xiàn)場(chǎng)存在多種數(shù)據(jù)類型,那就需要部署多套云存儲(chǔ)來(lái)進(jìn)行不同數(shù)據(jù)的存儲(chǔ),這對(duì)存儲(chǔ)空間是一種極大的浪費(fèi),占用的資金成本也極高,可行性極低。
針對(duì)安防行業(yè)的業(yè)務(wù)特性,云存儲(chǔ)的以下兩大技術(shù)方向需要重點(diǎn)突破:
一是高效元數(shù)據(jù)組織和框架構(gòu)建,解決大規(guī)模集群管理和海量文件的問(wèn)題。
整個(gè)分布式系統(tǒng)中需要管理的節(jié)點(diǎn)數(shù)成百上千臺(tái),用戶的一個(gè)真實(shí)文件會(huì)被分布在多臺(tái)節(jié)點(diǎn)上,由多臺(tái)節(jié)點(diǎn)負(fù)責(zé)承載真實(shí)數(shù)據(jù)的寫(xiě)入。在讀取時(shí)需要經(jīng)過(guò)元數(shù)據(jù)管理服務(wù)器請(qǐng)求拿到數(shù)據(jù)位置信息,從而發(fā)起讀取。而針對(duì)元數(shù)據(jù)請(qǐng)求的性能是逐級(jí)遞歸還是一次訪問(wèn)就能完成操作,是衡量整個(gè)系統(tǒng)性能的關(guān)鍵要素。
對(duì)于一個(gè)單獨(dú)的大文件,是否能充分發(fā)揮讀寫(xiě)性能,涉及拆分粒度問(wèn)題。元數(shù)據(jù)服務(wù)作為核心,需要能在支持上千的節(jié)點(diǎn)、上萬(wàn)的客戶端請(qǐng)求完成高速并發(fā)處理,這在基礎(chǔ)的協(xié)議框架和信令交互模型上就需要考慮齊全,通過(guò)超高協(xié)議序列化和反序列化性能、可擴(kuò)展的協(xié)議設(shè)計(jì)、網(wǎng)絡(luò)框架模型、任務(wù)處理模型這些底層基礎(chǔ)件上一層層向上,在每個(gè)環(huán)節(jié)中都做到高效處理。一個(gè)合理元數(shù)的組織結(jié)構(gòu)可以采用類型對(duì)象存儲(chǔ)的分桶方式,讓數(shù)據(jù)hash分布,實(shí)現(xiàn)文件的簡(jiǎn)單高效管理,對(duì)于桶內(nèi)數(shù)據(jù)不需要采用類似傳統(tǒng)目錄樹(shù)形式進(jìn)行逐級(jí)的遍歷,僅需一次定位就可以完成操作。
對(duì)于文件的數(shù)據(jù)塊組織管理,一方面要控制較好的粒度實(shí)現(xiàn)IO能充分發(fā)揮多節(jié)點(diǎn)多磁盤(pán)的優(yōu)勢(shì),另一方面需要降低元數(shù)據(jù)的管理壓力,提升管理的集群規(guī)模數(shù)和文件數(shù)量。在存儲(chǔ)節(jié)點(diǎn)上存在用戶的數(shù)據(jù)塊被切分成一段段落在各個(gè)磁盤(pán)內(nèi),系統(tǒng)長(zhǎng)期運(yùn)行或者重啟、掉電、字節(jié)跳變等,需要能夠?qū)⒐?jié)點(diǎn)管理的數(shù)據(jù)塊和元數(shù)據(jù)中的數(shù)據(jù)塊進(jìn)行比較,查出差異項(xiàng)完成修正,對(duì)于損壞數(shù)據(jù)提早觸發(fā)恢復(fù),這就要求元數(shù)據(jù)在組織合理,能夠快速的查找到對(duì)應(yīng)節(jié)點(diǎn)的元數(shù)據(jù)信息,并在比較處理過(guò)程中不影響其他的元數(shù)據(jù)實(shí)時(shí)訪問(wèn)和新增。
二是明確的讀寫(xiě)模型對(duì)提供業(yè)務(wù)使用語(yǔ)義,解決視頻和圖片不同寫(xiě)入和讀取要求。
常見(jiàn)的讀寫(xiě)并非提供一個(gè)接口就行,需要有明確的讀寫(xiě)語(yǔ)義。比如文件系統(tǒng)提供的是文件操作語(yǔ)義,按open/write/read/close模式,并支持seek和修改、追加的語(yǔ)義;S3接口提供的是putObject/getObject接口,按照一次完成上傳,上傳后可以見(jiàn)的語(yǔ)義;HDFS提供的是類似文件系統(tǒng)的操作語(yǔ)義,但不支持修改。
對(duì)視頻而言,應(yīng)該按照文件的語(yǔ)義但又無(wú)需支持追加和修改,僅需支持流式的寫(xiě)入,并支持邊寫(xiě)邊讀,避免業(yè)務(wù)層需要開(kāi)大緩存或者將視頻文件緩存本地才能上傳。對(duì)于圖片寫(xiě)入方式也是同理,也應(yīng)支持文件流方式寫(xiě)入。雖然看上去圖片可以一次寫(xiě)入一張,但是現(xiàn)在的圖片高清化可以有1MB或者更大,僅通過(guò)設(shè)置緩存大小完成應(yīng)用程序的一張圖寫(xiě)入,會(huì)出現(xiàn)云存儲(chǔ)的客戶端內(nèi)的內(nèi)存占用過(guò)大或者寫(xiě)入不夠平滑會(huì)存在一頓一頓的效果并引發(fā)緩存滿出現(xiàn)圖片丟失問(wèn)題。在讀取上,對(duì)一張圖片內(nèi)數(shù)據(jù)沒(méi)寫(xiě)入完成無(wú)需可讀,但是整張寫(xiě)入完成是要立即可讀。
再?gòu)奈募嵌瓤?,由于每張圖片對(duì)應(yīng)一條前端的抓拍記錄,因此對(duì)圖片地址可以隨結(jié)構(gòu)化記錄一起存儲(chǔ),對(duì)于用戶來(lái)說(shuō)無(wú)需關(guān)系圖片地址生成方式,這意味著圖片地址可以由系統(tǒng)返回進(jìn)行生成。對(duì)于視頻流存儲(chǔ)后形成的錄像文件來(lái)說(shuō),使用方可以無(wú)需記錄每段錄像文件名,通過(guò)云存儲(chǔ)提供的指定文件名能力,按照自定義的業(yè)務(wù)邏輯生成文件名,后續(xù)按照規(guī)則進(jìn)行查詢即可完成錄像列表或者指定錄像文件的回放。
另外,隨著AI在安防領(lǐng)域落地,異構(gòu)云存儲(chǔ)將存儲(chǔ)的應(yīng)用層與文件管理層、資源分配層獨(dú)立開(kāi)發(fā)部署,這樣一來(lái),做云存儲(chǔ)底層和硬件的廠商可以專心保障存儲(chǔ)機(jī)制的穩(wěn)定性,應(yīng)用廠商可以專心做不同數(shù)據(jù)類型的兼容。只要底層標(biāo)準(zhǔn)化做好,各大安防與存儲(chǔ)廠商就可以形成一個(gè)穩(wěn)定的生態(tài)合作。一方提供物理資源,一方提供上層業(yè)務(wù),不再局限于軟硬一體的產(chǎn)品模式。在此基礎(chǔ)上,一些受限于資本投入的廠家甚至可以開(kāi)發(fā)自己的云服務(wù)。上層的應(yīng)用軟件甚至可以存儲(chǔ)在云端,作為一個(gè)公用資源,讓終端用戶開(kāi)發(fā)屬于自己的專業(yè)存儲(chǔ)服務(wù)。
來(lái)源: 中國(guó)安防行業(yè)網(wǎng)