物聯(lián)網(wǎng)數(shù)據(jù)管理研究
掃描二維碼
隨時隨地手機看文章
引言
物聯(lián)網(wǎng)(InternetofThings,IoT)是通過射頻識別(RFID)、無線傳感器、全球定位系統(tǒng)、激光掃描器等信息傳感設備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進行信息交換和通訊,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡,被稱為繼計算機、互聯(lián)網(wǎng)之后世界信息產(chǎn)業(yè)的第三次浪潮。物聯(lián)網(wǎng)是由多項信息技術融合而成的新型技術體系,目前多個國家都在花巨資進行深入研究,主要集中在射頻識別RFID技術、無線傳感技術、納米技術、嵌入技術、云計算和IPV6等。
物聯(lián)網(wǎng)是在互聯(lián)網(wǎng)基礎上的延伸和擴展的網(wǎng)絡,它將終端延伸和擴展到了任何物品與物品之間。計算機和互聯(lián)網(wǎng)的出現(xiàn)創(chuàng)造了大量數(shù)據(jù),物聯(lián)網(wǎng)創(chuàng)造出的數(shù)據(jù)將遠多于互聯(lián)網(wǎng),物聯(lián)網(wǎng)包含了數(shù)以億級的節(jié)點,代表各種對象,從小型的無處不在的傳感器設備、手持設備到大型網(wǎng)絡服務器和超級計算機集群,數(shù)據(jù)每時每刻都在大量產(chǎn)生,且形式多樣,如結構化數(shù)據(jù)、半結構化數(shù)據(jù)、流數(shù)據(jù)和多維數(shù)據(jù)等,有對決策貢獻大的數(shù)據(jù),也有幫助較小的數(shù)據(jù),還有噪聲數(shù)據(jù),各種數(shù)據(jù)性質(zhì)不同,處理的方式、存儲的手段以及在此之上的信息提取方法各不相同,這些數(shù)據(jù)在不同的系統(tǒng)或場合中被使用、重用或引用,比如數(shù)據(jù)的查詢、分析等。對如此海量數(shù)據(jù)的有效處理、存儲和管理是物聯(lián)網(wǎng)得以廣泛應用的關鍵所在。而現(xiàn)有國內(nèi)外對物聯(lián)網(wǎng)的研究多集中在體系結構、RFID、傳感網(wǎng)絡和標準化以及物聯(lián)網(wǎng)中間件等,對數(shù)據(jù)方面的研究比較少,KeithG.Jeffery等指出傳統(tǒng)數(shù)據(jù)庫不適于管理物聯(lián)網(wǎng)數(shù)據(jù),AnneJames等指出了物聯(lián)網(wǎng)數(shù)據(jù)庫結構的研究方向。鑒于此,本文在分析物聯(lián)網(wǎng)數(shù)據(jù)特點的和現(xiàn)有數(shù)據(jù)管理技術的基礎上,從數(shù)據(jù)模型、數(shù)據(jù)預處理與集成、存儲與索引和查詢分析等幾個方面對物聯(lián)網(wǎng)數(shù)據(jù)進行了有益的探索。
1物聯(lián)網(wǎng)數(shù)據(jù)分析
1.1物聯(lián)網(wǎng)數(shù)據(jù)的特點
物聯(lián)網(wǎng)涉及領域多,遍及智能交通、環(huán)境保護、政府工作、公共安全、平安家居、智能消防、工業(yè)監(jiān)測、環(huán)境監(jiān)測、老人護理、個人健康、花卉栽培、水系監(jiān)測、食品溯源、敵情偵查和情報搜集等多個領域,每個領域都有各自不同的特點,同時領域之間還有合作。因此物聯(lián)網(wǎng)中數(shù)據(jù)具有如下特點:
海量;
共享;
類型多樣,包含著關系型數(shù)據(jù)、半結構化數(shù)據(jù)、流數(shù)據(jù)和多維數(shù)據(jù)和無結構的文檔等;
數(shù)據(jù)有噪聲、不一致、不確定,由于采集的數(shù)據(jù)的準確度受儀器的精度制約,同時在網(wǎng)絡傳輸過程(特別是無線網(wǎng)絡傳輸)中,數(shù)據(jù)的準確性受到帶寬、傳輸延時、能量等因素影響,而在傳感器網(wǎng)絡應用與RFID應用中,周圍環(huán)境也會影響原始數(shù)據(jù)的準確度。
1.2物聯(lián)網(wǎng)數(shù)據(jù)的組成
物聯(lián)網(wǎng)中數(shù)據(jù)有離散的,有連續(xù)的,其中既有已存在的輸入數(shù)據(jù)源,也有在對數(shù)據(jù)進行分析和處理的過程中產(chǎn)生的中間數(shù)據(jù)和最終結果數(shù)據(jù),但大體上可以分為如下幾類:
RFID標簽數(shù)據(jù):射頻標識是利用無線電波來對物品進行識別和追蹤的的常用技術,在標簽里面存儲著物品的編碼,如EPCGlobal的EPCCode,此類數(shù)據(jù)多以比較簡單的元組形式出現(xiàn)(OID,RID,T),表示某個時刻某個閱讀器讀到標簽數(shù)據(jù)。
地址/唯一名稱數(shù)據(jù):物聯(lián)網(wǎng)中用來標識一個物體的有可能是IP地址,如IPv4和IPv6,還有可能使用類似于DNS的層次命名結構如EPCGlobal的ONS。在底層,有的物品還可能采用簡單的唯一標識符的方式,比如UUIDs(UniversallyUniqueIdentifiers)和GUIDs(GloballyUniqueIdentifiers)。
描述性數(shù)據(jù):物聯(lián)網(wǎng)中的大部分數(shù)據(jù)來源于此,是描述物品的基本信息、狀態(tài)過程信息和體系信息的數(shù)據(jù)或者元數(shù)據(jù),只有知道這些數(shù)據(jù)才能最大限度的使用物聯(lián)網(wǎng)提供的服務和便利。
位置和環(huán)境數(shù)據(jù):這些數(shù)據(jù)有的來自GPS,有的來自本地定位系統(tǒng),如蜂窩基站、Wi-Fi訪問點和電視塔。
傳感器數(shù)據(jù):這是數(shù)據(jù)進入物聯(lián)網(wǎng)的渠道之一,通過組建無線傳感網(wǎng)絡用來監(jiān)測氣候、溫度、濕度等,是一些多維的時間序列數(shù)據(jù)。
歷史數(shù)據(jù):對這些數(shù)據(jù)的訪問頻率不同,必須對數(shù)據(jù)分類,制定相應保存數(shù)據(jù)和數(shù)據(jù)歸檔的策略。
物理模型:為了提升物聯(lián)網(wǎng)的功能,要包含一些常用的物理模型比如力學的、光學的、聲學的,電磁學的,以便于對物理場景的建模和仿真。
設備的狀態(tài)和命令數(shù)據(jù):物聯(lián)網(wǎng)可用于遙控設備,所以物聯(lián)網(wǎng)記錄了大量的命令數(shù)據(jù)以及設備的實時反饋信息,以便于將來的追蹤和分析。
1.3數(shù)據(jù)流轉過程
物聯(lián)網(wǎng)中數(shù)據(jù)的流轉過程如下:
利用射頻識別、二維碼、傳感器等感知、捕獲、測量技術隨時隨地對物品進行信息采集和獲取;
將物品信息轉換為適合網(wǎng)絡傳輸?shù)臄?shù)據(jù)格式,如EPCGlobal采用PML文件格式傳輸數(shù)據(jù)。
將物品的信息通過網(wǎng)絡傳輸?shù)叫畔⑻幚碇行?,該中心要具有海量感知信息的計算與處理能力,采用云計算平臺實現(xiàn)信息存儲資源和計算能力的分布式共享,為海量信息的高效利用提供支撐。
服務和應用是物聯(lián)網(wǎng)的最終價值體現(xiàn),各種應用通過訪問處理中心獲取物品的詳細信息。
2物聯(lián)網(wǎng)數(shù)據(jù)管理
工業(yè)界和學術界雖然都把對物聯(lián)網(wǎng)的研究提到一個很高的程度,但是要想讓物聯(lián)網(wǎng)真正發(fā)揮作用,就要充分利用它的海量數(shù)據(jù),從中發(fā)現(xiàn)潛在的價值。因此基于云計算平臺的信息處理中心對數(shù)據(jù)的有效管理是物聯(lián)網(wǎng)得以應用的關鍵。
通過上述物聯(lián)網(wǎng)數(shù)據(jù)分析可知,物聯(lián)網(wǎng)中存在著結構化數(shù)據(jù)如關系數(shù)據(jù)庫,半結構化數(shù)據(jù)如XML數(shù)據(jù),流數(shù)據(jù)如時間序列數(shù)據(jù),還有一些文檔、圖片、聲音、視頻等數(shù)據(jù),而這些數(shù)據(jù)之間又可能存在著千絲萬縷的聯(lián)系,采用什么樣的數(shù)據(jù)模型來有效的進行數(shù)據(jù)的表示、操作和約束,采用什么樣的存儲和索引技術,采用什么樣的查詢分析方法是物聯(lián)網(wǎng)數(shù)據(jù)管理應解決的問題,同時還要解決諸如數(shù)據(jù)保護、數(shù)據(jù)隱私、數(shù)據(jù)安全性、數(shù)據(jù)歸檔等問題。
2.1現(xiàn)有數(shù)據(jù)管理技術分析
現(xiàn)有成熟的數(shù)據(jù)管理技術是關系數(shù)據(jù)庫,用來管理結構化的數(shù)據(jù)。各種企業(yè)應用系統(tǒng)和辦公系統(tǒng)都采取這種方式,常見數(shù)據(jù)庫如SQLSERVER、ORACLE、MYSQL、DB2等,這是一種基于二維表的數(shù)據(jù)結構,數(shù)據(jù)操作基于嚴格的數(shù)據(jù)操縱語言SQL,通過保持事務的ACID特性、加鎖機制、時間戳、兩階段鎖協(xié)議和并發(fā)控制等來保證數(shù)據(jù)的一致性和相容性。關系數(shù)據(jù)庫是一種模式優(yōu)先的管理方式,也就是說數(shù)據(jù)間的聯(lián)系是經(jīng)過需求分析已經(jīng)確定好了的,而且數(shù)據(jù)類型和長度也是在數(shù)據(jù)庫中預先定義好的。關系數(shù)據(jù)庫中數(shù)據(jù)源比較單一,就是一系列的二維表,而且在整個數(shù)據(jù)管理過程中關系模式變動很少。雖然隨著數(shù)據(jù)量的增大和數(shù)據(jù)異地存儲的需要,又出現(xiàn)了分布式數(shù)據(jù)庫。但是其核心還是關系型的。
而物聯(lián)網(wǎng)中的數(shù)據(jù)源形式多樣,沒有統(tǒng)一的模式,數(shù)據(jù)存在著千絲萬縷的聯(lián)系,且聯(lián)系是松散的、滯后的,而人們使用數(shù)據(jù)多以服務的形式來調(diào)用,而事務的ACID特性不適用于Web事務處理,因為單個的Web服務本質(zhì)上來說是自治的并且只負責自身的一致性,這就會和用戶的全局事務產(chǎn)生沖突,例如預定一次旅游,不僅要預定酒店還要預定機票,用戶只關心預定旅游是否成功,但是預定機票和酒店是兩套獨立的系統(tǒng),很有可能其中一項不成功,所以兩階段提交過程是不可行的。所以不能采用傳統(tǒng)的關系數(shù)據(jù)庫技術來管理物聯(lián)網(wǎng)數(shù)據(jù)。
XML是管理半結構化數(shù)據(jù)的常用技術,具有自描述性,是針對異構數(shù)據(jù)的交換提出的,常用來實現(xiàn)模式滯后的數(shù)據(jù)集成。XML采用層次性的數(shù)據(jù)模型,通過XQuery進行數(shù)據(jù)查詢。但是它多用于描述數(shù)據(jù),如關于數(shù)據(jù)的數(shù)據(jù)-元數(shù)據(jù)就是一個很好的例子,而且XML采用樹狀結構在操作實現(xiàn)方面也不足,重要的是不能處理語義信息。
面對數(shù)據(jù)管理呈現(xiàn)的特點:海量、共享、多樣性、不確定。工業(yè)界和學術界進行了新的嘗試。
在云計算的數(shù)據(jù)管理技術中最著名的是谷歌提出的BigTable[8],這是一種為了管理結構化數(shù)據(jù)而設計的分布式存儲系統(tǒng),這些數(shù)據(jù)可以擴展到非常大的規(guī)模,例如在數(shù)千臺商用服務器上的達到PB(Petabytes)規(guī)模的數(shù)據(jù),通過采用列存儲和用三級的層次化的方式來存儲位置信息以提高存取效率和獲得高擴展性。這種數(shù)據(jù)管理技術雖然已經(jīng)投入使用,但是對類似數(shù)據(jù)庫中的Join操作效率太低,表內(nèi)數(shù)據(jù)需要切分存儲,數(shù)據(jù)類型限定為string類型過于簡單。
數(shù)據(jù)管理面臨的挑戰(zhàn)又產(chǎn)生了一種新的數(shù)據(jù)管理技術-數(shù)據(jù)空間。數(shù)據(jù)空間[9]是一種從數(shù)據(jù)到模式的管理方式,它不依賴嚴格的數(shù)據(jù)模式,數(shù)據(jù)模式可以是松散的、滯后的,數(shù)據(jù)模式是在數(shù)據(jù)的基礎上,根據(jù)主體需求逐步演化出來的。它由主體、數(shù)據(jù)集和服務構成,其中主體是數(shù)據(jù)空間的擁有者,數(shù)據(jù)集是與主體相關的所有可控數(shù)據(jù)的集合,它包含對象以及對象間的聯(lián)系,數(shù)據(jù)集隨著時間的推移和業(yè)務的擴展越來越大,主體通過服務對數(shù)據(jù)空間進行管理,例如數(shù)據(jù)分類、查詢、更新、索引等。但是對于數(shù)據(jù)空間的研究還處在起步階段,實現(xiàn)的原型系統(tǒng)還是圍繞個人數(shù)據(jù)空間管理如文件系統(tǒng)和桌面捜索。
2.2物聯(lián)網(wǎng)數(shù)據(jù)管理框架
基于上述物聯(lián)網(wǎng)數(shù)據(jù)的分析,結合現(xiàn)有數(shù)據(jù)管理技術,本文提出一個基于云計算平臺的物聯(lián)網(wǎng)數(shù)據(jù)管理框架,然后從數(shù)據(jù)模型、數(shù)據(jù)預處理與集成、數(shù)據(jù)查詢、存儲索引等幾個方面,對物聯(lián)網(wǎng)數(shù)據(jù)管理的相
關技術進行了研究,提出了如圖1所示的物聯(lián)網(wǎng)數(shù)據(jù)管理框架。該框架主要包括數(shù)據(jù)預處理與集成、分布式的數(shù)據(jù)中心,其中數(shù)據(jù)中心要解決數(shù)據(jù)模型、數(shù)據(jù)存儲與索引、查詢分析處理等問題。
2.3數(shù)據(jù)預處理與集成
這是物聯(lián)網(wǎng)數(shù)據(jù)管理應用不可缺少的組成部分。它包含3方面的內(nèi)容:
(1)數(shù)據(jù)清洗,這是物聯(lián)網(wǎng)數(shù)據(jù)管理需要考慮的重要問題,要對不準確、不精確的數(shù)據(jù)進行數(shù)據(jù)清洗、轉換等處理,包括處理缺失值,刪除重復數(shù)據(jù)等,同時要考慮物聯(lián)網(wǎng)數(shù)據(jù)采集的特殊性,如采用基于對監(jiān)控對象動態(tài)聚簇建模和高效的關聯(lián)度維護來估算真實的小組,在此基礎上進行有效的清洗;
(2)將準確數(shù)據(jù)轉化為不精確的數(shù)據(jù)或者將細粒度數(shù)據(jù)轉換為粗粒度數(shù)據(jù),從而達到安全和隱私保護等特殊目的,如采用(k,8)-匿名模型;
(3)針對物聯(lián)網(wǎng)多類型的數(shù)據(jù)源,對不同的數(shù)據(jù)格式采用不同的數(shù)據(jù)抽取技術,從特定數(shù)據(jù)項中抽取特征信息按照物聯(lián)網(wǎng)數(shù)據(jù)模型要求進行形式化表示,并通過模式匹配確定數(shù)據(jù)對象在數(shù)據(jù)中心中是否已經(jīng)存在,以便決定下一步工作,從而完成數(shù)據(jù)集成工作。
面向服務(SOA)是最近發(fā)展起來的一種架構模型,它具有較高的可靠性和自恢復能力。它的數(shù)據(jù)交換基于XML,目前WebService是實現(xiàn)SOA的最佳途徑,以服務的形式向外界提供靈活多樣的功能。通過服務描述語言(WSDL),提供對服務接口的抽象描述,通過建立在SOAP規(guī)范基礎上的消息傳遞機制實現(xiàn)服務間或服務與應用間的信息傳遞。
物聯(lián)網(wǎng)的支撐設備包括高性能計算平臺、海量存儲以及管理系統(tǒng)及數(shù)據(jù)庫等,數(shù)據(jù)預處理與集成可采用面向服務的架構,通過自行創(chuàng)建一組高內(nèi)聚低耦合的服務或者調(diào)用云計算平臺提供的服務來完成特定的功能。面向服務架構以及云計算基礎設施,必定促進物聯(lián)網(wǎng)數(shù)據(jù)的集成。
2.4數(shù)據(jù)模型
定義與場景相匹配的模型是數(shù)據(jù)管理的首要任務,數(shù)據(jù)模型包括數(shù)據(jù)結構、數(shù)據(jù)操作和數(shù)據(jù)約束,是數(shù)據(jù)管理技術的基礎和核心,它應該能夠概括物聯(lián)網(wǎng)數(shù)據(jù)的特點,提供高效的數(shù)據(jù)服務。
物聯(lián)網(wǎng)數(shù)據(jù)存在著不確定性,可能世界(PossibleWorld)模型是描述不確定性數(shù)據(jù)的通用模型,該模型包含若干個可能世界實例,所有可能世界實例的發(fā)生概率之和等于1。針對于具體的應用發(fā)展出了各種相應的模型,如針對關系型數(shù)據(jù)、半結構化數(shù)據(jù)、流數(shù)據(jù)和多維數(shù)據(jù)的模型。物聯(lián)網(wǎng)中存在著類型多樣的數(shù)據(jù),不可能用統(tǒng)一的模型來表,只能分而治之,將不同類型的數(shù)據(jù)源作為可能實例,然后再進行綜合。物聯(lián)網(wǎng)實現(xiàn)了人與人、人與物、物與物之間的互聯(lián),以人與物為主體,每個主體有自己的基本信息如標識、組成、位置、遙感數(shù)據(jù)等,還有與主體相關的過程處理等信息,主體與主體之間還存在著聯(lián)系,可以把這些信息建立起一系列資源視圖,形成以主體為節(jié)點,以主體間聯(lián)系為邊的圖,從而實現(xiàn)對各種數(shù)據(jù)類型的數(shù)據(jù)源(如文檔、關系數(shù)據(jù)庫、XML文檔、數(shù)據(jù)流等)的統(tǒng)一表示,當對物聯(lián)網(wǎng)數(shù)據(jù)發(fā)出請求時,轉化為對每種類型數(shù)據(jù)的操作和約束。
2.5數(shù)據(jù)存儲與索引
有效的存儲和索引技術能夠大幅提高數(shù)據(jù)管理效率。數(shù)據(jù)中心不僅要存儲內(nèi)容數(shù)據(jù)還要存儲元數(shù)據(jù)信息。根據(jù)物聯(lián)網(wǎng)數(shù)據(jù)的特點,采用分布式的方式來存儲數(shù)據(jù),主要還是采用現(xiàn)有的數(shù)據(jù)存儲技術,比如關系數(shù)據(jù)庫、概要數(shù)據(jù)結構、文檔樹等,不同類型的數(shù)據(jù)存儲在不同的地方,關鍵是如何獲得這些位置信息??梢圆捎梅謱咏Y構,第一級為根,包含所有存儲元數(shù)據(jù)的位置信息,第二級為元數(shù)據(jù)層,每個元數(shù)據(jù)單元包含著用戶數(shù)據(jù)的位置信息。第三層是具體的用戶數(shù)據(jù)。數(shù)據(jù)分布時,要全面考慮數(shù)據(jù)傳輸次數(shù)、數(shù)據(jù)量大小、數(shù)據(jù)間依賴關系以及數(shù)據(jù)中心間網(wǎng)絡帶寬等因素。同時為了提高數(shù)據(jù)的可靠性,要用冗余的方式來存儲數(shù)據(jù),即為同一份數(shù)據(jù)存儲多個副本,同時要保持數(shù)據(jù)的同步性。
2.6查詢分析處理
查詢分析處理是數(shù)據(jù)管理的最終目標,也是物聯(lián)網(wǎng)價值的最終體現(xiàn)。查詢分析不僅僅基于關鍵字的查詢和數(shù)據(jù)模式的結構化查詢,要能通過數(shù)據(jù)世系、聯(lián)機分析處理、數(shù)據(jù)挖掘等達到應用的目地。世系是數(shù)據(jù)管理的重要內(nèi)容,可用于追蹤不同數(shù)據(jù)源間和同一數(shù)據(jù)源內(nèi)部數(shù)據(jù)的產(chǎn)生和演化過程,物聯(lián)網(wǎng)數(shù)據(jù)的冗余性、不一致性可非常嚴重,追蹤數(shù)據(jù)的世系可以用來考察數(shù)據(jù)質(zhì)量的評價、數(shù)據(jù)核查以及數(shù)據(jù)引用等。聯(lián)機分析處理和數(shù)據(jù)挖掘一直是近些年的研究熱點,針對關系數(shù)據(jù)庫和數(shù)據(jù)倉庫的分析和挖掘已經(jīng)取得了很大進展,有一定的借鑒性,但是在實施分析處理和數(shù)據(jù)挖掘時要充分考慮數(shù)據(jù)的特點以及具體的應用。
3結語
目前在國內(nèi)外物聯(lián)網(wǎng)的研究和開發(fā)都是熱點,各個國家都將物聯(lián)網(wǎng)作為戰(zhàn)略性的產(chǎn)業(yè)予以重點關注和推進。只有將物聯(lián)網(wǎng)的數(shù)據(jù)有效地管理起來,才能真正發(fā)揮它的作用。本文闡述了物聯(lián)網(wǎng)數(shù)據(jù)的特點和組成,分析了物聯(lián)網(wǎng)數(shù)據(jù)管理面臨的問題,提出了物聯(lián)網(wǎng)數(shù)據(jù)管理框架。但是物聯(lián)網(wǎng)數(shù)據(jù)管理還面臨著重大的挑戰(zhàn)。雖然物聯(lián)網(wǎng)數(shù)據(jù)模型可以采用可能世界模型,但是可能世界實例呈指數(shù)增長,遍歷所有可能世界實例需要耗費不可估量的時空開銷;另外物聯(lián)網(wǎng)數(shù)據(jù)的存儲和處理雖然可借助于云平臺,在云基礎架構中,物理資源共享也帶來了新的數(shù)據(jù)安全和隱私危機;數(shù)據(jù)世系研究雖然取得了很大進展,但是針對物聯(lián)網(wǎng)數(shù)據(jù)的海量性和不確定性使世系關系更復雜。
20211120_6198eec13453d__物聯(lián)網(wǎng)數(shù)據(jù)管理研究