當(dāng)前位置:首頁 > 物聯(lián)網(wǎng) > 感知層
[導(dǎo)讀]RFID數(shù)據(jù)有很多自己的特性,需要進(jìn)行復(fù)雜的數(shù)據(jù)清洗工作,這就需要在處理過程中對數(shù)據(jù)進(jìn)行壓縮,并創(chuàng)建有效的數(shù)據(jù)倉庫結(jié)構(gòu)來存儲這些數(shù)據(jù),在減少RFID數(shù)據(jù)量的同時(shí)保留數(shù)據(jù)本身攜帶的相關(guān)信息。這在數(shù)據(jù)壓縮算法、數(shù)據(jù)倉庫模型等方面都提供了可供繼續(xù)研究的內(nèi)容。RFID會使得原來的供應(yīng)鏈管理系統(tǒng)變得更為智能,它改進(jìn)了原始的二維條形碼,使得相應(yīng)的貨物跟蹤和訂單管理的過程變得簡易。近幾年沃爾瑪開始在它們的供應(yīng)鏈系統(tǒng)中使用這種技術(shù),RFID還被廣泛應(yīng)用于軍事、郵政、航空、醫(yī)療等領(lǐng)域。由RFID的廣泛應(yīng)用而帶來的新事物就是“物聯(lián)網(wǎng)”,它意味著人們能通過無線網(wǎng)絡(luò)隨時(shí)獲取數(shù)以億計(jì)物品的位置及相關(guān)信息。

RFID數(shù)據(jù)有很多自己的特性,需要進(jìn)行復(fù)雜的數(shù)據(jù)清洗工作,這就需要在處理過程中對數(shù)據(jù)進(jìn)行壓縮,并創(chuàng)建有效的數(shù)據(jù)倉庫結(jié)構(gòu)來存儲這些數(shù)據(jù),在減少RFID數(shù)據(jù)量的同時(shí)保留數(shù)據(jù)本身攜帶的相關(guān)信息。這在數(shù)據(jù)壓縮算法、數(shù)據(jù)倉庫模型等方面都提供了可供繼續(xù)研究的內(nèi)容。RFID會使得原來的供應(yīng)鏈管理系統(tǒng)變得更為智能,它改進(jìn)了原始的二維條形碼,使得相應(yīng)的貨物跟蹤和訂單管理的過程變得簡易。近幾年沃爾瑪開始在它們的供應(yīng)鏈系統(tǒng)中使用這種技術(shù),RFID還被廣泛應(yīng)用于軍事、郵政、航空、醫(yī)療等領(lǐng)域。由RFID的廣泛應(yīng)用而帶來的新事物就是“物聯(lián)網(wǎng)”,它意味著人們能通過無線網(wǎng)絡(luò)隨時(shí)獲取數(shù)以億計(jì)物品的位置及相關(guān)信息。

RFID作為一種自動識別標(biāo)簽,是通過射頻信號來自動識別目標(biāo)對象從而獲取相應(yīng)的數(shù)據(jù)。RFID標(biāo)簽有很多種的識別方式,但最為常見的是存儲一個唯一的序列號來標(biāo)識一個人或者物品的信息。它是通過一個帶有天線的微芯片來傳輸信息,芯片借助天線將識別信息傳輸給一個RFID閱讀器。這種技術(shù)讓用戶能通過一個RFID閱讀器遠(yuǎn)距離、非接觸地讀取數(shù)據(jù),在這個過程中閱讀器和芯片之間不需要有機(jī)械或光學(xué)的接觸,并且這個過程不需要人工干預(yù),在任何環(huán)境當(dāng)中均可自發(fā)完成。

Jiawei Han(2006)認(rèn)為在數(shù)據(jù)倉庫領(lǐng)域?qū)FID數(shù)據(jù)的研究主要分為三個方向:第一個方向在于安全地收集和管理RFID標(biāo)簽攜帶的信息;第二個方向是清理RFID數(shù)據(jù)中的誤差數(shù)據(jù);第三個方向是創(chuàng)建一個多維度的數(shù)據(jù)倉庫,以提供對大量RFID數(shù)據(jù)集的OLAP操作。這也是本文的討論內(nèi)容。

 

 RFID數(shù)據(jù)特性

RFID數(shù)據(jù)完全不同于傳統(tǒng)的關(guān)聯(lián)技術(shù)或者數(shù)據(jù)倉庫技術(shù)中的數(shù)據(jù),對這些不同之處的研究正是對RFID數(shù)據(jù)進(jìn)行數(shù)據(jù)建倉工作的起點(diǎn),RFID數(shù)據(jù)主要有如下一些特性:

數(shù)據(jù)簡單:RFID所產(chǎn)生的數(shù)據(jù)可視為一個RFID元數(shù)據(jù)的流,元數(shù)據(jù)的結(jié)構(gòu)主要是EPC、LocaTIon、TIme,EPC是Electronic Product Code的縮寫,即電子產(chǎn)品代碼,它用來唯一識別一個物品。LocaTIon是RFID閱讀器讀取該物品時(shí)的所在位置,TIme就是讀取時(shí)的時(shí)間。這種數(shù)據(jù)格式并沒有攜帶太復(fù)雜的信息,簡單易讀。

數(shù)據(jù)海量:RFID應(yīng)用的重要挑戰(zhàn)就是由此產(chǎn)生的海量數(shù)據(jù)。

數(shù)據(jù)誤差:RFID數(shù)據(jù)的另一個重要問題是RFID閱讀器在產(chǎn)生數(shù)據(jù)流時(shí)會有誤差。在實(shí)際應(yīng)用當(dāng)中RFID閱讀率大概在60%~70%之間。

允許冗余:RFID閱讀器每隔固定一段時(shí)間就會產(chǎn)生一個(EPC,location,time)格式的元數(shù)據(jù),當(dāng)一個物體停留在相同的地點(diǎn)一段時(shí)間就會有很多元數(shù)據(jù)產(chǎn)生,這就形成的數(shù)據(jù)的冗余,我們同樣需要對這些冗余進(jìn)行處理。

 RFID數(shù)據(jù)清理

數(shù)據(jù)清洗是在數(shù)據(jù)處理過程中最常見的問題之一,比如在數(shù)據(jù)倉庫當(dāng)中進(jìn)行各種預(yù)定義的成熟操作當(dāng)中都涉及到這一過程。在RFID當(dāng)中的數(shù)據(jù)主要存在以下三種問題:缺失值,數(shù)據(jù)錯誤,數(shù)據(jù)冗余。

 缺失值和數(shù)據(jù)錯誤的處理

缺失值和數(shù)據(jù)錯誤這類問題在RFID應(yīng)用當(dāng)中非常常見,因?yàn)橐恍┖喡臒o線閱讀器在無線通信過程中會出錯。很多學(xué)者針對這類問題提出了若干解決方案,Yijian Bai(2007)提出的有效的RFID數(shù)據(jù)流過濾技術(shù)、Shawn(2007)提出的ESP(Extensible Sensor Stream Processing,在線清洗多層框架系統(tǒng)),付菡提出的基于定長滑動窗口的清洗技術(shù)等等。其中ESP作為主要的數(shù)據(jù)流清洗方法分為五個階段,每個階段都對應(yīng)一個不同數(shù)據(jù)處理的邏輯過程。ESP系統(tǒng)針對數(shù)據(jù)的時(shí)間粒度和空間粒度,通過說明性的查詢語言來解決用戶定義的功能,并通過實(shí)驗(yàn)證明ESP也適合于RFID數(shù)據(jù)流。

針對RFID數(shù)據(jù)流固有的不可靠性,以及定長滑動窗口的窗口大小不容易確定,Shawn還提出了一種自適應(yīng)的改變滑動窗口大小的RFID數(shù)據(jù)清洗方法——SMURF。

 數(shù)據(jù)冗余

數(shù)據(jù)冗余的問題在RFID應(yīng)用當(dāng)中也非常嚴(yán)重。數(shù)據(jù)的冗余主要有兩個層面:在閱讀層面的冗余以及數(shù)據(jù)層面的冗余。

①閱讀層面的冗余:這種冗余是指一個RFID標(biāo)簽在同一個地點(diǎn)被不同的RFID閱讀器重復(fù)讀取。解決這種問題的一個辦法是,當(dāng)一個RFID閱讀器打開時(shí)其它有交叉部分的閱讀器暫時(shí)關(guān)閉;其次,每個RFID閱讀器計(jì)算出它所覆蓋的RFID標(biāo)簽的數(shù)目,然后將這個數(shù)據(jù)向它所覆蓋的每個RFID標(biāo)簽中書寫。如果一個閱讀器一個標(biāo)簽都沒有鎖定,則這個閱讀器為多余的。

但是這個算法當(dāng)中有一個假定,就是每個閱讀器會在同一位置持續(xù)很長時(shí)間,然而在實(shí)際中很多閱讀器是隨時(shí)移動的。

②數(shù)據(jù)層面的冗余:Han JW提出了一種簡化RFID數(shù)據(jù)源的方式。每一個閱讀器產(chǎn)生RFID元數(shù)據(jù)(EPC,location,time),當(dāng)一個物品停留在一個地方一段時(shí)間后會持續(xù)產(chǎn)生這樣的元數(shù)據(jù),解決方法將元數(shù)據(jù)處理成(EPC,location,time_in,time_out)這樣的數(shù)據(jù)格式。在多數(shù)時(shí)候許多物品都是一起移動的,比如一整集裝箱的洗發(fā)水從工廠出來后,在各物流中心中轉(zhuǎn),直至被擺放到貨架上。因此,我們用(EPC list,location,time_in,time_out)格式來進(jìn)行儲存有助于減少冗余。

RFID數(shù)據(jù)倉庫的構(gòu)建

因?yàn)镽FID數(shù)據(jù)的諸多特性,RFID數(shù)據(jù)倉庫的建立也不同于傳統(tǒng)的數(shù)據(jù)倉庫。假設(shè)我們已經(jīng)將數(shù)據(jù)進(jìn)行了清洗,得到了以(EPC,location,time_in,time_out)格式的數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)處理技術(shù)也許能夠找出在指定地點(diǎn),指定時(shí)間的相應(yīng)信息,但是對這些數(shù)據(jù)之間的聯(lián)系則缺少相應(yīng)的研究方法,比如如何尋找某些類別的商品從A地到B地的相關(guān)信息方面,并沒有很好的處理技術(shù)。為了滿足用戶對信息的需求,并結(jié)合RFID數(shù)據(jù)本身的特點(diǎn),Hector Gonzalez,Xiaolei Li(2006)提出了構(gòu)建RFID數(shù)據(jù)倉庫并進(jìn)行數(shù)據(jù)處理的一些相關(guān)技術(shù)。建立RFID數(shù)據(jù)倉庫,Han等提出了兩類模型:一類是Path Cube,另外一類是Workflow Cube。

Workflow Cube模型

Workflow cube是一個data cube的模型,在這個模型在多維的抽象層次上涵蓋了物體的移動流中的信息。它主要從兩個角度來觀察這些數(shù)據(jù),一個是從物品的角度,另一個是從路徑的角度。

所謂物品的角度就是物品可以有多個抽象層次,物品可以是單個物品層次,也可以是一個小類或者一個大類。如鞋類包括運(yùn)動鞋、皮鞋等,運(yùn)動鞋下面又有品牌分類。所謂路徑的角度就是物品存儲可以有多個抽象層次,作為一個賣場不需要關(guān)心運(yùn)來的貨物經(jīng)過了哪些中轉(zhuǎn)站,而作為中轉(zhuǎn)站也不需要關(guān)心貨物進(jìn)入賣場后會放在哪個貨架上。

Workflow cube使用流向圖計(jì)算每個工作流的概率,流向圖就是一個樹形結(jié)構(gòu)圖,樹的每個節(jié)點(diǎn)是一個地點(diǎn),樹的連線表示物品在兩個地點(diǎn)間的移動。Path Cube和Workflow Cube與傳統(tǒng)的data cube有很多共同之處,如每個維度都有一個概念層次,因此它們都可以用星形模式來模擬。Path Cube的不同之處就在于它在多維空間內(nèi)對物體的移動進(jìn)行了建模。Workflow Cube則是使用了復(fù)雜的概率模型,同時(shí)它還從物品和路徑兩個角度來建模。

Path Cube模型

Path cube 壓縮并整合了一些物體移動的過程中的地點(diǎn)時(shí)間等信息,它是在物體的維度上建立起來的。這種cube能夠有效率的處理一些OLAP的請求。在建立這種RFID的數(shù)據(jù)倉庫時(shí)使用清洗過的數(shù)據(jù)按照RFID-Cuboid的形式組合數(shù)據(jù)。RFID-Cuboid包含三種類型的表:信息表(Information Table),保存每個RFID標(biāo)簽的物體信息;停留表(Stay Table),存儲在同一個地點(diǎn)停留的物體信息;地圖表(Map Table),存儲多個相互關(guān)聯(lián)的停留記錄的路徑信息。信息表(Information Table):該表存儲的是例如物品名稱,制造商,物品價(jià)格,物品類別等和物品所經(jīng)過路徑無關(guān)的信息。這類信息的每個維度有一個相互關(guān)聯(lián)的概念層次。在這張表里,所有傳統(tǒng)的OLAP操作都可以進(jìn)行使用,和一般常見的數(shù)據(jù)倉庫類似。

停留表(Stay Table):在RFID數(shù)據(jù)處理時(shí)有一個常見場景就是大批量物品一起移動的。根據(jù)上文數(shù)據(jù)清理部分所述,每個記錄可以調(diào)整為這樣的形式《(gids,location,time_in,time_out):(m1,…,mk)》,gids是一個標(biāo)記,它指向更低級的gids,最后一個層次的gids指向一組RFID標(biāo)簽的EPC。time_in是物品進(jìn)入一個地點(diǎn)的時(shí)間,time_out是物品離開一個地點(diǎn)的時(shí)間。如果物品還沒有離開,這個值為空(NULL)。m1,…,mk是物品停留在此地測量的一些記錄,例如物品的數(shù)目,在此地平均的時(shí)間,最大的時(shí)間等量等等。

地圖表(Map Table):該表是RFID數(shù)據(jù)當(dāng)中特有的一張表,它不同于傳統(tǒng)意義上數(shù)據(jù)倉庫中的表。這張表中的數(shù)據(jù)使得處理有聯(lián)系的、同一條路徑上的信息變得容易。在每個階段使用這張表可以壓縮數(shù)據(jù)、減少數(shù)據(jù)量,同時(shí)讓信息的查詢過程變得更有效。Hector指出通過使用Path cube形式的表之后,數(shù)據(jù)倉庫所占空間大大降低,同時(shí)I/O處理的速度有效降低,這使得處理RFID數(shù)據(jù)變得更為容易。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉