大數(shù)據(jù)挖掘在寄遞業(yè)的應(yīng)用
掃描二維碼
隨時隨地手機看文章
引 言
本次研究從實戰(zhàn)理念出發(fā),從基礎(chǔ)工作做起,運用先進的大數(shù)據(jù)技術(shù)對現(xiàn)有寄遞行業(yè)數(shù)據(jù)進行整合,構(gòu)建新的大數(shù)據(jù)應(yīng)用系統(tǒng)。該系統(tǒng)建設(shè)包含本地快遞數(shù)據(jù)以及其他相關(guān)數(shù)據(jù)的數(shù)據(jù)中心,并在此數(shù)據(jù)中心基礎(chǔ)上與其他各地實現(xiàn)全國聯(lián)網(wǎng)、異地協(xié)作等功能的郵路偵控信息化平臺,通過該系統(tǒng)可與其他地市進行數(shù)據(jù)交換。通過該系統(tǒng)的建設(shè),將極大豐富行動技術(shù)部門的信息資源,形成可甄別特定信息,查除異端快件信息的監(jiān)控網(wǎng)絡(luò) [1]。
1 系統(tǒng)整體設(shè)計
系統(tǒng)針對寄遞行業(yè)特點,結(jié)合基礎(chǔ)資料進行機主信息分析、寬帶信息分析、逃犯信息分析,同時可在大數(shù)據(jù)中進行人員關(guān)系分析、號碼關(guān)系分析、物品關(guān)系分析。分析的結(jié)果可保存在中間庫,并進行信息共享,方便用戶使用。系統(tǒng)設(shè)計如圖 1 所示。
結(jié)合寄遞公司基本功能要求,系統(tǒng)以可擴展結(jié)構(gòu)實現(xiàn)多種數(shù)據(jù)的接入。針對不同的數(shù)據(jù)源可定制專屬的數(shù)據(jù)抓取工具,實現(xiàn)自動化數(shù)據(jù)抓取,系統(tǒng)中需要附帶專業(yè)的數(shù)據(jù)抓取工具。應(yīng)對不同的數(shù)據(jù)格式,實現(xiàn)可動態(tài)配置的數(shù)據(jù)格式化工具,數(shù)據(jù)格式化由數(shù)據(jù)格式化軟件負責,數(shù)據(jù)格式化軟件運行在格式化機上,主要功能包括將各種來源的數(shù)據(jù)快速、準確地轉(zhuǎn)換為統(tǒng)一格式,同時進行數(shù)據(jù)整理和標準化處理,以便于后續(xù)的處理工作。抓取的源數(shù)據(jù)其來源與格式千差萬別,具有數(shù)據(jù)量大、實時性要求高等特點,是本系統(tǒng)處理的重點。數(shù)據(jù)格式化在進行數(shù)據(jù)標準化處理時,需要進行解壓、解析、數(shù)據(jù)標準化整理、預(yù)警等過程,具有統(tǒng)一的查詢平臺和查詢接口,統(tǒng)一的預(yù)警體系和預(yù)警接口等 [2-3]。
2 大數(shù)據(jù)挖掘與應(yīng)用
系統(tǒng)支持普通查詢和綜合查詢。對于普通查詢而言,可以針對某個字段,如號碼、基站代碼、機身碼進行查詢,在普通查詢時可以輸入多個條件進行批量查詢。為了提高工作效率,這些條件既可人工輸入,也可以從其他文件中導(dǎo)入。綜合查詢時操作員可根據(jù)需要設(shè)置各種查詢條件,這些條件用“與”“或”邏輯關(guān)系組合起來 [4]。
2.1 大數(shù)據(jù)挖掘
大數(shù)據(jù)使用計算機進行分析處理。針對海量數(shù)據(jù),人腦的處理速度遠遠不比計算機處理速度快、效率高。比如對不同的粗糙粒度進行全維度分析,就需借助人機綜合系統(tǒng),而這就是科技發(fā)展帶來的優(yōu)勢 [5]。
當產(chǎn)生了抽象模型,可以針對每一個人積累的數(shù)據(jù)進行模式匹配和模式識別,從而進行針對某種特定需求的操作判斷。比如一家銷售化妝品的公司可以對積累的海量用戶消費數(shù)據(jù)進行篩選,根據(jù)模型識別匹配出目標客戶群,從而找到目標客戶群,并進行有針對性的營銷,不同用戶群接觸的媒體類型不同,尋找每個人的媒體接觸習慣與接觸時間,甚至能夠預(yù)測下一次將在什么地方接觸到,方便定向推廣預(yù)定信息,做到有的放矢,提高命中率。
大數(shù)據(jù)的挖掘運用越來越向定制化、個性化方向發(fā)展。個性化才能收到最佳效果,而個性化來自于精準的判斷,精準的判斷來自于豐富的模型和經(jīng)驗。因此只有挖掘出有價值的信息,才能使應(yīng)用更廣泛 [6-7]。
2.2 大數(shù)據(jù)應(yīng)用
系統(tǒng)運用大數(shù)據(jù)挖掘技術(shù),使用預(yù)先建立的數(shù)據(jù)模型進行大數(shù)據(jù)分析。系統(tǒng)的主要功能包括名址查詢、快速查詢、組合查詢、全文檢索、查詢模板、結(jié)果再處理、專題數(shù)據(jù)、城市信息查詢、歸屬地查詢、重點庫查詢、從業(yè)人員查詢、服務(wù)結(jié)果、審批查詢、日志查詢等。通過上述操作可以現(xiàn)實以下功能。
(1) 通過號碼(姓名、地址)等分析多個號碼(姓名、地址)間是否有快遞聯(lián)系,可在后臺執(zhí)行。從資料庫或中間庫中找出一組號碼中存在的記錄,或該組號碼不存在的記錄。根據(jù)聯(lián)系人、姓名、地址不變的原則,以原號碼為基礎(chǔ),找出某兩段時間內(nèi)同一姓名地址使用與原號碼不同的通訊工具, 該通訊工具基本可判定為同一人使用。
(2) 通過關(guān)系網(wǎng)分析,集合號碼查詢關(guān)系人或者關(guān)系人的關(guān)系人等多層次聯(lián)系對象的話單。該模型是聯(lián)系圈模型及多層次聯(lián)系對象現(xiàn)場比對分析等模型的基礎(chǔ)。以號碼為第一層號碼對其聯(lián)系對象進行統(tǒng)計 ;以第一層號碼的聯(lián)系對象為第二層、以第二層的聯(lián)系對象為第三層,依次類推,直到指定層次,組成一個關(guān)系集合。
(3) 根據(jù)人與群分的特性,多個嫌疑人可能有共同聯(lián)絡(luò)人,輸入一批嫌疑號碼,找出與他們有共同聯(lián)系的人,這些人也帶有一定的嫌疑性。
(4) 根據(jù)特定號碼收發(fā)郵件的時間來分析特定號碼的活動規(guī)律,是白天在家,還是晚上在家 ;是工作日在家,還是周末在家等。
(5) 找出郵遞頻率比較高的記錄,分析其發(fā)送郵包的內(nèi)容,查驗是否包含違禁品。
(6) 系統(tǒng)找出一個電話采用不同地址收發(fā)郵件的記錄或找出收發(fā)雙方采用不同快遞收發(fā)郵件的信息,查驗是否具有涉嫌零散組裝貨物,逃避檢查的嫌疑。
(7) 通過歸屬地與地址不符分析,找出手機歸屬地與收件地址不符的信息,進一步排除。
(8) 以物品為中心,按時間、地區(qū)、網(wǎng)點、人員、號碼等分析出特定物品的流動特性。如突發(fā)性地在一個月內(nèi)有大量筆記本電腦從 A地發(fā)往 B地,這樣的信息極其可疑 [8-10]。
3 結(jié) 語
本系統(tǒng)建立本地數(shù)據(jù)庫并從各渠道實時或定時獲取數(shù)據(jù),可以有效提供數(shù)據(jù)規(guī)范化系統(tǒng)需要的靈活的數(shù)據(jù)規(guī)范化工具,以幫助進行數(shù)據(jù)規(guī)范化工作,加快行業(yè)標準化運營發(fā)展。
系統(tǒng)實現(xiàn)數(shù)據(jù)比對,對業(yè)務(wù)數(shù)據(jù)、知識庫內(nèi)的信息進行數(shù)據(jù)關(guān)聯(lián)規(guī)則和比對策略設(shè)置,實現(xiàn)定時或即時分析與比對, 當滿足條件后,自動通報比對結(jié)果。在變化的數(shù)據(jù)入庫后執(zhí)行相關(guān)數(shù)據(jù)比對工作,細致詳盡規(guī)劃查詢信息,快遞收件人姓名、收件人手機號、收件人地址的真實程度越高,越有助于查詢異常和重點關(guān)注快件,可以提取出這類信息建立一個實時準確的人員信息庫。
利用寄遞行業(yè)數(shù)據(jù)真實程度高這一特性,結(jié)合已知的犯罪行為模式進行數(shù)據(jù)挖掘,可以類比出異常數(shù)據(jù)發(fā)現(xiàn)犯罪。后期在條件允許的情況下可以和各個公司進行聯(lián)網(wǎng)實時取得數(shù)據(jù),并進行預(yù)警,有助于公安系統(tǒng)維護社會和諧,打擊犯罪活動。