當前位置:首頁 > 通信技術 > 通信技術
[導讀]移動通信業(yè)是典型的數(shù)據(jù)密集型行業(yè),隨著通信體制改革的深化,移動通信業(yè)的競爭也日趨激烈。與其他行業(yè)相比,移動通信行業(yè)擁有更多的有關用戶的數(shù)據(jù)。誰能正確地分析這些數(shù)據(jù)所得到有用的信息,誰就能更好地向用戶提

移動通信業(yè)是典型的數(shù)據(jù)密集型行業(yè),隨著通信體制改革的深化,移動通信業(yè)的競爭也日趨激烈。與其他行業(yè)相比,移動通信行業(yè)擁有更多的有關用戶的數(shù)據(jù)。誰能正確地分析這些數(shù)據(jù)所得到有用的信息,誰就能更好地向用戶提供服務,也就能夠發(fā)現(xiàn)更多的商機,從而在競爭中獲勝。數(shù)據(jù)倉庫可以將移動通信企業(yè)的這些數(shù)據(jù)變?yōu)橛杏玫男畔碇С譀Q策,因此,數(shù)據(jù)倉庫在移動通信業(yè)中有重要的應用價值。

現(xiàn)在絕大多數(shù)的企業(yè)都在走經營分析信息化這條路,但光有綜合業(yè)務自動化系統(tǒng)或者決策支持系統(tǒng)卻沒有完善的數(shù)據(jù)支持都屬于粗放型經營分析,只算是達到了企業(yè)經營分析的自動化,還不能算是經營分析信息化。可以通過移動通信業(yè)邏輯數(shù)據(jù)模型,建立一個集中的、一致的和可擴展的數(shù)據(jù)倉庫系統(tǒng),以保證移動通信企業(yè)運用先進的經營分析系統(tǒng)建立戰(zhàn)略性的競爭優(yōu)勢。

1 數(shù)據(jù)倉庫的概念及技術

1.1 數(shù)據(jù)倉庫的概念

數(shù)據(jù)倉庫之父Bill Inmon對數(shù)據(jù)倉庫所下的定義是:數(shù)據(jù)倉庫是面向主題的、集成的、穩(wěn)定的、隨時間變化的數(shù)據(jù)集合,用以支持管理決策的過程。這個定義概括了數(shù)據(jù)倉庫的實質。從存儲方式和技術方面,數(shù)據(jù)庫領域著名的學者韓家煒教授給出另外一個描述:數(shù)據(jù)倉庫是一種多個異種數(shù)據(jù)源在單個站點以統(tǒng)一的模式組織的存儲,以支持管理決策。可見,數(shù)據(jù)倉庫是一個支持決策的過程,它有這樣一些特性:面向主題的、集成的、穩(wěn)定的、隨時間變化的,多個異種數(shù)據(jù)源在單個站點以統(tǒng)一的模式組織存儲的。

1.2 數(shù)據(jù)倉庫技術

1.2.1 數(shù)據(jù)處理

數(shù)據(jù)倉庫的數(shù)據(jù)處理(ETL)包括數(shù)據(jù)的抽取、清理、轉換與加載。把數(shù)據(jù)從操作型環(huán)境轉換到數(shù)據(jù)倉庫環(huán)境的數(shù)據(jù)抽取要實現(xiàn)技術上的變化。這種變化不僅指的是一種DBMS的變化,還包含源于操作系統(tǒng)的變化、硬件的變化、數(shù)據(jù)結構的變化。

把數(shù)據(jù)從操作型環(huán)境載入到數(shù)據(jù)倉庫環(huán)境時,如果數(shù)據(jù)以一種非集成狀態(tài)到達數(shù)據(jù)倉庫,它就不能被用來支持數(shù)據(jù)的企業(yè)視圖。數(shù)據(jù)的企業(yè)視圖是體系結構設計環(huán)境的本質之一。

數(shù)據(jù)并非只是注入數(shù)據(jù)倉庫,它在數(shù)據(jù)倉庫中也有自己的生命周期。到了一定時候,數(shù)據(jù)將從倉庫中清除。數(shù)據(jù)清理問題是數(shù)據(jù)倉庫設計人員無法回避的基本設計問題之一。從某種意義上講,數(shù)據(jù)根本不是從數(shù)據(jù)倉庫中清除,而僅是上升到更高的綜合級。

1.2.2 數(shù)據(jù)倉庫的數(shù)據(jù)模型

一個企業(yè)數(shù)據(jù)模型建造時不考慮現(xiàn)存的操作型系統(tǒng)與數(shù)據(jù)倉庫之間的差別,企業(yè)數(shù)據(jù)模型只包含原始數(shù)據(jù)。要建造一個單獨的現(xiàn)存數(shù)據(jù)模型,需要從企業(yè)數(shù)據(jù)模型開始。當企業(yè)數(shù)據(jù)模型用于操作型系統(tǒng)時,幾乎不用做什么改動。但是,企業(yè)數(shù)據(jù)模型用到數(shù)據(jù)倉庫中要做相當多的改動。首先要做的是除去純粹用于操作型環(huán)境的數(shù)據(jù);然后在企業(yè)數(shù)據(jù)模型的鍵碼結構中增加時間元素;導出數(shù)據(jù)加到企業(yè)數(shù)據(jù)模型中,在那里導出數(shù)據(jù)作為公用并只計算一次,而不重復計算;最后,操作型系統(tǒng)中的數(shù)據(jù)關系在數(shù)據(jù)倉庫中就轉變?yōu)椤叭斯りP系”。

有3個層次的數(shù)據(jù)建模:高層建模(ERD,實體關系層),中間層建模(DIS,數(shù)據(jù)項集),底層建模(物理層)。

1.2.3 數(shù)據(jù)倉庫的性能特性

確定性能特性是設計的重要一步,在數(shù)據(jù)倉庫的情況下,意味著決定數(shù)據(jù)的粒度與分割。

粒度  粒度是指數(shù)據(jù)倉庫的數(shù)據(jù)單位中保存數(shù)據(jù)的細化或綜合程度的級別。在早期建立的操作型系統(tǒng)中,粒度是用于訪問授權的。當詳細的數(shù)據(jù)被更新時,幾乎總是把它存放在最低粒度級上。但在數(shù)據(jù)倉庫環(huán)境中,對粒度不作假設。在數(shù)據(jù)倉庫環(huán)境中粒度之所以是主要的設計問題,是因為它深深影響存放在數(shù)據(jù)倉庫中的數(shù)據(jù)量的大小,以及數(shù)據(jù)倉庫所能回答的查詢類型。在數(shù)據(jù)倉庫中的數(shù)據(jù)量大小與查詢的詳細程度之間要作出權衡。

分割  人們常說,如果粒度和分割都做得很好的話,數(shù)據(jù)倉庫設計和實現(xiàn)的幾乎所有其他問題都容易解決。但是,假如粒度處理不當并且分割也沒有認真地設計與實現(xiàn),這將使其他方面的設計難以真正實現(xiàn)。對當前細節(jié)數(shù)據(jù)進行分割的總體目的是把數(shù)據(jù)劃分成小的物理單元。數(shù)據(jù)分割的重要性在于小的物理單元能為操作者和設計者在管理數(shù)據(jù)時提供比對大的物理單元更大的靈活性。

物理I/O 物理設計因素的中心在于物理I/O(輸入/輸出)。對性能來說I/O事件如此重要是因為存儲器和計算機之間的數(shù)據(jù)傳輸速度比計算機運算速度要慢大約2~3個數(shù)量級。計算機內部運算速度以毫微秒計,而數(shù)據(jù)的傳輸速度是以毫秒計。因此,物理I/O是主要影響性能的因素。為了提升性能,應在系統(tǒng)中盡量減少物理I/O。

1.2.4 樣本數(shù)據(jù)庫

樣本數(shù)據(jù)庫是數(shù)據(jù)倉庫的一種有趣的、混雜的形式,它只是真實檔案數(shù)據(jù)或輕度綜合數(shù)據(jù)的子集。術語“樣本”源于它是更大數(shù)據(jù)庫的子集(即樣本)這一事實,并需要進行定期刷新。

1.2.5 數(shù)據(jù)倉庫中的數(shù)據(jù)組織

數(shù)據(jù)倉庫中最簡單最常用的數(shù)據(jù)組織形式也許是簡單堆積結構,從操作型環(huán)境中取出每天的事務處理,然后綜合成數(shù)據(jù)倉庫記錄,這個綜合可根據(jù)顧客、帳戶或者任何組織到數(shù)據(jù)倉庫的主題領域來進行。這里的事務處理是以天來進行綜合。數(shù)據(jù)通過與前面相同的處理方法從操作型環(huán)境輸入到數(shù)據(jù)倉庫環(huán)境中。只是在輪轉綜合文件中的數(shù)據(jù)才被輸入到不同的結構形式中。第一周的7天中的活動被逐一綜合到7個每日相應的位置,到第八天,將7個每日位置的數(shù)據(jù)加到一起,并放人第一周的數(shù)據(jù)位置中。然后,第八天的每日總計加到第一個每日數(shù)據(jù)位置。

1.2.6  元數(shù)據(jù)

數(shù)據(jù)倉庫環(huán)境中一個重要方面是元數(shù)據(jù)。元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù)。只要有程序和數(shù)據(jù),元數(shù)據(jù)就是信息處理環(huán)境的一部分。但是在數(shù)據(jù)倉庫中,元數(shù)據(jù)扮演一個新的重要角色。也正因為有了元數(shù)據(jù),可以最有效地利用數(shù)據(jù)倉庫。元數(shù)據(jù)使得最終用戶/DSS分析員能夠探索各種可能性。元數(shù)據(jù)在數(shù)據(jù)倉庫的上層,并且記錄數(shù)據(jù)倉庫中對象的位置。

1.2.7 數(shù)據(jù)索引與監(jiān)視

數(shù)據(jù)倉庫的靈魂就在于靈活性和對數(shù)據(jù)的不可預測的訪問。數(shù)據(jù)倉庫中的數(shù)據(jù)如果不能方便和有效地檢索,那么建立數(shù)據(jù)倉庫這項工作就不成功。當然,設計者可以利用許多方法來使數(shù)據(jù)盡可能的靈活,例如利用雙重粒度級和數(shù)據(jù)分割。但這些技術一定要支持方便的索引,如二級索引、稀疏索引、動態(tài)索引、臨時索引等。而且建立和應用索引的費用不能太高。同時數(shù)據(jù)倉庫中的數(shù)據(jù)也應能隨意地被監(jiān)視,監(jiān)視數(shù)據(jù)的費用也不能太高,過程不能太復雜,監(jiān)視程序在需要時應能隨時運行。

1.2.8 數(shù)據(jù)周期

所謂數(shù)據(jù)周期是指從操作型環(huán)境數(shù)據(jù)發(fā)生改變起,到這個變化反映到數(shù)據(jù)倉庫中所用的時間。原則上從操作型環(huán)境知道數(shù)據(jù)的改變到這個變化反映到數(shù)據(jù)倉庫中至少應該經歷24 h。沒有必要急于把這個變化轉入信息倉庫中去,原因在于如果操作型環(huán)境與數(shù)據(jù)倉庫相互之間結合得越緊密,那么所需的費用就越昂貴,技術也越復雜。24 h的時間間隔以現(xiàn)有技術來說將很容易被實現(xiàn)。更有說服力的一個原因是,時間間隔給環(huán)境附加了一個特殊的限制。間隔24 h,使得在數(shù)據(jù)倉庫中不必做操作型處理;在操作型環(huán)境中不必做數(shù)據(jù)倉庫處理。時間間隔的另一個好處是在轉入數(shù)據(jù)倉庫之前,數(shù)據(jù)能達到穩(wěn)定。

1.2.9 數(shù)據(jù)分析

數(shù)據(jù)分析技術是指一種能夠應用在數(shù)據(jù)倉庫基礎之上,進行業(yè)務應用分析的數(shù)學方法。在現(xiàn)階段主要包括OLAP技術、數(shù)據(jù)挖掘技術、統(tǒng)計分析技術、聯(lián)機挖掘等內容。

OLAP技術也叫聯(lián)機分析處理。是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉化出來的、能夠真正為用戶所理解、并真實反映企業(yè)維特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更加深入了解的一類軟件技術。

OLAP技術的技術核心就是維。如地理維、時間維等。維也可以分層次的。例如時間維可以向下分成日期、月份、季節(jié)、年等不同的層次;地理維可以向下劃分為區(qū)、省、市、縣、鄉(xiāng)等層次。
2 數(shù)據(jù)處理方案的選擇

對于移動通信企業(yè)而言,數(shù)據(jù)倉庫的實施是對移動經營分析管理的一次提升,因此要謹慎地選擇適合需要的數(shù)據(jù)倉庫數(shù)據(jù)處理與分析產品。目前主流數(shù)據(jù)倉庫的數(shù)據(jù)處理專業(yè)工具有:CA,NCR,IBM,Informix(IBM),Oracle和SAS

經過采樣測試和對用戶的調查,SAS效率較其他工具高,ETL的效果較好,適合經營分析領域的數(shù)據(jù)處理。在國際學術界有條不成文的規(guī)定:凡是SAS統(tǒng)計分析的結果,可以不說明算法。通過對SAS 8.0的使用,發(fā)現(xiàn)SAS的人機對話界面很友好,既可以通過編程進行數(shù)據(jù)的處理,也可以通過在對話框選擇命令來間接得到數(shù)據(jù)處理代碼。但SAS數(shù)據(jù)處理的劣勢是它的數(shù)據(jù)倉庫是一種比較落后的數(shù)據(jù)集模式。

由于SAS數(shù)據(jù)處理的效率性能和相關功能及對經營分析的針對性都優(yōu)于其他專業(yè)工具。最終決定選擇SAS作為數(shù)據(jù)處理的工具,為彌補SAS數(shù)據(jù)庫技術的落后,數(shù)據(jù)倉庫的存儲還是采用最流行的Oracle。

3 數(shù)據(jù)分析方案的選擇

市場上流行的主要有Cognos,Business Objects,Brio等數(shù)據(jù)倉庫前端分析工具。對于移動通信企業(yè)經營分析系統(tǒng),除了要有基本的旋轉、切片、鉆取功能等OLAP功能以外,關鍵是有功能強大完整的Web端。Brio可以支持Web/Intranet環(huán)境,并且報表生成速度快,支持多種數(shù)據(jù)導出格式,如excel,pdf,txt,html,csv等。其離線分析方式也保證了經營分析系統(tǒng)的性能不會受到用戶的增加而減弱。Brio在這些方面比較合適企業(yè)經營分析系統(tǒng)的要求,所以我們選擇Brio作為移動通信企業(yè)經營分析系統(tǒng)的數(shù)據(jù)分析工具。

4 經營分析系統(tǒng)中數(shù)據(jù)處理的實現(xiàn)

一般來說,在企業(yè)構建分析型系統(tǒng)之前,都會已經存在若干的業(yè)務系統(tǒng)。來自這些系統(tǒng)的數(shù)據(jù)代表了企業(yè)目前的業(yè)務狀況。這些數(shù)據(jù)一般是高粒度的,即達到非常細節(jié)的程度(例如移動通信行業(yè)里面的詳細通話記錄等)。來自移動業(yè)務系統(tǒng)的實時數(shù)據(jù)是企業(yè)數(shù)據(jù)倉庫的最重要的數(shù)據(jù)來源,但是,在這些數(shù)據(jù)進入數(shù)據(jù)倉庫之前,必須經過抽取、轉換、加載等多個工序的處理。

典型的數(shù)據(jù)抽取接口包括數(shù)據(jù)庫接口和文件接口,對于不同的數(shù)據(jù)平臺、不同源數(shù)據(jù)形式、不同性能要求和業(yè)務量的源數(shù)據(jù)以及不同數(shù)據(jù)量的源數(shù)據(jù),采取不同的數(shù)據(jù)抽取接口。數(shù)據(jù)轉換是指從業(yè)務系統(tǒng)中抽取的源數(shù)據(jù)根據(jù)數(shù)據(jù)倉庫系統(tǒng)模型的要求,進行數(shù)據(jù)的轉換、清洗、合并、拆分、匯總等處理,保證來自不同系統(tǒng)、不同格式的數(shù)據(jù)的一致性和完整性。數(shù)據(jù)加載就是將從數(shù)據(jù)源系統(tǒng)中抽取轉換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫系統(tǒng)中。數(shù)據(jù)加載策略要考慮加載周期以及數(shù)據(jù)追加策略方面的問題。

對于數(shù)據(jù)的抽取與轉換過程中發(fā)現(xiàn)的錯誤數(shù)據(jù),在加載到數(shù)據(jù)倉庫的同時,打上錯誤數(shù)據(jù)的標簽,并結邏輯上集中存放。

目前,移動通信行業(yè)已經建立起自己的BOSS(Business Operation Support System)系統(tǒng),對自身的計費系統(tǒng)和客戶服務系統(tǒng)等專業(yè)業(yè)務系統(tǒng)數(shù)據(jù)進行了整合。這就是經營分析主要的數(shù)據(jù)源。

經營分析數(shù)據(jù)處理的意義在于通過處理,一方面提高數(shù)據(jù)的質量;另一方面,使數(shù)據(jù)從適應業(yè)務系統(tǒng)(OLTP)的數(shù)據(jù)模式轉換為適應分析系統(tǒng)的數(shù)據(jù)模式。

5 經營分析系統(tǒng)中數(shù)據(jù)分析的實現(xiàn)

數(shù)據(jù)分析技術是建立在一定的數(shù)據(jù)基礎上的,進行分析的方法通常包括:OLAP分析、數(shù)據(jù)挖掘、統(tǒng)計分析、聯(lián)機挖掘(OLAM)等。需要說明的是,數(shù)據(jù)分析技術不一定要建立在數(shù)據(jù)倉庫基礎上,但有了數(shù)據(jù)倉庫,數(shù)據(jù)分析的效率和能力將大大提高。

移動通信企業(yè)經營分析系統(tǒng)分析部分的邏輯結構主要分三部分:服務器,其中包括網絡應用服務器與查詢服務器兩個模塊;以Client/Server方式的客戶端;以Web方式的客戶端。

網絡應用服務器可以讓客戶在網上查詢、集中管理客戶、報表的安全性和可適應得報表。查詢服務器按照預定時間自動進行查詢處理并通過E-mail、網絡、打印機和Web分發(fā)報表。

移動通信企業(yè)經營分析系統(tǒng)的主界面顯示的是近一季度全公司各種業(yè)務的業(yè)績水平。具體的分析主題可以通過主界面進行一些功能模塊選擇,主要分為長話流向分析,時段分析,消費水平分析3個功能模塊。

通過對各種角度的需求分析,總結分析內容的一般細化方法。主題的劃分實際上與分析內容的范圍直接相關,主題劃分清楚后,下一步就是細化分析以及根據(jù)分析內容的性質確定它在數(shù)據(jù)倉庫中的位置。通常維元素對應分析角度,而度量對應分析關心的具體指標,在數(shù)據(jù)倉庫中體現(xiàn)在話費數(shù)額,通話張數(shù),通話時長等方面。一個指標究竟是作為維元素、度量還是維屬性,取決于具體的業(yè)務需求,但從實際操作中可以總結出如下的概念性經驗:作為維元素或維屬性的通常是離散型的數(shù)據(jù),只允許有限的取值;作為度量的是連續(xù)型數(shù)據(jù),取值無限。如果一定要用連續(xù)型數(shù)據(jù)作為維元素,則必須對其按取值進行分段,以分段值作為實際的維元素,就像為了取消費水平為維元素,就對客戶群的消費水平進行分段。判斷分析指標是作為維元素還是維屬性時,則需綜合考慮這個指標占用的存儲空間與相關查詢的使用頻度。需要強調的是,在細化分析內容的過程中,務必解決指標的歧義問題。在不同報表中以及在業(yè)務訪談中同一名稱的指標,是不是在同樣條件限定下,通過同樣方法提取或計算得到的,它們之間的相互關系是什么,這些問題都必須從熟悉業(yè)務的分析人員那里得到準確、清晰的答案,否則將影響到模型設計、數(shù)據(jù)提取、數(shù)據(jù)展現(xiàn)等多個方面。

6 結語

本文分析和探討了在移動通信企業(yè)中建立基于數(shù)據(jù)倉庫的經營分析系統(tǒng)的若干問題,并進行了相關的設計。但討論尚不全面,需要在工作中繼續(xù)研究。

移動通信企業(yè)日益增多的信息數(shù)據(jù)無疑是一個巨大的聚寶盆,通過對數(shù)據(jù)的不斷分析研究,挖掘出更深層次的內容找出更多有價值的規(guī)律,需要企業(yè)各層面的人員共同協(xié)作、長期參與,而這給移動通信企業(yè)帶來的效益也將是源源不斷的。
 

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉