基于電子商務(wù)中的數(shù)據(jù)挖掘技術(shù)研究
掃描二維碼
隨時(shí)隨地手機(jī)看文章
國(guó)際互聯(lián)網(wǎng)絡(luò)的日益普及,各種形式的信息大量地產(chǎn)生和收集導(dǎo)致了信息爆炸?,F(xiàn)代社會(huì)的競(jìng)爭(zhēng)趨勢(shì)要求對(duì)這些信息進(jìn)行實(shí)時(shí)的和深層次的分析,雖然現(xiàn)在有了更強(qiáng)大的信息存儲(chǔ)和檢索系統(tǒng).但是用戶在分析和使用所擁有的信息方面卻變得越來越困難。如何對(duì)大量信息進(jìn)行有效組織利用,使用戶能夠從大量繁雜的信息中找出真正有價(jià)值的信息和知識(shí),幫助企業(yè)制定更好的營(yíng)銷策略。信息處理技術(shù)有了新的應(yīng)用研究課題——數(shù)據(jù)挖掘。主要討論采用數(shù)據(jù)挖掘技術(shù)在新興的電子商務(wù)領(lǐng)域的應(yīng)用研究。
2 電子商務(wù)與數(shù)據(jù)挖掘簡(jiǎn)介
電子商務(wù)是指?jìng)€(gè)人或企業(yè)通過Internet網(wǎng)絡(luò),采用數(shù)字化電子方式進(jìn)行商務(wù)數(shù)據(jù)交換和開展商務(wù)業(yè)務(wù)活動(dòng)。目前國(guó)內(nèi)已有網(wǎng)上商情廣告、電子票據(jù)交換、網(wǎng)上訂購(gòu)、網(wǎng)上銀行、網(wǎng)上支付結(jié)算等多種類型的電子商務(wù)形式。電子商務(wù)正以其成本低廉、方便、快捷、安全、可靠、不受時(shí)間和空間的限制等突出優(yōu)點(diǎn)而逐步在全球流行。服務(wù)范圍可歸類為:①商業(yè)一商業(yè)(B2B),②商業(yè)一消費(fèi)者(B2C),③商業(yè)一政府(B2G)。
數(shù)據(jù)挖掘是通過挖掘數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的大量數(shù)據(jù),從中發(fā)現(xiàn)有意義的新的關(guān)聯(lián)模式和趨勢(shì)的過程。從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測(cè)模型而不是回顧型的模型。利用功能強(qiáng)大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場(chǎng)競(jìng)爭(zhēng)中獲得優(yōu)勢(shì)地位。數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析的不同是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和可實(shí)用3個(gè)特征。
3 數(shù)據(jù)挖掘在電子商務(wù)中的作用
數(shù)據(jù)挖掘技術(shù)之所以可以服務(wù)電子商務(wù),是因?yàn)樗軌蛲诰虺龌顒?dòng)過程中的潛在信息以指導(dǎo)電子商務(wù)營(yíng)銷活動(dòng)。在電子商務(wù)中其作用有4個(gè)方面:
(1)挖掘客戶活動(dòng)規(guī)律,針對(duì)性的在電子商務(wù)平臺(tái)下以提供“個(gè)性化”的服務(wù)。
(2)可以在瀏覽電子商務(wù)網(wǎng)站的訪問者中挖掘出潛在的客戶。
(3)優(yōu)化電子商務(wù)網(wǎng)站巾的信息導(dǎo)航,方便客戶瀏覽。
(4)通過電子商務(wù)訪問者的活動(dòng)信息的挖掘,可以更加深入的了解客戶需求。
4 數(shù)據(jù)挖掘過程
電子商務(wù)中的數(shù)據(jù)挖掘的過程一般由3個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。
(1)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理。數(shù)據(jù)選取的目的是確定發(fā)現(xiàn)任務(wù)的操作對(duì)象。即目標(biāo)數(shù)據(jù),是根據(jù)用戶的需要從原始數(shù)據(jù)庫(kù)中抽取的一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換f如把連續(xù)型數(shù)據(jù)轉(zhuǎn)換為離散型數(shù)據(jù),以便于符號(hào)歸納;或是把離散性數(shù)據(jù)轉(zhuǎn)換為連續(xù)型數(shù)據(jù),以便于神經(jīng)網(wǎng)絡(luò)計(jì)算)以及對(duì)數(shù)據(jù)降維f即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘要考慮的變量個(gè)數(shù))。
(2)數(shù)據(jù)挖掘階段首先要確定數(shù)據(jù)挖掘的目標(biāo)和挖掘的知識(shí)類型。確定挖掘任務(wù)后,根據(jù)挖掘的知識(shí)類型選擇合適的挖掘算法;最后實(shí)施數(shù)據(jù)挖掘操作,運(yùn)用選定的挖掘算法從數(shù)據(jù)庫(kù)中抽取所需的知識(shí)。
(3)結(jié)果的解釋和評(píng)價(jià)數(shù)據(jù)挖掘階段發(fā)現(xiàn)的知識(shí),經(jīng)過評(píng)估,可能存在冗余或無關(guān)的知識(shí),這時(shí)需要將其剔除:也有可能知識(shí)不滿足用戶的要求,需要重復(fù)上述挖掘過程重新進(jìn)行挖掘。另外,由于數(shù)據(jù)挖掘最終要面臨用戶.因此。還需要對(duì)所挖掘的知識(shí)進(jìn)行解釋,以一種用戶易于理解的方式(如可視化方式)供用戶所用。
可以看出,以上整個(gè)數(shù)據(jù)挖掘過程是不斷地循環(huán)和反復(fù)的,因而可以對(duì)所挖掘出來的知識(shí)不斷求精和深化。最終達(dá)到用戶所滿意的結(jié)果。
5 電子商務(wù)中數(shù)據(jù)挖掘的技術(shù)與方法
數(shù)據(jù)挖掘源于人工智能。它利用人工智能中成熟的技術(shù)和方法對(duì)經(jīng)過處理的數(shù)據(jù)進(jìn)行分析,其利用的技術(shù)方法越多,所得到的信息也就越精確。在電子商務(wù)中主要應(yīng)用的數(shù)據(jù)挖掘技術(shù)和方法有:
(1)聚類分析聚類分析可在電子商務(wù)過程中從Web查找信息中聚集出具有相似特性的客戶。劃分出客戶群后,能夠幫助企業(yè)開發(fā)和執(zhí)行其市場(chǎng)策略,Web可根據(jù)客戶群提供特定的服務(wù)。
(2)關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)庫(kù)中集之間的關(guān)聯(lián)關(guān)系,這些關(guān)聯(lián)關(guān)系可以幫助許多商務(wù)決策的制定。
(3)分類規(guī)則分類是找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹模式表示。其目的是把新的記錄分配到預(yù)先定義好的類中。
(4)時(shí)間序列模式的發(fā)現(xiàn)按時(shí)間順序查看時(shí)間事件數(shù)據(jù)庫(kù),從中找出另一個(gè)或多個(gè)相似的時(shí)序事件,通過時(shí)間序列搜索出重復(fù)發(fā)生概率較高的模式。發(fā)現(xiàn)序列模式便于進(jìn)行電子商務(wù)組織預(yù)測(cè)客戶的查找模式,從而對(duì)客戶進(jìn)行針對(duì)性的服務(wù)。在時(shí)序模式中,一個(gè)重要影響的方法是相似時(shí)序。
(5)偏差分析描述和分析數(shù)據(jù)的異常或極端現(xiàn)象,包括不規(guī)則數(shù)據(jù)、反常實(shí)例和觀測(cè)結(jié)果與期望值的偏離等。主要用于分析客戶異常行為、信用欺詐甄別和數(shù)據(jù)質(zhì)量控制。以及網(wǎng)絡(luò)安全管理和故障檢測(cè)等領(lǐng)域。
(6)預(yù)測(cè)與評(píng)價(jià)對(duì)歷史數(shù)據(jù)進(jìn)行綜合分析和歸納.推理出數(shù)據(jù)分布的時(shí)效性和規(guī)律性,從而對(duì)未來事件發(fā)展的趨勢(shì)和結(jié)果進(jìn)行預(yù)測(cè)和評(píng)估。
6 電子商務(wù)中挖掘信息的目標(biāo)
(1)幫助企業(yè)確定營(yíng)銷機(jī)制在電子商務(wù)中,商業(yè)信息來自各個(gè)渠道,這些數(shù)據(jù)信息經(jīng)過數(shù)據(jù)挖掘處理技術(shù)進(jìn)行處理后,可從中得到用于特定消費(fèi)群體或個(gè)人定向營(yíng)銷的決策信息,以確定電子商務(wù)的營(yíng)銷機(jī)制?;跀?shù)據(jù)挖掘的電子商務(wù)營(yíng)銷,常??梢韵蛳M(fèi)者發(fā)出與以前的消費(fèi)行為相關(guān)的推銷材料,數(shù)據(jù)挖掘的電子商務(wù)營(yíng)銷對(duì)于我國(guó)當(dāng)前情況下的市場(chǎng)競(jìng)爭(zhēng)具有啟發(fā)意義。經(jīng)常可以看見繁華商業(yè)街上一些廠商對(duì)行人不分對(duì)象的散發(fā)大量商品宣傳廣告。其結(jié)果是不需要的人隨手丟棄,而需要的人未必能夠得到。如果家電維修服務(wù)公司向在商店中剛購(gòu)買家電的消費(fèi)者郵寄維修服務(wù)廣告。藥品廠商向剛在醫(yī)院門診就醫(yī)的特定病人郵寄廣告,其效果肯定比漫無目的的營(yíng)銷效果要好很多。
(2)幫助電子商務(wù)網(wǎng)站創(chuàng)造效益建立一個(gè)電子商務(wù)網(wǎng)站并不困難,困難在于如何讓電子商務(wù)網(wǎng)站創(chuàng)造效益。要想有效益就必須吸引客戶,增加客戶的忠誠(chéng)度。電子商務(wù)業(yè)務(wù)的競(jìng)爭(zhēng)比傳統(tǒng)業(yè)務(wù)的競(jìng)爭(zhēng)更為激烈,原因有很多方面.其中一個(gè)因素就是客戶從一個(gè)電子商務(wù)網(wǎng)站轉(zhuǎn)換到競(jìng)爭(zhēng)對(duì)手那邊.只需要點(diǎn)擊幾下鼠標(biāo)即可。網(wǎng)站的內(nèi)容和層次、用詞、標(biāo)題、獎(jiǎng)勵(lì)方案、服務(wù)等都有可能成為吸引客戶或失去客戶的因素。電子商務(wù)網(wǎng)站每天都可能有上百萬次的在線交易。生成大量的記錄文件和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘.充分了解客戶的喜好、購(gòu)買模式,設(shè)計(jì)出滿足不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競(jìng)爭(zhēng)力,變得勢(shì)在必行。
7 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的幾點(diǎn)應(yīng)用
(1)實(shí)施CRM戰(zhàn)略,為客戶提供個(gè)性化服務(wù) 隨著網(wǎng)絡(luò)的普及和電子商務(wù)網(wǎng)站的增多,客戶常會(huì)迷失在復(fù)雜的網(wǎng)站和眾多的商品信息中。這就要求電子商務(wù)網(wǎng)站應(yīng)當(dāng)“以客戶為中心”。根據(jù)客戶個(gè)人喜好,提供與眾不同的個(gè)性化服務(wù)?;跀?shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)通過對(duì)客戶的訪間行為、訪問頻度、訪問內(nèi)容等信息進(jìn)行挖掘,提取客戶的特征.獲取客戶訪問模式。據(jù)此創(chuàng)建個(gè)性化的電子商店,主動(dòng)向客戶提供商品推薦,幫助客戶便捷地找到感興趣的商品。這是一種全新的個(gè)性化購(gòu)物體驗(yàn)。不僅容易使訪問者轉(zhuǎn)變成購(gòu)買者,而且可根據(jù)客戶當(dāng)前購(gòu)物車中的物品,向客戶推薦一些相關(guān)的物品,提高站點(diǎn)企業(yè)的交叉銷售量,甚至還可以根據(jù)需求動(dòng)態(tài)地向客戶做頁面推薦,提供個(gè)性化的商品信息和廣告,提高客戶對(duì)訪問站點(diǎn)的興趣和忠誠(chéng)度,防止客戶流失。
(2)制定產(chǎn)品營(yíng)銷策略,優(yōu)化促銷活動(dòng) 通過對(duì)商品訪問和銷售情況進(jìn)行挖掘,企業(yè)能夠獲取客戶的訪問規(guī)律,針對(duì)不同的產(chǎn)品制定相應(yīng)的營(yíng)銷策略。如利用數(shù)據(jù)挖掘技術(shù)可實(shí)現(xiàn)不同商品優(yōu)惠策略的仿真。根據(jù)數(shù)據(jù)挖掘模型進(jìn)行模擬計(jì)費(fèi)和模擬出賬,其仿真結(jié)果可以揭示優(yōu)惠策略中存在的問題。并進(jìn)行相應(yīng)的調(diào)整優(yōu)化,以達(dá)到促銷活動(dòng)的收益最大化。
(3)優(yōu)化網(wǎng)站組織結(jié)構(gòu)和服務(wù)方式,提高網(wǎng)站的效率 通過挖掘客戶的行為記錄和反饋情況為站點(diǎn)設(shè)計(jì)者提供改進(jìn)的依據(jù)。進(jìn)一步優(yōu)化網(wǎng)站組織結(jié)構(gòu)和服務(wù)方式以提高網(wǎng)站的效率。站點(diǎn)的結(jié)構(gòu)和內(nèi)容是吸引客戶的關(guān)健。站點(diǎn)上頁面內(nèi)容的安排和連接如同超市中物品在貨架上的擺設(shè)一樣,把具有一定支持度和信任度的相關(guān)聯(lián)的物品擺放在一起有助于銷售。比如利用關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),可以針對(duì)不同客戶動(dòng)態(tài)調(diào)整站點(diǎn)結(jié)構(gòu).使客戶訪問的有關(guān)聯(lián)的頁面之間鏈接更直接,讓客戶很容易訪問到想要的頁面。這樣的網(wǎng)站往往能給客戶留下好印象.提高客戶忠誠(chéng)度,吸引客戶不斷訪問。
(4)改進(jìn)系統(tǒng)各項(xiàng)性能,增強(qiáng)系統(tǒng)安全性 對(duì)電子商務(wù)網(wǎng)站各種數(shù)據(jù)的統(tǒng)計(jì)分析有助于改進(jìn)系統(tǒng)性能,增強(qiáng)系統(tǒng)安全性.并提供決策支持。Web服務(wù)的性能和其他服務(wù)質(zhì)量是衡量客戶滿意度的關(guān)鍵指標(biāo)舊。數(shù)據(jù)挖掘可以通過客戶的擁塞記錄發(fā)現(xiàn)站點(diǎn)的性能瓶頸,以提示站點(diǎn)管理者改進(jìn)Web緩存策略、網(wǎng)絡(luò)傳輸策略、流量負(fù)載平衡機(jī)制和數(shù)據(jù)的分布策略。此外,還可通過挖掘分析網(wǎng)絡(luò)的非法人員數(shù)據(jù)找到系統(tǒng)弱點(diǎn)并改進(jìn),提高站點(diǎn)可靠性,保證電子商務(wù)的正常開展。
(5)增強(qiáng)商業(yè)信用評(píng)估,構(gòu)建和諧社會(huì)體制 發(fā)達(dá)的社會(huì)信用水平是發(fā)展電子商務(wù)的重要基礎(chǔ),通過對(duì)企業(yè)數(shù)據(jù)統(tǒng)計(jì)和歷史記錄之間的差別,結(jié)果與期望值的偏離以及反常實(shí)例進(jìn)行充分的數(shù)據(jù)挖掘,可有效地防范投資和經(jīng)營(yíng)風(fēng)險(xiǎn)。通過數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)經(jīng)營(yíng)進(jìn)行跟蹤,開展企業(yè)的資產(chǎn)評(píng)估、利潤(rùn)收益分析和發(fā)展?jié)摿︻A(yù)測(cè),構(gòu)建完善的安全保障體系,實(shí)施網(wǎng)上全程監(jiān)控,強(qiáng)化網(wǎng)上交易和在線支付的安全管理,利用數(shù)據(jù)挖掘的信用評(píng)估模型,挖掘交易歷史數(shù)據(jù)發(fā)現(xiàn)客戶的交易數(shù)據(jù)特征,建立客戶信譽(yù)度級(jí)別,有效地防范和化解信用風(fēng)險(xiǎn),提高企業(yè)信用甄別與風(fēng)險(xiǎn)管理的水平和能力。
8 結(jié)語
隨著電子商務(wù)發(fā)展的勢(shì)頭越來越強(qiáng)勁,電子商務(wù)的數(shù)據(jù)挖掘將是一個(gè)非常有前景的領(lǐng)域。它將數(shù)據(jù)轉(zhuǎn)化為知識(shí),是數(shù)據(jù)管理、信息處理領(lǐng)域研究、開發(fā)和應(yīng)用的最活躍的分支之一。它幫助決策者尋找數(shù)據(jù)問題潛在的關(guān)聯(lián),發(fā)現(xiàn)被忽略的因素,因而被認(rèn)為是解決當(dāng)今時(shí)代所面臨的數(shù)據(jù)爆炸而信息貧乏問題的一種有效方法。它能自動(dòng)預(yù)側(cè)客戶的消費(fèi)趨勢(shì)、市場(chǎng)走向,指導(dǎo)商家提高銷售額,改善企業(yè)客戶關(guān)系,提高網(wǎng)站運(yùn)行效率,改進(jìn)系統(tǒng)性能,具有良好的發(fā)展和應(yīng)用前景。