摘 要: 針對序列模式的幾個經(jīng)典的算法的缺點,提出了一種基于時間約束序列模式的快速產(chǎn)生候選項的方法(TFEGC)。此算法不但避免了頻繁的掃描數(shù)據(jù)庫,還考慮了時間限制因素,避免了無用的候選序列的產(chǎn)生,提高了算法運行的時間效率。
關鍵詞: 序列模式挖掘;時間約束;候選項;快速產(chǎn)生
序列模式挖掘在很多領域都具有十分重要的意義,比如它可以根據(jù)分析顧客購買行為來決定商品的擺放位置,從而制定商場的營銷策劃。所以,近年來出現(xiàn)了很多序列模式挖掘的改進算法,目前提出算法中,有兩類比較典型:GSP[1]算法和采用分治策略來進行模式增長的PrefixSpan[2]算法。但是這兩種算法都存在一定的缺點。參考文獻[3]中提出的快速有效的產(chǎn)生候選項的FEGC算法,不需要多次掃描數(shù)據(jù)庫,且不需要在前一次迭代的基礎上來產(chǎn)生候選項,也不需對非頻繁項進行剪枝或修剪,能夠達到快速產(chǎn)生候選項的效果。但是,F(xiàn)EGC算法是針對數(shù)據(jù)庫總體的序列來產(chǎn)生候選項的,有些并不是有效的和用戶感興趣的序列,這在實際應用中就耗費了大量的時間和空間,如分析顧客的購買行為,就不需要將其一月份購買的產(chǎn)品和十二月份購買的產(chǎn)品放在一起進行研究比較。所以本文在FEGC算法的基礎上將時間限制因素加了進去,可稱之為TFEGC算法,本算法繼承了FEGC算法的優(yōu)點,而且避免了不必要的、無用的一些候選項的產(chǎn)生,提高了算法的運行效率,且在序列結(jié)合的過程中,只需檢查uid、fid(t)以及s(t)的值,便可知道與哪些項進行結(jié)合,無須再進行檢驗。
1 相關算法介紹
GSP算法,即廣義序列模式算法,使用序列模式的向下封閉性,并采用多次掃描的候選產(chǎn)生-測試方法,它是由Srikant和Agrawal于1996年提出的。它的主要思想是利用序列模式的種子集,即前次掃描得來的序列模式來產(chǎn)生潛在的頻繁序列,即候選序列,每個候選序列都會比產(chǎn)生它的種子序列模式多包含一個項。直到