摘 要:關(guān)聯(lián)規(guī)則算法中FP-Growth算法雖不產(chǎn)生候選集,但由于算法高度依賴于內(nèi)存空間,阻礙了算法在大數(shù)據(jù)領(lǐng)域的 發(fā)揮,因此,改進(jìn)了經(jīng)典的FP-Growth算法,首先創(chuàng)建支持度計數(shù)表,避免了算法對條件模式基的第一次遍歷,減少了對數(shù)據(jù) 庫的掃描次數(shù);其次利用剪枝策略刪去了大量沉余的非頻繁項集;最后將算法并行化,利用Hadoop平臺優(yōu)勢極大提高數(shù)據(jù) 處理的效率,同時解決了算法占用內(nèi)存的瓶頸問題。實驗結(jié)果表明,改進(jìn)型FP-Growth算法挖掘和預(yù)測軌跡的效率明顯高于 經(jīng)典算法。