掃描二維碼
隨時(shí)隨地手機(jī)看文章
引 言
大數(shù)據(jù)背景下的信息過(guò)載問(wèn)題越來(lái)越嚴(yán)重,基于大數(shù)據(jù)的個(gè)性化推薦技術(shù)在教育、醫(yī)療和社會(huì)網(wǎng)絡(luò)領(lǐng)域的實(shí)際應(yīng)用價(jià)值,使其逐漸成為緩解信息過(guò)載問(wèn)題的有效方法。大數(shù)據(jù)具有 Volume,Variety,Value,Velocity 四個(gè)特征,如何分析和處理用戶感興趣的海量數(shù)據(jù),提取有價(jià)值的信息,從而進(jìn)行有針對(duì)性的推薦服務(wù)是大數(shù)據(jù)個(gè)性化推薦的關(guān)鍵。
1 大數(shù)據(jù)個(gè)性化推薦發(fā)展歷程
歷史上最具代表性的檢索技術(shù)是分類目錄和搜索引擎。分類目錄是用戶在知道明確的知識(shí)前提下,通過(guò)分類選擇找到自己想要的信息,使用極其不便,之后研究出搜索引擎技術(shù),但是當(dāng)用戶需求不明確時(shí),搜索系統(tǒng)則無(wú)法實(shí)現(xiàn)較好的效果,因此推薦技術(shù)應(yīng)運(yùn)而生。近幾年,隨著信息爆炸與大數(shù)據(jù)技術(shù)的普及,基于大數(shù)據(jù)的個(gè)性化推薦成了時(shí)代的新寵。大數(shù)據(jù)背景下的個(gè)性化推薦通過(guò)收集大量用戶感興趣的信息、采用大數(shù)據(jù)分析技術(shù)挖掘用戶的喜好,通過(guò)個(gè)性化推薦算法為用戶提供準(zhǔn)確的個(gè)性化推薦。
在國(guó)內(nèi),大數(shù)據(jù)個(gè)性化推薦算法自 2012 年提出之后, 經(jīng)過(guò)兩年的發(fā)展期和一年的成熟期,到 2016 年進(jìn)入了廣泛的應(yīng)用期 [1],同時(shí)在技術(shù)方面也從最初的 hadhoop 技術(shù)應(yīng)用到大數(shù)據(jù)的快速處理、推薦算法及框架的研究,進(jìn)而轉(zhuǎn)向在電子商務(wù)、新聞和社交網(wǎng)絡(luò)等領(lǐng)域的個(gè)性化推薦應(yīng)用研究。國(guó)外的研究早于國(guó)內(nèi),自 2015 年開始國(guó)外已從理論研究轉(zhuǎn)向教育、醫(yī)療及用戶行為等多方面的應(yīng)用研究。
2 大數(shù)據(jù)個(gè)性化推薦算法分析
大數(shù)據(jù)背景下的個(gè)性化推薦算法如圖 1 所示。
圖 1 主要的推薦算法
2.1 基于內(nèi)容的個(gè)性化推薦
所有物品都有內(nèi)容的分類,如人們常吃的肉類就包括豬肉、牛肉、羊肉、狗肉、驢肉、兔肉等?;趦?nèi)容的個(gè)性化推薦首先對(duì)物品的內(nèi)容信息進(jìn)行分析,提取內(nèi)容特征,然后根據(jù)物品的內(nèi)容屬性和用戶的歷史評(píng)分或操作記錄,提取用戶需求和對(duì)不同內(nèi)容屬性的愛(ài)好程度,并且構(gòu)建相應(yīng)的用戶需求和偏好模型,由此向用戶推薦與其需求和偏好模型相匹配的資源。該推薦方法的核心在于利用用戶需求和偏好與目標(biāo)資源的相似性來(lái)過(guò)濾信息,進(jìn)而實(shí)現(xiàn)個(gè)性化信息推薦。推薦步驟如圖 2 所示。
圖 2 基于內(nèi)容的個(gè)性化推薦步驟
若物品沒(méi)有明確的內(nèi)容特征,則根據(jù)對(duì)推薦物品特征的描述可以分為結(jié)構(gòu)化特征和非結(jié)構(gòu)化特征兩種,前者特征的取值限定在某個(gè)區(qū)間范圍內(nèi),并且按照定長(zhǎng)的格式來(lái)表示, 而后者無(wú)法按固定格式表示,文章就是最典型的此類數(shù)據(jù)[2-3], 我們經(jīng)常將其轉(zhuǎn)化為結(jié)構(gòu)化特征加入模型中,進(jìn)而完成推薦。
2.2 基于協(xié)同過(guò)濾的個(gè)性化推薦
人們外出就餐、購(gòu)物、旅游或者看電影時(shí)都會(huì)詢問(wèn)親朋好友或者通過(guò)網(wǎng)上評(píng)價(jià)進(jìn)行選擇。協(xié)同過(guò)濾正是運(yùn)用了這一思想,即采用最近鄰技術(shù),由近鄰用戶的喜好預(yù)測(cè)目標(biāo)用戶的喜好進(jìn)行推薦 [4]。它是推薦系統(tǒng)中應(yīng)用最早且最成功的技術(shù)之一 [5],已經(jīng)成為大數(shù)據(jù)推薦算法的研究熱點(diǎn)和重點(diǎn)。
2.2.1 基于物品的協(xié)同過(guò)濾推薦
根據(jù)不同物品之間的相似度和用戶以往的喜好推薦類似物品,例如在酷狗音樂(lè)的每一首歌曲下面都有相似歌曲的推薦,而各大購(gòu)物網(wǎng)站也都有“找相似”等類似商品的推薦。與基于內(nèi)容推薦不同的是,這里所說(shuō)的相似主要是利用用戶行為的集體智慧,該算法的推薦過(guò)程如圖 3 所示。
圖 3 基于物品的協(xié)同過(guò)濾推薦步驟
2.2.2 基于用戶的協(xié)同過(guò)濾推薦
將具有相同愛(ài)好的用戶感興趣的項(xiàng)目推薦給目標(biāo)用戶, 是至今為止實(shí)際運(yùn)用效果最成功的算法 [6],推薦步驟如圖 4所示,基于用戶的協(xié)同過(guò)濾過(guò)程如圖 5 所示。
2.2.3 基于模型的協(xié)同過(guò)濾推薦
利用用戶的歷史項(xiàng)目評(píng)價(jià)進(jìn)行學(xué)習(xí)以構(gòu)建用戶模型。用戶模型作為項(xiàng)目的評(píng)價(jià)預(yù)測(cè)基礎(chǔ),其中應(yīng)用比較成熟的是矩陣分解技術(shù),基于矩陣分解的個(gè)性化推薦是一種學(xué)習(xí)算法, 它使用數(shù)學(xué)中的奇異值分解技術(shù),通過(guò)矩陣分解使矩陣降維并對(duì)大量數(shù)據(jù)進(jìn)行壓縮,能較好地挖掘已知數(shù)據(jù)中的潛在關(guān)系,具有較高的推薦精度,較少的時(shí)間和較低的離線計(jì)算空間復(fù)雜度,但特征挖掘的層次不夠深入,對(duì)推薦結(jié)果的解釋性較差。
2.3 基于社交網(wǎng)絡(luò)的個(gè)性化推薦
通過(guò)對(duì)社交網(wǎng)絡(luò)中用戶的興趣愛(ài)好進(jìn)行挖掘分析后進(jìn)行個(gè)性化推薦。著名的社交網(wǎng)站有 Facebook 和 Twitter、微博、微信和 QQ 等,在社交網(wǎng)絡(luò)背景下,個(gè)性化推薦不僅要關(guān)注用戶和物品之間的關(guān)系,還要關(guān)注用戶和用戶之間的關(guān)系 [7]。
2.4 基于關(guān)聯(lián)規(guī)則的個(gè)性化推薦
分析物品間的相似性及相關(guān)聯(lián)性,建立一套行為規(guī)則進(jìn)行個(gè)性化推薦。它有一定的通用性,可以應(yīng)用于多種領(lǐng)域, 但抽取關(guān)聯(lián)規(guī)則比較難,且花費(fèi)時(shí)間較多,另外隨著關(guān)聯(lián)規(guī)則數(shù)量的增加,系統(tǒng)管理的難度也會(huì)加大,最典型的應(yīng)用是購(gòu)物車分析。
2.5 混合個(gè)性化推薦
單一的個(gè)性化推薦算法各有優(yōu)缺點(diǎn),因此可將優(yōu)劣勢(shì)互補(bǔ)的推薦方法組合在一起進(jìn)行混合式個(gè)性化推薦,既剔除了單一算法的缺點(diǎn)又提高了推薦效果。在系統(tǒng)架構(gòu)方面,采用在線 - 離線 - 近線三段混合系統(tǒng),分別負(fù)責(zé)熱門請(qǐng)求、短期計(jì)算和長(zhǎng)期推薦計(jì)算,通過(guò)多段的混合推薦可以達(dá)到可靠的推薦結(jié)果,在技術(shù)上有加權(quán)型、切換型、交叉型等多種混合推薦方式。混合推薦在提高精確性的同時(shí)增加了算法的時(shí)空復(fù)雜度,因此要處理好混合推薦算法間的協(xié)調(diào)性[8]。
大數(shù)據(jù)個(gè)性化推薦算法各有優(yōu)缺點(diǎn),具體見(jiàn)表 1 所列。
3 大數(shù)據(jù)個(gè)性化推薦存在的問(wèn)題
3.1 大數(shù)據(jù)方面
(1)大數(shù)據(jù)背景下海量數(shù)據(jù)使數(shù)據(jù)的稀疏性和長(zhǎng)尾問(wèn)題劇增 [9]。
(2)大數(shù)據(jù)類型的多樣性和復(fù)雜性以及數(shù)據(jù)量的巨大性,使計(jì)算復(fù)雜度成倍增加。
(3)大數(shù)據(jù)本身的價(jià)值密度低,但價(jià)值巨大,如何從海量數(shù)據(jù)中抽取有用的信息進(jìn)行個(gè)性化推薦是個(gè)難題。
(4)推薦系統(tǒng)對(duì)時(shí)效性要求較高,可擴(kuò)展性是推薦算法需要解決的難點(diǎn)問(wèn)題之一。
(5)數(shù)據(jù)安全問(wèn)題。為了更好地挖掘用戶喜好,需要收集更多的個(gè)人信息,當(dāng)基于大數(shù)據(jù)的推薦系統(tǒng)聚集了大量有價(jià)值的信息時(shí),必然會(huì)成為被攻擊的目標(biāo),過(guò)度的暴露個(gè)人信息會(huì)給用戶的個(gè)人隱私帶來(lái)安全隱患,破壞大數(shù)據(jù)推薦系統(tǒng)的發(fā)展。如何在不暴露用戶隱私的情況下進(jìn)行精準(zhǔn)的個(gè)性化推薦是亟待解決的問(wèn)題。
(6)怎樣對(duì)系統(tǒng)中的不良內(nèi)容進(jìn)行過(guò)濾,對(duì)惡俗非法內(nèi)容進(jìn)行曝光打擊,傳遞正能量也是推薦系統(tǒng)需要關(guān)注的問(wèn)題。
3.2 推薦算法方面
從推薦算法的對(duì)比分析可得每一種推薦算法都有各自的優(yōu)缺點(diǎn)和適用場(chǎng)合,隨著軟硬件技術(shù)的發(fā)展,不管是對(duì)原有算法的優(yōu)化,還是對(duì)新算法的探索,算法的準(zhǔn)確性和覆蓋面都是值得研究的問(wèn)題。
3.3 用戶方面
用戶的喜好是多種因素綜合作用的結(jié)果,隨著時(shí)間的推移和年齡的增長(zhǎng),興趣愛(ài)好會(huì)發(fā)生很大的變化,根據(jù)原有信息進(jìn)行的推薦就有失偏頗,因此怎樣在不同的時(shí)間段抽取不斷變化的興趣愛(ài)好,繼而進(jìn)行有效推薦是需要解決的問(wèn)題。
3.4 冷啟動(dòng)問(wèn)題
用戶、物品及系統(tǒng)都存在冷啟動(dòng)問(wèn)題,當(dāng)商品上新用戶第一次購(gòu)買時(shí),由于之前沒(méi)有相關(guān)數(shù)據(jù)的積累,因此將嚴(yán)重影響個(gè)性化推薦的準(zhǔn)確性。
3.5 推薦的多樣性問(wèn)題
推薦的準(zhǔn)確性是算法關(guān)注的目標(biāo),而結(jié)果的多樣性很少被重視,因此推薦結(jié)果越來(lái)越同質(zhì)化,降低了用戶的使用體驗(yàn)。
4 大數(shù)據(jù)個(gè)性化推薦的應(yīng)用
(1)個(gè)性化教育
大數(shù)據(jù)促進(jìn)了個(gè)性化教育的快速發(fā)展,我國(guó)的教育明確提出發(fā)展學(xué)生的個(gè)性,但目前我們的個(gè)性化教育還處在初級(jí)階段,因此立足大數(shù)據(jù)分析實(shí)現(xiàn)學(xué)生的個(gè)性化培養(yǎng)已成為大數(shù)據(jù)個(gè)性化推薦的一個(gè)重要應(yīng)用領(lǐng)域。
(2)個(gè)性化醫(yī)療
基于位置信息的服務(wù)已融入人們的生活,醫(yī)療行業(yè)正在迎來(lái)屬于自己的個(gè)性化時(shí)代,各種健康醫(yī)療推薦服務(wù)已成為研究熱點(diǎn),如何在有限的醫(yī)療資源條件下實(shí)現(xiàn)用戶的個(gè)性化醫(yī)療推薦服務(wù)是大數(shù)據(jù)個(gè)性化推薦的另一個(gè)重要應(yīng)用。
(3)電子商務(wù)個(gè)性化
為了進(jìn)行精準(zhǔn)營(yíng)銷,多數(shù)電子商務(wù)平臺(tái)都提供個(gè)性化推薦服務(wù),大數(shù)據(jù)個(gè)性化推薦可以為用戶提供準(zhǔn)確的推薦服務(wù), 實(shí)現(xiàn)商家的精準(zhǔn)營(yíng)銷。
(4)互聯(lián)網(wǎng)金融個(gè)性化
在互聯(lián)網(wǎng)金融領(lǐng)域,各大平臺(tái)都有針對(duì)個(gè)人定制的千人千面投資推薦。
(5)其他方面的個(gè)性化
隨著互聯(lián)網(wǎng)的發(fā)展,個(gè)性化的推薦將在多媒體娛樂(lè)及社交網(wǎng)絡(luò)等領(lǐng)域發(fā)展得越來(lái)越好。總之,大數(shù)據(jù)個(gè)性化的推薦已成為未來(lái)教育、醫(yī)療、電子商務(wù)、互聯(lián)網(wǎng)金融及社交網(wǎng)絡(luò)等領(lǐng)域的標(biāo)配。
5 結(jié) 語(yǔ)
大數(shù)據(jù)個(gè)性化推薦時(shí)代已經(jīng)到來(lái),隨著深度學(xué)習(xí)的爆發(fā)及推薦算法的不斷發(fā)展和延伸,基于深度學(xué)習(xí)的個(gè)性化推薦將會(huì)得到快速發(fā)展,同時(shí)混合式綜合推薦、群體推薦也將成為未來(lái)大數(shù)據(jù)個(gè)性化推薦研究的重要方向。
北京2022年10月19日 /美通社/ -- 隨著云計(jì)算、大數(shù)據(jù)的普及發(fā)展,過(guò)去的"云"是服務(wù)于大企業(yè)的計(jì)算模型,而十多年過(guò)去了,越來(lái)越多的應(yīng)用及業(yè)務(wù)走上"云端",對(duì)計(jì)算核心數(shù)需求...
關(guān)鍵字: ARM 大數(shù)據(jù) 云游戲 CPU(全球TMT2022年10月19日訊)近日,美的樓宇科技正式與軟通動(dòng)力簽訂戰(zhàn)略合作協(xié)議,雙方采購(gòu)互信、資源共享,將積極推動(dòng)美的樓宇科技電梯、暖通等產(chǎn)品的采購(gòu)使用,同時(shí)將在云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等領(lǐng)域進(jìn)行深度合...
關(guān)鍵字: 樓宇 美的 數(shù)字化 大數(shù)據(jù)在這篇文章中,小編將為大家?guī)?lái)大數(shù)據(jù)的相關(guān)報(bào)道。如果你對(duì)本文即將要講解的內(nèi)容存在一定興趣,不妨繼續(xù)往下閱讀哦。
關(guān)鍵字: 大數(shù)據(jù) 智能電網(wǎng) 電網(wǎng)今天,小編將在這篇文章中為大家?guī)?lái)大數(shù)據(jù)的有關(guān)報(bào)道,通過(guò)閱讀這篇文章,大家可以對(duì)大數(shù)據(jù)具備清晰的認(rèn)識(shí),主要內(nèi)容如下。
關(guān)鍵字: 大數(shù)據(jù) 分布式 Kafka面對(duì)高速公路數(shù)字化、信息化、智能化發(fā)展趨勢(shì),江蘇交通控股有限公司前瞻性地啟動(dòng)數(shù)字化變革,推動(dòng)大數(shù)據(jù)、互聯(lián)網(wǎng)、人工智能等新技術(shù)與交通行業(yè)深度融合,以信息化建設(shè)引領(lǐng)“大交通”,以數(shù)字新基建服務(wù)“大格局”,以數(shù)字化轉(zhuǎn)型賦能“大...
關(guān)鍵字: 智慧交通 大數(shù)據(jù) 人工智能濟(jì)南2022年10月17日 /美通社/ -- 9月27日,"奮進(jìn)新時(shí)代"主題成就展在北京展覽館盛大開幕。由重慶市大數(shù)據(jù)應(yīng)用發(fā)展管理局、數(shù)字重慶大數(shù)據(jù)應(yīng)用發(fā)展有限公司、浪潮新基建聯(lián)合打造的重慶市新型智慧...
關(guān)鍵字: 智慧城市 大數(shù)據(jù) 新基建 智能化北京2022年10月17日 /美通社/ -- 10月13日,同方股份有限公司與中國(guó)核工業(yè)二四建設(shè)有限公司舉行戰(zhàn)略合作簽約儀式。雙方將發(fā)揮各自優(yōu)勢(shì),在高效能源利用、智慧工地建造、數(shù)字化轉(zhuǎn)型智慧中樞等領(lǐng)域加深密切聯(lián)系,展開多...
關(guān)鍵字: 核電 數(shù)字化 大數(shù)據(jù) 智慧工地普瑞純證醫(yī)療科技(廣州)有限公司近日宣布完成由君聯(lián)資本領(lǐng)投,老股東康君資本跟投的超億元人民幣B輪融資。本輪資金將主要用于海外醫(yī)療器械資源的布局、專業(yè)人才團(tuán)隊(duì)擴(kuò)充、醫(yī)療器械領(lǐng)域的戰(zhàn)略拓展,以及大數(shù)據(jù)信息化平臺(tái)的升級(jí)迭代。(...
關(guān)鍵字: 醫(yī)療器械 大數(shù)據(jù)大數(shù)據(jù)將是下述內(nèi)容的主要介紹對(duì)象,通過(guò)這篇文章,小編希望大家可以對(duì)它的相關(guān)情況以及信息有所認(rèn)識(shí)和了解,詳細(xì)內(nèi)容如下。
關(guān)鍵字: 大數(shù)據(jù) 物聯(lián)網(wǎng) 分布式在這篇文章中,小編將對(duì)大數(shù)據(jù)的相關(guān)內(nèi)容和情況加以介紹以幫助大家增進(jìn)對(duì)它的了解程度,和小編一起來(lái)閱讀以下內(nèi)容吧。
關(guān)鍵字: 大數(shù)據(jù) Hadoop 機(jī)器學(xué)習(xí)