阿里深度樹匹配召回體系演進(jìn)

時(shí)間：2021-02-23 08:33:04

關(guān)鍵字：阿里深度樹 TDM

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]分目前不管是廣告還是推薦業(yè)務(wù)，最底層的技術(shù)都是檢索，由于候選集合非常大，可能從千萬甚至億級(jí)別取出數(shù)十個(gè)用戶感興趣的商品。

分享嘉賓：卓靖煒阿里巴巴

編輯整理：成鑫鑫

出品平臺(tái)：DataFunTalk

導(dǎo)讀：目前不管是廣告還是推薦業(yè)務(wù)，最底層的技術(shù)都是檢索，由于候選集合非常大，可能從千萬甚至億級(jí)別取出數(shù)十個(gè)用戶感興趣的商品。在算力和時(shí)間復(fù)雜度的約束下，往往采用分階段漏斗的算法體系。具體來說就是分成召回 ( match ) 以及排序 ( rank )。本文主要介紹阿里在match階段的最新實(shí)踐——深度樹匹配，分成幾個(gè)部分:

檢索召回技術(shù)現(xiàn)狀
深度樹匹配（TDM）技術(shù)演進(jìn)
TDM業(yè)務(wù)應(yīng)用實(shí)踐
總結(jié)與展望

檢索召回技術(shù)現(xiàn)狀

1. 互聯(lián)網(wǎng)業(yè)務(wù)中檢索召回技術(shù)的發(fā)展

阿里深度樹匹配召回體系演進(jìn)

對(duì)于match這一部分來說，我們的核心問題是要從一個(gè)大規(guī)模的候選集合里面高效檢索出topK。單點(diǎn)計(jì)算消耗和所需計(jì)算次數(shù)決定了系統(tǒng)性能邊界。我們需要在實(shí)際設(shè)計(jì)系統(tǒng)的時(shí)候考慮兩個(gè)平衡，首先是我們的對(duì)于每個(gè)item使用模型打分，有單點(diǎn)計(jì)算消耗的約束，從廣告庫里面解鎖商品，有計(jì)算次數(shù)上限，我們需要保證在現(xiàn)有的系統(tǒng)性能邊界下，無論是單點(diǎn)的計(jì)算消耗以及所需的計(jì)算次數(shù)，他們的乘積不能超過這個(gè)性能邊界。

2. 兩段式Match的經(jīng)典實(shí)現(xiàn)

阿里深度樹匹配召回體系演進(jìn)

在我們系統(tǒng)里面最早期的是一個(gè)經(jīng)典的兩段式match，例如基于商品的協(xié)同過濾，就是說對(duì)我們對(duì)于每一條用戶的請(qǐng)求我們?nèi)フ业接脩魵v史的item，然后再通過這些item查詢離線計(jì)算好的I2I相似關(guān)系表找到我們需要召回的item，并且最終做合并取topK。這個(gè)方法它的優(yōu)勢(shì)在于模型非常簡(jiǎn)單，而且實(shí)現(xiàn)成本非常低，我們所有的迭代只需要在離線計(jì)算一份I2I表就完成了。但是它的缺點(diǎn)也很明顯，因?yàn)槭且粋€(gè)兩段式的召回框架，整個(gè)過程是沒有辦法聯(lián)合優(yōu)化的，有一些很多先進(jìn)的模型，像深度神經(jīng)網(wǎng)絡(luò)沒有辦法很好的應(yīng)用，導(dǎo)致召回效果受限。一個(gè)很自然的想法是我們是否能把這種兩段式的檢索升級(jí)成為一段式，并且對(duì)整個(gè)全庫做一段式檢索。

3. 內(nèi)積模型向量檢索

阿里深度樹匹配召回體系演進(jìn)

基于上述思路，有一個(gè)非常廣泛的應(yīng)用是通過內(nèi)積模型來做向量檢索，具體思路就是我們基于用戶以及商品特征的embedding去設(shè)計(jì)一些網(wǎng)絡(luò)，類似雙塔這樣的結(jié)構(gòu)，然后根據(jù)這些embedding去計(jì)算內(nèi)積的相似度，這樣就把match階段對(duì)候選商品集合召回的問題轉(zhuǎn)化成一個(gè)單點(diǎn)打分以及分類這樣一個(gè)問題。

具體實(shí)現(xiàn)是三個(gè)階段：

首先離線訓(xùn)練雙塔模型，得到item embedding；
訓(xùn)練完成之后，對(duì)這些item embedding做聚類，并且根據(jù)乘積量化去構(gòu)建索引；
在線上使用時(shí)，對(duì)于每一條用戶請(qǐng)求能夠計(jì)算得到user embedding，然后在已經(jīng)構(gòu)建好的索引里面去進(jìn)行查找，得到user embedding最接近的K個(gè)item，作為top K 的召回。

這樣一個(gè)流程它的優(yōu)勢(shì)非常顯然：面向全庫一段式檢索，從數(shù)據(jù)里面獲取一些發(fā)現(xiàn)能力，而不依賴于用戶歷史行為觸發(fā)。但是它的缺點(diǎn)也很明顯，對(duì)于我們使用的模型結(jié)構(gòu)上有一個(gè)非常強(qiáng)的約束，就是我們的模型必須是類似雙塔這樣的結(jié)構(gòu)，最終user以及item的相似度必須由內(nèi)積來計(jì)算，這樣對(duì)于模型能力有一個(gè)很大的局限。我們有過好幾版升級(jí)，最早是類似雙塔這樣的內(nèi)積模型，接下來是DIN和DIEN，分別是把a(bǔ)ttention的機(jī)制引入了CTR預(yù)估問題里面，如果我們只看auc的話，引入user和item之間的交互模型的性能有一個(gè)比較大的提升。
這里面啟發(fā)我們一個(gè)自然的思考，如果我們想要把更加先進(jìn)的模型引入到match，那么我們應(yīng)該怎么做？第二個(gè)問題是我們?cè)谙蛄繖z索模型里離線做索引構(gòu)建的時(shí)候，它的目標(biāo)與我們?cè)诰€上使用的時(shí)候檢索目標(biāo)是完全不一致的，離線索引構(gòu)建的時(shí)候優(yōu)化目標(biāo)是最小化embedding近似誤差，但是實(shí)際上線上想要的是最大化topK召回率，彼此之間有missmatch，所以一個(gè)很自然的想法，我們是否能夠把這兩點(diǎn)統(tǒng)一起來聯(lián)合來優(yōu)化，然后這啟發(fā)了我們?nèi)プ錾疃葮淦ヅ湔倩剡@件事情。

深度樹匹配（TDM）技術(shù)演進(jìn)

模型能力的升級(jí)需要相應(yīng)的索引結(jié)構(gòu)升級(jí)來支持,我們需要設(shè)計(jì)一個(gè)通用的索引結(jié)構(gòu)，使得能夠支持任意復(fù)雜的模型來做召回。對(duì)于user和item之間復(fù)雜交互，如果不依賴雙塔這樣的模型結(jié)構(gòu)，我們需要什么樣的索引結(jié)構(gòu)?

首先，想到散列表，但是散列表同樣基于距離度量，融合先進(jìn)模型比較困難。加入選擇圖的話，對(duì)于模型結(jié)構(gòu)沒有任何要求，但是圖的一個(gè)問題就是它結(jié)構(gòu)非常復(fù)雜，并且在圖上做檢索很難有確定性的檢索次數(shù)的控制，會(huì)存在指數(shù)爆炸的問題，所以我們最后選擇了樹。樹的結(jié)構(gòu)相對(duì)簡(jiǎn)單，可以通過控制樹的層高來控制檢索次數(shù)。

1. 深度樹匹配的提出

阿里深度樹匹配召回體系演進(jìn)

我們提出了深度樹匹配這樣一套技術(shù)，它的基本想法就是我們把所有item商品庫聚合成為一個(gè)層次的興趣樹，把從商品庫里面的檢索轉(zhuǎn)換成一個(gè)在樹上做檢索的過程。
比如說是一個(gè)二叉樹，由于樹的特性，我們能把從十億商品庫里面挑商品的問題轉(zhuǎn)化成在樹上做30層的檢索問題，這樣的話計(jì)算次數(shù)就會(huì)大大減小。

雖然有這樣一個(gè)想法，但是我們后續(xù)需要解決非常多的問題:

如何基于樹實(shí)現(xiàn)高效檢索
如何做興趣建模保證樹檢索的有效性
如何學(xué)習(xí)興趣模型
如何構(gòu)建和優(yōu)化樹索引結(jié)構(gòu)

2. 基于樹的高效檢索方法—Beam Search

阿里深度樹匹配召回體系演進(jìn)

我們讓葉子節(jié)點(diǎn)表示全部商品，中間節(jié)點(diǎn)表示商品的粗力度的聚合，比如是對(duì)于興趣的聚合，這樣的話我們通過構(gòu)建一個(gè)完全平衡二叉樹就能夠保證這棵樹自頂而下的興趣劃分是從粗到細(xì)的。在這棵樹上就能夠通過Beam Search實(shí)現(xiàn)一個(gè)啟發(fā)式檢索的方法來找topK葉子節(jié)點(diǎn)，它的時(shí)間復(fù)雜度是logN, N是總的商品個(gè)數(shù)，計(jì)算性能是符合線上開銷的,那么一個(gè)很自然的問題就是怎么保證這樣的檢索出的就是全局最優(yōu)?

3. 最大堆樹：支持Beam Search檢索的興趣建模

阿里深度樹匹配召回體系演進(jìn)

我們提出了一套方案，要求模型保證用戶的興趣分布必須服從最大堆的性質(zhì)

最大堆樹下當(dāng)前層的最優(yōu)TopK孩子節(jié)點(diǎn)的父親必然屬于上層的父輩節(jié)點(diǎn)最優(yōu)TopK；
最大堆樹保證Beam Search檢索得到的TopK一定是全局最優(yōu)TopK：從根節(jié)點(diǎn)遞歸向下逐層挑選TopK和擴(kuò)展其子節(jié)點(diǎn)至葉子層。

4. 最大堆樹的模型學(xué)習(xí)

阿里深度樹匹配召回體系演進(jìn)

如何學(xué)習(xí)中間節(jié)點(diǎn)的興趣概率？

葉子層節(jié)點(diǎn)興趣：用戶對(duì)葉子節(jié)點(diǎn)的行為數(shù)據(jù)構(gòu)建序標(biāo)簽
中間層節(jié)點(diǎn)興趣：基于最大堆定義可推導(dǎo)每層的序標(biāo)簽
用深度學(xué)習(xí)模型擬合上述兩個(gè)序標(biāo)簽

采樣方案：

葉子節(jié)點(diǎn)：用戶行為的隱式反饋來建模葉子節(jié)點(diǎn)的興趣概率
中間節(jié)點(diǎn)：

傳遞性：葉子正樣本上溯祖先仍為正樣本

層次全局性：在每一祖先層隨機(jī)負(fù)采樣

5. TDM1.0：容納任意先進(jìn)模型

阿里深度樹匹配召回體系演進(jìn)

最大堆樹的訓(xùn)練模式和檢索模式為容納任意先進(jìn)模型提供了堅(jiān)實(shí)的理論基礎(chǔ)和強(qiáng)大的效率保證。我們主要做的工作是在最大堆樹這樣一個(gè)約束之下，我們引入了一些更加先進(jìn)的模型,它跟雙塔模型最大的區(qū)別在于我們模型里面考慮了用戶的特征以及Item特征的交叉，它不是一個(gè)雙塔結(jié)構(gòu)，這里面用戶特征簡(jiǎn)單來說就是用戶歷史的Item行為序列商品特征。商品特征比如商品的ID，如果是在樹里面非葉子層的話，它就是node的ID，在這種模型結(jié)構(gòu)里面，我們把用戶的歷史行為拆分成一系列時(shí)間窗，然后我們?cè)诿總€(gè)時(shí)間窗里面做一個(gè)基于Item embedding的attention，然后得到最終的attention向量。在這種模型結(jié)構(gòu)之下，我們利用到了用戶以及item之間的交叉信息，所以它的模型能力是比雙塔結(jié)構(gòu)強(qiáng)的。

然后在這種情況下，我們?cè)谟?xùn)練的時(shí)候就用之前所說的最大堆樹學(xué)習(xí)的方法，把它拆分成H層的分類問題，在檢索階段的話，直接用Beam search，然后對(duì)這棵樹檢索，得到我們最終想要的結(jié)果。大概在兩年前，我們已經(jīng)到線上后取得了大概兩位數(shù)的一個(gè)性能的提升。

6. TDM2.0：模型&索引聯(lián)合學(xué)習(xí)

阿里深度樹匹配召回體系演進(jìn)

在1.0的時(shí)候，我們是在給定的一個(gè)樹的范式之下，只考慮模型的學(xué)習(xí)，但其實(shí)樹的結(jié)構(gòu)本身對(duì)于我們召回結(jié)果有非常大的影響，比如說考慮左下角這樣一個(gè)例子，在一些女裝女鞋男裝拿些這樣個(gè)商品集合里面去構(gòu)造一棵樹，那么在這種情況下，樹構(gòu)造有兩種辦法，一種是把女裝和男鞋做一個(gè)聚合，然后把女鞋和男裝聚合，但這種方法可以看到它得到的聚合其實(shí)是沒有什么意義的。一個(gè)更加合理的劃分方法是把女裝和女鞋、男裝和男鞋劃分到相同的樹節(jié)點(diǎn)，這樣的話對(duì)于高層的非葉子節(jié)點(diǎn)我們就有一些抽象的含義。
所以我們?cè)?.0想要解決的問題就是如何對(duì)模型以及索引做聯(lián)合的學(xué)習(xí)，這個(gè)問題抽象出來，其實(shí)就像右上角所示。所以在這種情況下，我們整個(gè)樹模型的學(xué)習(xí)過程就可以看成是對(duì)兩項(xiàng)的優(yōu)化問題。一項(xiàng)是模型的參數(shù)，也就是對(duì)帶權(quán)二部圖的最大匹配問題，我們用了貪心的算法，最終得到一個(gè)分段式樹學(xué)習(xí)算法。這就是我們?cè)?.0所做的一些基本事情。

7. TDM3.0：模型&索引&檢索聯(lián)合學(xué)習(xí)

阿里深度樹匹配召回體系演進(jìn)

不論是1.0還是2.0都有一個(gè)問題就是訓(xùn)練和檢索的目標(biāo)偏差。訓(xùn)練的目標(biāo)：擬合每層興趣多分類的概率。正樣本上溯路徑節(jié)點(diǎn)+同層隨機(jī)負(fù)采樣。檢索目標(biāo)：召回率最大，自頂而下的Beam Search集合,每層只集中在頭部打分節(jié)點(diǎn)部分。

一個(gè)最典型的例子就是我們?cè)谟?xùn)練的時(shí)候，所用到的樣本是一部分上述的正樣本以及一部分隨機(jī)采樣的。沒有考慮到在線上檢索的時(shí)候，實(shí)際上是自頂而下的一個(gè)擴(kuò)展的方式，每層用到的Item其實(shí)是相對(duì)打分比較高的那一部分，這就會(huì)導(dǎo)致我們?cè)跈z索中可能檢索到的某些Item在訓(xùn)練的時(shí)候沒有得到充分的訓(xùn)練。我們希望把線上檢索的目標(biāo)以及過程完全考慮到訓(xùn)練中，保證我們離線訓(xùn)練以及線上使用的一致性。這樣的話，實(shí)際上我們又從興趣分類建模這件事情重新回到對(duì)于集合召回建模這個(gè)事情上。
為了達(dá)到這一點(diǎn)，我們做了以下兩件事情。

對(duì)檢索過程建模：對(duì)齊數(shù)據(jù)分布

阿里深度樹匹配召回體系演進(jìn)

首先第一是我們對(duì)采樣方式做了一個(gè)升級(jí)，就是我們不再通過正樣本加負(fù)樣本采樣這套方式來構(gòu)造我們的訓(xùn)練樣本，我們直接對(duì)我們這棵樹做一個(gè)BeamSearch檢索，然后以檢索出來的這些topK集合作為我們的訓(xùn)練樣本。這樣我們?cè)陔x線訓(xùn)練時(shí)和在線Serviceing的樣本產(chǎn)生邏輯以及樣本分布是完全保持一致的。

對(duì)檢索過程建模：對(duì)齊訓(xùn)練目標(biāo)

阿里深度樹匹配召回體系演進(jìn)

我們做的第二件事情就是說我們對(duì)于本身模型學(xué)習(xí)的目標(biāo)做了一次改造，確保我們能夠滿足最大堆約束，也就是保證我們的BeamSearch的局部最優(yōu)一定是全局最優(yōu)。我們與之前的方法做一個(gè)對(duì)比，在之前的方法，我們對(duì)于節(jié)點(diǎn)的標(biāo)簽的設(shè)定就是它本身以及它的上溯路徑全部標(biāo)為1，然后剩下的節(jié)點(diǎn)全部標(biāo)為0作為負(fù)樣本，從里面隨機(jī)采樣作為它的訓(xùn)練樣本。我們后來發(fā)現(xiàn)這樣一個(gè)設(shè)定方式，其實(shí)并不符合最大堆的需求，我們對(duì)它做BeamSearch得到的topK也不是全局的最優(yōu)。所以我們換了一個(gè)樣本構(gòu)建的方式，就如右圖所示，比如說這里面藍(lán)色節(jié)點(diǎn)都是我們檢索到的集合，那么我們對(duì)于每個(gè)節(jié)點(diǎn)的標(biāo)簽，我們不只依賴于本身item用戶是否點(diǎn)擊了這個(gè)行為，每個(gè)節(jié)點(diǎn)的標(biāo)簽還依賴于從它的子節(jié)點(diǎn)上溯的標(biāo)簽，以及模型對(duì)于它的子節(jié)點(diǎn)的一個(gè)預(yù)估分?jǐn)?shù)。

8. Beam Search下理論最優(yōu)的訓(xùn)練范式

阿里深度樹匹配召回體系演進(jìn)

我們做了上述兩版升級(jí)，就得到了一個(gè)在BeamSearch下理論最優(yōu)的一個(gè)訓(xùn)練方式，具體來說就是我們以BeamSearch來構(gòu)造我們的樣本集合，我們通過基于打分上溯的方式去設(shè)計(jì)每一層樣本的擬合目標(biāo)，還是一個(gè)H層的但是存在上下層依賴的這樣一個(gè)分類問題來做我們的模型的訓(xùn)練。他的訓(xùn)練方法也是一個(gè)循環(huán)迭代的方式，就是我們輸入原始樣本的minibatch，使用當(dāng)前的模型做一遍采樣就是做一BeamSearch檢索，得到每層的樣本，然后采用目標(biāo)構(gòu)建的方式，對(duì)于這個(gè)樣本里面的每一個(gè)節(jié)點(diǎn)得到它的一個(gè)模型的標(biāo)簽，得到標(biāo)簽之后類似一個(gè)二分類問題設(shè)計(jì)一個(gè)loss，然后去對(duì)參數(shù)更新，然后如此反復(fù)迭代，直到收斂。

9. TDM顯著性效果

阿里深度樹匹配召回體系演進(jìn)

離線的話我們也做了一些公開數(shù)據(jù)集的測(cè)試，可以看到不管是從1.0、2.0以及3.0，它的召回率都有一個(gè)顯著的漲幅，跟現(xiàn)有的方法，比如說ITemCF以及YoutubeDNN這兩個(gè)經(jīng)典的方法來比，有個(gè)非常大的提升。

我們?cè)诿總€(gè)階段的思考也有一些論文產(chǎn)出，如果大家對(duì)具體的細(xì)節(jié)感興趣的話，可以參考我們的論文。

10. TDM在定向廣告場(chǎng)景落地實(shí)踐

阿里深度樹匹配召回體系演進(jìn)

最后，講一下我們?cè)诙ㄏ驈V告場(chǎng)景的一些落地使用，廣告業(yè)務(wù)本身它有非常顯著的一個(gè)特點(diǎn)，就是我們商品召回的有效性其實(shí)比較低的，因?yàn)榇嬖趶V告主的預(yù)算是否花光，商品的上下架以及投放的時(shí)間的影響。所以這導(dǎo)致了在廣告里面，我們候選廣告集合它的動(dòng)態(tài)性非常強(qiáng)，但是TDM這樣的樹結(jié)構(gòu)，是一個(gè)相對(duì)比較靜態(tài)的結(jié)構(gòu)。
所以在實(shí)際中我們采用了靜態(tài)樹結(jié)構(gòu)加動(dòng)態(tài)的正排倒排表這樣一個(gè)實(shí)現(xiàn)方式。具體來說就是我們本身這個(gè)樹的結(jié)構(gòu)是以正常的商品作為葉子，我們?cè)谶@樣的結(jié)構(gòu)之上做了一個(gè)實(shí)時(shí)的商品以及廣告的倒排表，以及廣告本身的信息做正排表。我們?cè)诰€上Servicing的時(shí)候，樹結(jié)構(gòu)是保持不變的，我們根據(jù)實(shí)時(shí)的變化去實(shí)時(shí)更新廣告正排倒排表的順序結(jié)構(gòu)，這樣使得整體能夠保持一個(gè)比較高的召回有效性。

展望

阿里深度樹匹配召回體系演進(jìn)

最后是總結(jié)與展望，然后我們還是回到我們本身檢索這樣一個(gè)問題，因?yàn)樗懔Φ募s束，導(dǎo)致形成了大家都認(rèn)可的一個(gè)分階段漏斗的形式，就是把整個(gè)檢索過程拆分成召回以及rank這兩個(gè)階段。在后續(xù)的話，我們希望也把TDM這一套技術(shù)把它做得更加扎實(shí)一點(diǎn)。大概是三個(gè)維度，首先是檢索結(jié)構(gòu)上，我們希望利用圖對(duì)本身樹這樣一個(gè)召回結(jié)構(gòu)做一些近似的擴(kuò)展，第二我們希望它能夠去對(duì)多種目標(biāo)進(jìn)行召回，比如說多考慮一些多樣性發(fā)現(xiàn)性這些指標(biāo)，另外還有一點(diǎn)是我們希望能夠把這種形式做一些可解釋性的推薦。

最后回到檢索問題本身，未來算力&算法升級(jí)使得檢索不再是瓶頸，Match+Rank分階段漏斗式體系該如何發(fā)展?我覺得可能是把match和rank作為一個(gè)整體，用一個(gè)整體的技術(shù)方案去實(shí)現(xiàn)從千萬級(jí)百萬級(jí)量級(jí)到個(gè)位數(shù)或者十位數(shù)這召回，也就是所謂的合久必分，分久必合。

免責(zé)聲明：本文內(nèi)容由21ic獲得授權(quán)后發(fā)布，版權(quán)歸原作者所有，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。文章僅代表作者個(gè)人觀點(diǎn)，不代表本平臺(tái)立場(chǎng)，如有問題，請(qǐng)聯(lián)系我們，謝謝！