阿里DMR：融合了匹配思想的深度排序模型-Deep Match to Rank

本文是由阿里在AAAI2020發表的一篇文章，題目為［Deep Match to Rank Model for Personalized Click-Through Rate Prediction］

論文要點：

1）在排序模型中引入了匹配思想，並引入輔助訓練網路；

2）以一種靈活的、可擴充套件的方式引入了行為相關的query，從而能夠更靈活地評價一個行為的重要性；

3）相比於DIEN，其在行為序列的計算上是可並行的；

一、背景

點選率預估是目前廣告推薦領域的一個核心重點，對於CTR模型來說，個性化是增強使用者體驗的關鍵。而個性化的資訊其實就包含在使用者過往的行為裡，因此很多模型嘗試透過引入使用者的行為序列進行建模，來學習到使用者當前的興趣表示，再透過使用者興趣表示跟候選目標item的作用來評估候選item是否符合使用者當前的興趣。

DIN模型

比較經典的有阿里的深度興趣模型（DIN），它透過將使用者行為序列中的每一個item跟候選item進行attention，得到每個使用者行為跟候選商品的相似度權重，再透過行為序列各embedding加權的方式得到使用者的興趣表示。DIN的這種方式避免了sum polli導致的使用者興趣趨於均值化，使得模型能夠更多關注使用者行為序列中跟候選目標相關的那部分行為，從而更好地判斷使用者跟候選目標的相關性，因此取得了不錯的效果。但其缺點也是明顯的，一方面它無法對不同行為的重要性進行區分，例如近期的行為肯定更能表示使用者當前的興趣，理應有更高權重；另一方面，使用者的興趣是會變化的，並且變化規律可能就隱藏在行為序列的先後關係中，而DIN沒有能力捕捉到這一資訊，從而挖掘更深層的使用者興趣。

DIEN模型

隨後阿里提出了深度興趣進化模型（DIEN）對DIN進行改進，透過GRU單元引入了不同行為先後關係的資訊。DIEN利用興趣提取層挖掘行為序列中商品之間的聯絡，對使用者的興趣進行更抽象的提取和表達。在興趣發展層中同時引入了候選item進行attention操作，捕獲與目標商品相關的興趣發展模式，因此我們可以認為它最終要學習的目標是“使用者的興趣是否有可能發展為候選目標”。DIEN在DIN的基礎上又向前走了一步，在效果上得到了提升。但其缺點在於因為GRU單元的引入，其在不同行為序列的計算上不再是可並行的，另外模型的可擴充套件性也比較差，我們很難引入更多業務相關的資訊來描述行為的重要性。

DMR模型提出的基於匹配思想的深度排序模型DMR可以看做是另一種對DIN的改進方式。文章提出了兩種網路結構，Item-to-Item網路和User-to-Item網路，來描述使用者和候選目標item是否匹配。

二、DMR模型

DMR網路

2。1 Item-to-Item網路

Item-to-Item網路

Item-to-Item網路可以看做是對DIN的一個最佳化，區別在於它還引入了使用者行為序列的位置資訊p。這裡e是使用者行為序列中每個item的embedding，p是這個行為在這個使用者行為序列中位置的embedding，理論上位置越靠近當前的行為應該受到更多關注，因此文章透過將行為embedding、位置embedding和候選目標embedding聯合進行attention的方式得到一個權重，從而確保這個權重包含了行為的位置資訊。

Wc、Wp、We和Z分別是四個引數矩陣，根據上式最終可以得到該行為的權重。

再把各行為的權重進行softmax，得到每個行為的最終權重，這個權重包含了行為的位置資訊以及和候選目標item的相關程度，將各行為embedding進行加權平均即得到該使用者的興趣表示。將使用者興趣表示和候選目標embedding輸入後續的MLP層即可學習兩者之間的關聯。

這裡同時也把softmax之前的每個行為權重之和，作為一維單獨的特徵輸入MLP層。因為權重大小代表了使用者行為和候選商品的相關性，因此權重之和在某種形式上也包含了兩者的關聯程度資訊。

2。2 User-to-Item網路

User-to-Item網路

User-to-Item網路同樣透過query引入了每一個行為的位置資訊，從而使得近期的行為能夠被更多的關注。但跟Item-to-Item網路以及前面幾個模型不同的是，它在興趣提取階段沒有考慮目標item，而是透過對提取的使用者興趣表示跟目標emb的內積來表示使用者和目標商品的匹配程度，最終輸入到MLP網路的是代表兩者匹配值的一維特徵。

這個跟Item-to-Item網路看起來很像，但實際上還是有所差別的。Item-to-Item網路是間接學習使用者和候選目標的相關性，最終兩者到底有多相關還要考MLP層去學習。而User-to-Item網路則是直接學習兩者之間的相關性，輸入MLP層的就是一個明確的使用者和候選目標的相關分值。

理論上MLP層是可以學習到兩者如何是如何相關的，但實際上神經網路擅長的是學習很多潛在的、複雜的資訊，而對於那些已經很明確的相關性，它的學習效果不一定能做到很完美。其實有點相當於用先驗知識幫神經網路做了一個剪枝，或者說明確了一個方向，明確告知兩者之間就是透過點積來表示相關性，並且點積越大表示相關性越高，避免神經網路走到一些彎路或者學習不到一些重要資訊。

文章中引入了一個輔助訓練網路來幫助訓練，確保點積結果越大代表使用者和候選目標的相關性越高。在輔助訓練的時候，使用行為序列中的前T-1個行為學習使用者表示，而用最後一個行為作為正樣本。使用負取樣的方法隨機獲得負樣本，從而減少計算量。

訓練中，pj表示匹配分值，Ut-1表示用前t-1個行為得到的使用者表示，vj表示最後一個行為，vi表示取樣得到的K個負樣本。

Lns表示輔助網路的loss，最終會跟主網路的loss相加，作為模型訓練的最終loss。

另外要注意一點，文章中Item-to-Item網路和User-to-Item網路的後續目標item的embedding是不同的，兩者之間的關係有點類似於word2vec中一個單詞有輸入和輸出兩種表徵，或者transformer裡面的輸入embedding和輸出embedding。作者發現，將embedding長度減半並分層兩種不同的embedding，效果要好於保持原長度並用同一種embeddig表示，而這兩者的引數量是相同的。

2。3 基於query的思考

這是我本人對於query後續擴充套件的一些思考。我覺得DMR模型本身並沒有用到很複雜的技術，但它提出的這個框架本身卻很靈活、簡潔。特別其透過query的形式引入每個行為的更多資訊，這一點在實際業務中是可擴充套件的。我們可以透過query擴充套件的形式，引入更多在業務中有實際意義的、比較重要的資訊，來描述行為序列中一個行為的重要性。在此舉一些例子。

1）日期資訊。雖然行為的位置資訊一定程度上代表了使用者行為的先後，但本質上時間資訊才是我們要關注的點。例如對於一個長度為50的行為序列，第50個行為可能發生在今天，也可能發生在上個月，而這代表的含義是截然不同的。我們可以把行為發生至今的天數進行編碼，這在長序列中的作用可能會更大。

2）時長資訊。YouTube每個影片是一個瀏覽行為，而瀏覽時長是一個重要資訊，我們可能對時長進行編碼，並用於位置資訊一樣的方式引入進來。同樣在淘寶而言，使用者瀏覽具體商品詳情頁的時長也表示了使用者對這個商品的關注程度。

3）介面操作資訊。在另一些文章中，阿里透過利用使用者在每一個商品詳情頁的點選次數、滑動次數進行建模，並取得突破，他們認為使用者在一個具體商品中的點選、滑動次數代表了使用者對這個商品的熱心程度。而這種特徵也可以很方便的透過DMR這個框架引入進來。

4）行為型別資訊。某個行為是一次有價值的點選、還是一次偶然性的點選、還是加車、收藏、關注、下單等相比點選更有分量的行為，這些也是有價值的資訊，可以描述行為的重要性。

5）交叉資訊。透過商品類目和最近同類目下單時間的聯合編碼，甚至可能引入復購週期等資訊，在轉化率導向的建模中發揮更大作用。

以上是隨便舉的一些例子，僅供參考。但從中可以看出這種方式的靈活性，並且我們是可以同時引入這多種資訊的。

三、實驗

在公共資料集和工業資料集中均有所提升。

模型各部分的對比。DMR-NO-PE表示不引入位置資訊query，可以看到下降是最多的，這也說明了query引入的作用。DMR-Double表示Item-to-Item和User-to-Item網路使用相同embedding，但embedding長度變為2倍，維持引數量不變，可以看到也下降了。

附上論文：Deep Match to Rank Model for Personalized Click-Through Rate Prediction

小蜜蜂問答

小蜜蜂問答

阿里DMR：融合了匹配思想的深度排序模型-Deep Match to Rank

推薦文章

小蜜蜂問答

小蜜蜂問答

阿里DMR：融合了匹配思想的深度排序模型-Deep Match to Rank

相關文章

華為黑卡有什麼功能？

收藏！用Python一鍵批次將任意結構的CSV檔案匯入SQLite資料庫。

成為高階 React 開發你需要知道的知識點

如何能把Embedding技術融入到LR模型框架中？

推薦文章