ACM SIGKDD是資料探勘領域的頂級會議,享有很高的學術聲譽。近日,第26屆ACM SIGKDD公佈錄用結果,華為諾亞方舟實驗室推薦與搜尋團隊、決策推理加研團隊、AI基礎理論團隊合作的3項研究成果被接收。其中圖神經網路子方向有1篇被Research Track接收(接收率16。89%),AutoML子方向有2篇分別被Research Track和Applied Data Science Track接收(該工作被接收為Oral報告,Oral接收率為5。8%)。本文將概要介紹這3項研究成果,歡迎大家關注諾亞方舟實驗室的公眾號,後續我們將帶來相關研究成果的詳細介紹。

1。 AutoFIS: Automatic Feature Interaction Selection in Factorization Models for Click-Through Rate Prediction (Oral Presentation in Applied Data Science Track)

華為諾亞方舟實驗室推薦與搜尋方向三項研究成果獲KDD 2020錄用

圖1:AutoFIS的模型圖

對特徵互動進行建模是推薦系統中的一個重要問題。在現有的深度推薦模型中,特徵互動是由專家設計或者簡單列舉得到。但是,簡單列舉所有的特徵互動會佔用大量的記憶體和計算時間。更糟糕的是,無效的特徵互動會引入不必要的噪聲,干擾推薦模型的訓練。在本工作中,我們提出了一個兩階段的模型AutoFIS。AutoFIS可以為因子分解類模型自動定義出所有重要的特徵互動,而並不過多地增加訓練時間。在搜尋階段,為了實現在特徵互動的離散集合上進行搜尋,我們引入連續型結構變數來輔助搜尋。透過在這些結構變數上加入約束型最佳化器,我們的模型在訓練過程中可以自動定位並刪除無效的特徵互動。在重訓練階段,我們將這些結構變數當做注意力機制的權重引數來重新訓練,以進一步提升模型的精度。我們在公開資料集和產品資料集上驗證,AutoFIS可以提升因子分解類模型的精度(AUC和Logloss)。該方法簡單有效,得到KDD評委的高度認可,得到3/2/2的分數,其中meta review的評價是:”Overall the paper presents a novel idea, it is well written and the evaluation is very thorough”。該工作已經公開

https://

arxiv。org/abs/2003。1123

5

。【諾亞推薦與搜尋團隊,AI基礎理論團隊和上海交大APEX實驗室俞勇/張偉楠老師團隊聯合研究成果】

2。 A Framework for Recommending Accurate and Diverse Items Using Bayesian Graph Convolutional Neural Networks

華為諾亞方舟實驗室推薦與搜尋方向三項研究成果獲KDD 2020錄用

圖2:BGCN訓練圖

在推薦系統中,準確學習使用者和物品的表達是非常重要的課題。隨著圖卷積網路的廣泛研究和應用,將圖卷積網路應用於推薦系統越來越受到關注。現有基於圖的推薦模型都將觀測到的使用者-物品互動圖當做使用者和物品之間的ground-truth。但是,在推薦系統場景中,這種設定並不總是合理。例如,這種設定會將互動圖中沒有連邊的互動當做負例,而這種未被觀測到的互動可能是未來的潛在互動;另一方面,有一些觀測到的連邊也可能是不真實的或者是噪聲帶來的。為了解決這個問題,我們在這個工作裡用貝葉斯圖卷積網路BGCN去建模使用者-物品互動圖中的不確定性。我們為訓練過程提出了一個詳細的BPR損失函式,也詳細討論瞭如何在我們的模型下做預測。我們在四個公開資料上進行驗證,我們的BGCN模型在各個評價指標上均好於現有基於圖的推薦模型。我們在產品資料集上也進行了驗證,發現BGCN模型精度同樣有所提升。此外我們還發現,我們的BGCN模型的推薦結果同時兼顧了準確性和多樣性,而在“冷啟動”使用者的推薦效果會更加顯著。【諾亞推薦與搜尋團隊,決策推理加研團隊和MindSpore團隊聯合研究成果】

3。 Probabilistic Metric Learning with Adaptive Margin for Top-K Recommendation

華為諾亞方舟實驗室推薦與搜尋方向三項研究成果獲KDD 2020錄用

圖3:PMLAM模型框架

Metric Learning是一種基於距離的推薦模型,使得學習到的使用者/物品表達滿足三角不等式。我們對現有的metric learning模型做了以下三點擴充套件,得到我們的模型PMLAM:(1) 為使用者/物品表徵向量中的每一個引數學習其機率分佈(假設為高斯分佈),以建模引數的不確定性;(2) 我們提出了一個自適應的margin生成模組,為不同的訓練triplets自動生成合理的margin進行訓練;(3) 我們在目標函式中不僅僅建模使用者-物品間的相似性,還額外考慮了使用者-使用者以及物品-物品之間的相似性。我們用Wasserstein距離去衡量兩個高斯分佈之間的距離。透過在五個公開資料集上與現有模型的對比,我們的PMLAM模型可以將推薦精度提升4%-22%。【諾亞推薦與搜尋團隊和決策推理加研團隊聯合研究成果】

這些論文我們會盡快地放在Arxiv上,也會盡可能的開源。

希望各位優秀的同學加入我們的小組,發表更多高質量的學術工作。