論文連結:

研究背景

知識圖譜

因其在問答、語義解析和命名實體消歧等任務取得了良好的效果而受到廣泛關注,而大部分知識圖譜都存在不全和缺失實體連結的問題,所以需要進行

連結預測(Link Prediction)

知識圖譜補全(Knowledge Graph Completion)

知識圖譜嵌入(Knowledge Graph Embedding)

方法被提出來解決該問題。知識圖譜嵌入是將知識圖譜中所有的實體和關係嵌入到低維空間的方法,從基於距離的方法TransE到目前效果最好的RotatE,在知識圖譜補全任務上效果持續提升。

在知識圖譜嵌入中,有兩個主要問題受到廣泛關注:

如何解決1對N,N對1和N對N的複雜關係表示問題。

比如1對N的關係:基於距離的方法中,三元組(StevenSpielberg, DirectorOf, ?)的補全要求在經過關係變換DirectorOf後,Jaws和JurassicPark等實體能夠距離StevenSpielberg更接近,但是使所有這類實體具有不同的表示是很困難的。

如何透過已有的三元組學習和推斷關係模式。

關係模式例如對稱(Symmetry)關係IsSimilarT,非對稱(Antisymmetry)關係FatherOf,逆向(Inverse)關係PeopleBornHere和PlaceOfBirth以及組合(Composition)關係mother‘s father is grandpa等等。

研究動機

之前的TransH、TransD和TransR等方法致力於解決複雜關係表示問題,卻只能編碼對稱/非對稱關係,最新的RotatE在編碼對稱/非對稱關係,逆向關係和組合關係上取得了優異的效果,但是複雜關係的預測依然具有挑戰性。由此,論文提出了一種新的知識圖譜嵌入方法PairRE,它能夠同時編碼複雜的關係和多種關係模式。

研究方法

模型中使用的兩個用於關係表示的向量將頭尾實體分別投影到歐式空間,再最小化投影向量的距離。其形式化描述如下:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

PairRE和前面提到的幾種方法的比較如下,可以看出相比於RotatE,論文提出的PairRE方法在複雜關係表示上表現更優,同時在關係模式的編碼上能夠編碼子(Sub)關係。

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

直觀來說,PairRE中所有的實體表示都在一個超球上。

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

相比於其他方法,PairRE允許一個實體在不同的關係中有分散式表示,並且成對的關係向量能夠對損失函式中的邊際進行自適應調整,從而緩解複雜關係的表示問題。例如在1對N的關係補全

(h,r,?)

中,由正確的尾實體集合

S=\{t_1,t_2,...,t_N\}

,論文基於固定的邊際引數

\gamma

設計了

t_i

的取值範圍:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

在TransE和RotatE中也有類似的固定邊際引數來控制複雜關係的表示,當

|S|

足夠大時,PairRE能夠透過減小

|r^T|

來擬合,而前兩種方法效果不佳。

對於各種關係模式,證明PairRE編碼的形式化描述如下:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

對稱/非對稱關係模式

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

逆向關係模式

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

組合關係模式

對於子關係編碼,PairRE滿足了以下條件:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

子關係模式

PairRE的模型最佳化中使用了自對抗(Self-adversarial)的負取樣損失函式:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

其中,

\gamma

是固定的邊界引數,

\sigma

sigmoid

函式,

(h_i^\prime,r,t_i^\prime)

是第

i

個負樣本,

p(h_t^\prime,r,t_i^\prime)

的補充定義如下

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

實驗驗證

主實驗

實驗中用於做連結預測任務的資料集資訊如下

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

PairRE和其他方法的結果比較如下

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

上圖是本文的主實驗結果,可以看到Pair相比於RotatE在各個設定下都取得了更好的效果,如果嵌入向量的維度能夠升高到500,效果可能會進一步提升。

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

文中提到,由於PairRE和RotatE共享超引數和實現方法,所以客觀來說與RotatE比較更公平。

補充實驗

論文還針對子關係模式做了補充實驗,將PairRE同ComplEx-NNE-AER和SimplE+進行對比,這兩種方法透過設計子關係規則進行語義匹配。論文同時借鑑了ComplEx-NNE-AER中的規則,對本來的損失函式進行改變如下:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

對資料集Sports新增以下規則並獲得結果

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

將子關係模式中的兩個關係看作同等之後,在資料集DB100k上獲得的結果如下

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

模型分析

複雜關係的表示問題

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

對於複雜關係的表示問題,論文對關係的種類進行分別實驗,結果表明PairE在N對1和N對N的關係表示在資料集FB15k和ogbl-wikikg2上表現明顯超過了其他模型,但是在1對1和1對N的關係表示上結果不佳。論文為了證明成對的關係向量有優越性,單獨將成對關係向量機制加在RotatE上,在ogbl-wikikg2資料集上取得了良好的效果。

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

關係模式問題

對於關係模式問題,論文在嵌入向量維度為500下取DB100k中的對稱關係

r_1

: spouse和非對稱關係

r_2

: tv_station/owner,對稱關係編碼滿足

r^{H^2}=r^{T^2}

,編碼效果如下:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

驗證逆向關係

r_2

r_3

: tv_station_owner/tv_stations,編碼滿足

r_2^H\circ r_3^H = r_2^T\circ r_3^T

,編碼效果如下:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

驗證組合關係

r_4

: /location/administrative_division/capital/location/administrative_division_capital_relationship/capital,

r_5

: /location/hud_county_place/place和

r_6

: base/areas/schema/administrative_area/capital,編碼滿足

r_4^H\circ r_5^H \circ r_6^T= r_4^T\circ r_5^T \circ r^H_6

,效果如下:

ACL2021 | PairRE: 透過成對的關係向量實現知識圖譜嵌入

總結

論文提出的PairRE方法用成對的向量表示每個關係,使損失函式中的餘量能夠自適應調整,以適應不同的複雜關係,在複雜度略有增加的情況下有效地解決了知識圖譜嵌入中的問題。除了對稱/不對稱、逆向和組合關係之外,PairRE還可以透過對關係表示的簡單約束編碼子關係。在大規模資料集ogbl-wikikg2上,PairRE取得了最優效果。