EMNLP'21| 語言模型表示關係型知識：綜述（翻譯）

EMNLP2021上新出來一篇關於語言模型表示關係型知識的綜述《Relational World Knowledge Representation in Contextual Language Models： A Review》，覺得這一篇寫得很好，讀完有很多收穫。我英文一直不好，所以翻譯文章鍛鍊一下，同時再精讀一遍。

論文連結：

Relational World Knowledge Representation in Contextual Language Models： A Review

Abstract

關係型知識庫（KBs）常被用於表示機器中的世界知識。然而，儘管KBs具有高度的精確性和可解釋性，但它們通常是根據手工定義的模式進行組織的，這限制了它們的表達能力，並且需要大量的人力來構建和維護。在這篇綜述中，我們從自然語言處理的角度分析了這些侷限性，考察瞭如何透過訓練深層語境語言模型（LMs），以更靈活的形式內化和表達關係型知識，來部分解決問題。我們提出，透過“提供給LM的KB監督程度”來對LMs中的知識表示策略進行分類，從no KB supervision 到 entity-level（實體級別）到 relation-level （關係級別）。我們的貢獻有以下三點：

我們為“語言模型中的知識表示”提供了一個高水平，可擴充套件的分類法。

在我們的分類法中，我們強調了重要的模型，評估任務和發現，對LMs中的知識表示能力進行總結。

我們建議未來的研究方向，LMs和KBs在知識表示能力上的互補性。

1 Introduction

知識庫（KBs）是透過語義上有意義的符號關係連線實體或概念對的資料結構。數十年的研究，知識庫被作為機器中關係世界知識表示的工具。（Minsky， 1974； Lenat， 1995；Liu and Singh， 2004； Bollacker et al。， 2008； Vran-decic and Krötzsch， 2014； Speer et al。， 2017； Sap et al。， 2019； Ilievski et al。， 2021）。

大多數大型現代知識庫都是根據手工設計的模式組織的，該模式指定允許哪些實體和關係型別，以及這些型別如何相互互動。這種關係結構實現既有優點，又有缺點。（Halevy et al。，2003）。

一方面，模式支援對資料的複雜查詢，並提供準確、一致和可解釋的答案。另一方面，模式是“ontological commitments”（Davis等人，1993），限制了知識儲存、表達和訪問的靈活性。

手工構建的模式也需要大量的人力來構建和維護，因此通常是高度不完整的（Weikum et al。， 2021）。

語言模型作為KBs？

結構化和非結構化知識表示之間的緊張關係在自然語言處理中並不新鮮（Banko and Etzioni， 2008； Fader et al。， 2011）。然而，直到最近，機器學習在軟體、硬體和資料上的突破帶來了一個特別有希望的解決方案。特別是，深度語境語言模型（

LMs

），比如BERT，GPT-3，已經證明能夠在其引數範圍內，內化一定程度的世界關係知識，並在各種媒介和任務中利用這種知識——在某些情況下，不需要預定義的實體-關係模式（Petroni et al。， 2019；Roberts et al。， 2020）。

所以，一些人開始思考，使用足夠大的訓練資源和引數容量，LMs是否可以部分甚至全部取代KBs。

當前工作

在這篇綜述中，我們總結了最近在用LMs表示關係世界知識方面引人注目的進展。我們提出按照“提供給LM的KB監督程度”組織這些工作。

Word-level 監督

：在這個層次，LMs在知識庫上沒有明確的監督，但可以透過訓練語料庫中的單詞關聯間接地接觸到類似知識庫的知識。我們介紹了知識探測技術，以及利用這些隱式獲得的知識。

Entity-level 監督

：在這個層次，監督LMs來獲取知識庫實體的知識。在這裡，我們從“較少符號化”到“較多符號化”來分類：較少符號化的方法透過實體感知語言建模來訓練LMs，但從不明確要求LM將實體提及連結到KB。相比之下，“較多符號化”方法涉及連結，也可能將實體嵌入整合到LM的引數中。

Relation-level 監督

：在這個層次，監督LMs獲取知識庫三元組和路徑。同樣，我們從“較少符號化”到“較多符號化”來分類，其中較少符號化的方法將三元組視為完全自然的語言語句，較多符號化的方法包含了KB關係型別的專用嵌入。

對於每個監督層次，我們提供了方法和結果方面的顯著示例，並比較了不同方法的優缺點。我們在第六部分中總結了我們對未來的展望，

強調了LMs和KBs作為知識表示的互補性

。

相關工作

由於這個主題相對較新，相關綜述較少。和我們相近的工作，Colon-Hernandez et al。（2021）涵蓋將上下文語言表示法與圖表示法相結合的方法，儘管範圍相對窄，且未討論隱含知識。Liu等人（2021a）的prompt learning綜述，這與我們在3。1對完形填空prompt的討論有重疊，關係型知識不是他們的主要關注點。

2 Preliminaries

我們簡要回顧閱讀這篇綜述所需的背景知識和假設。

知識庫

我們使用“knowledge base”（KB）來指代一個關係資料結構集合：實體E，關係型別R，三元組

$(s,r,o)\in E\times R\times E$

，其中

$s,o\in E$

分別是主體和物件實體。在“關係世界知識”的範圍內，我們考慮兩種型別的知識庫。事實類知識庫（

Encyclopedic KBs

）儲存有關型別、無歧義的事實。一個例子是Wikidata KB，像是Wikipedia的姊妹專案一樣，是可公開訪問和協作構建的。另一類是常識類知識庫（

commonsense KBs

）。“實體”通常由非規範化的自由文字短語表示。例如，公眾可訪問的眾包服務 ConceptNet，ATOMIC KBs。

語言模型

根據當前的NLP論文，我們使用“語言模型”去指代經過訓練以學習上下文文字表示的深層神經網路。LMs通常是經過預訓練的，透過在大型語料庫上進行自監督訓練，為通用文字表示預先初始化引數。可以在預訓練後按原樣使用，或者在下游任務監督微調。本工作只考慮基於

Transformer

結構的語言模型，例如只用transformer encoder的BERT家族，只用transformer decoder的GPT家族，使用encoder-decoder的T5和BART家族。

3 Word-level supervision

標準語言建模任務是預測n個單詞序列中的第n個單詞——條件機率估計任務。雖然這項任務的許多變體已經被提出，允許LMs在不同的輸入條件下進行預測，所有這些方法的一個顯著特點是它們在單詞（和子單詞）級別上執行。

如果這些監督技術根本不包含知識庫，那麼在將LMs視為關係知識表示時，它們又有什麼關係呢？答案是簡單的。典型的語言模型語料像Wikipedia包含了KB-like斷言。LMs在足夠多的資料上訓練能獲得KB-like知識，甚至不需要entity-level或者relation-level的監督。因此，為了激發KB監督的必要性（如果有的話），

瞭解LMs從word-level預訓練中獲得了什麼樣的知識是至關重要的

。在這一節，我們涵蓋了在完形填空prompt下提取和利用這些知識（§ 3。1），以及

statement scoring

（ § 3。2）。表1展示了這一節的分類，表明了代表性的例子和驗證任務。

3.1 完形填空Prompt

完形填空Prompt是一個提取和驗證預訓練語言模型中KB-like知識的直接方法。在這個規則下，KB三元組首先使用關係模板轉換為自然語言斷言。對於每個斷言，都會顯示與物件實體對應的標記。然後，凍結的預訓練語言模型根據候選標記填充空槽的機率對其詞彙表中的候選標記進行排序。透過正確答案出現在語言模型中top-k預測中的比例來衡量準確率，假定更好的效能意味著LM中有更多的預訓練知識。

手工Prompt

用英語手工製作的Prompt和單個token答案組成了LAMA資料集（Petroni et al。，2019），這是最早的也是最廣泛使用的LM完形填空探測。LAMA，對應了Wikidata和ConceptNet的三元組，最初被用於比較LM知識和現成的KBQA系統。Petroni et al。，（2019）展示了BERT有競爭力，使用監督關係提取模型，該模型已提供用於實體連結的oracle，特別是用於一對一查詢。隨後的工作對手工製作的模板進行了實驗，用於探測兩個非常大（千億引數）的LMs的知識（Brown et al。， 2020），以及非上下文單詞嵌入作為LMs的簡單baseline。

實驗效果都很好，特別是當給模型提供少量的額外條件例項 (Brown et al.,2020)或者實體型別資訊 (Dufter et al., 2021)的時候

。

自動prompt工程

對於LMs中的知識提取，自動prompt構建是手工prompt的一種很有前景的替代方法。prompt使用離散的（Jiang et al。， 2020b；Shin et al。， 2020； Haviv et al。， 2021）和連續的（Zhong et al。， 2021； Qin and Eisner， 2021； Liu et al。， 2021b）方法，提升了LMs在LAMA資料集上的效能下限。但是，請注意，這些Prompt並不總是符合語法和易懂的。Prompt最佳化方法可能會由於在訓練過程中對答案過擬合使知識推理效果混亂（Zhong et al。， 2021； Cao et al。， 2021），而且通常需要大量的驗證集進行微調，這在實際中不可行。

對抗性修改

對LAMA提示的對抗性修改揭示了LMs“知識”的弱點。例如，當提示中新增不相關的陳述或否定詞時，

BERT的準確度會急劇下降

（Kassner and Schütze， 2020； Lin et al。， 2020； Petroni et al。， 2020），

並且可以使用淺層詞彙提示或benchmark來 “猜”答案

（Poerner et al。，2020； Cao et al。， 2021）。然而，在預訓練（Petroni et al。，2020）和微調（Kassner and Schütze，2020）階段，LM知識的對抗穩健性隨著監督而大大提高，

這表明明確的KB級監督是一種可行的輸入敏感性補救措施。

幾個prompt變體的集合

包括基礎Prompt的釋義集合（Elazar et al。，2021； Heinzerling and Inui， 2021），基礎Prompt的多語言集合（Jiang et al。， 2020a； Kassner et al。， 2021）已經發布，以擴充套件LAMA提出的原始研究問題。對於前者，已經發現，BERT-based LMs通常不會為prompt的釋義輸出一致的答案，儘管透過有針對性的預訓練，它們的一致性可以再次大大提高。對於後者，關於英語以外prompt的初步結果表明，不同語言的預訓練LM表現差異較大，而對於多個token的答案表現較差。

使用符號規則生成Prompt

已經被用於測試預訓練LMs的學習能力，例如等價、蘊涵、組合和連詞。現有的研究不同程度的實驗控制：Talmor et al。（2020a）使用BERT-based models 以及它們公開的預訓練權重，Kassner et al。（2020）在KB三元組上從頭訓練了BERT。這些研究都觀察到的結果好壞參半，結論是單獨進行word-level的預訓練（至少是在BERT）上不會產生很強的“推理”能力。

3.2 Statement scoring（語句評分）

除了知識探測，PLM知識可用於下游KB-level的零樣本學習任務，透過statement scoring的方式。這裡，對應於KB三元組的自然語言問句輸入到預訓練的LM中，它在每個語句中的token機率被彙集在一起產生語句分數。然後，這些分數被視為下游決策的輸入，反映了監督LMs可以被訓練為輸出triple-level任務的機率的方式（§ 5）。我們將語句評分策略分為single-LM和dual-LM方法。single-LM方法在一組候選序列上，透過預訓練的LM對序列的token進行打分，再聚合，選取得分最高的序列作為LM的“預測”（Tamborrino et al。， 2020； Bouraoui et al。，2020； Zhou et al。， 2020； Brown et al。， 2020）。 dual-LM方法，首先使用一個預訓練LM去生成有用的上下文，然後將這個上下文放入另一個不同的預訓練LM去獲得最終的分數。

兩類方法在一些無監督任務上，例如多選QA，常識KB補全中都顯示出潛力。

然而，LM 分數也顯示出其對於文字中小的擾動的敏感，所以這個方法在噪聲和長輸入上可能不太有效。

3.3 總結與展望

對於預訓練LMs中獲得的“知識”的性質仍然存在廣泛的分歧。然而，一些研究表明，word-level的預訓練可能足以賦予LMs類似知識庫的知識（Petroni et al。， 2019； Tamborrino et al。， 2020），特別是當有足夠的引數和正確的prompt（Brown et al。， 2020）。結論還有，這種預訓練本身並不能產生足夠精確和可靠的LM知識（Elazar et al。， 2021； Cao et al。， 2021）——這直接激勵本文剩餘部分討論的監督策略。我們觀察到不同的研究獨立地設定了預訓練LM應該“知道”的，因此自然得出了不同的結論。我們認為未來的研究必須就標準化任務和benchmark達成共識：

預訓練語料庫和知識探測之間允許有多大程度的重疊？如何準確地揭示和量化？在知識探索中應該允許哪些詞彙線索或關聯？在這個方向上的進展不僅進一步瞭解word-level監督對LM知識獲取的影響，還將為衡量entity-level和relation-level的監督提供適當的標準。

4 Entity-level supervision

我們接下來回顧entity-level的監督策略，大多都是提升知識探測效能，（比如在LAMA資料集），還有常規的NLP任務，比如實體型別、實體連結和問答。我們大致將方法將方法從“少符號化”到“多符號化”進行分類。在這個分類光譜的首部，LM暴露於文字中提及的實體，但是不需要去將這些提及去連結外部的實體庫（§ 4。1）。在光譜的尾部，訓練LM去進行實體連結KB，使用

late fusion(§ 4.2)

和

mid-to-early fusion (§ 4.3)

方法。表2展示了本節提供的監督策略的分類，並提供了代表性示例。

4.1 無連結實體建模

“least symbolic”實體監督方法，我們考慮輸入的上下文包含實體mention-spans 到LM中，並且包含這些mention-spans在他們的損失中。然而，他們不需要LM去連結這些mentions 和 KB中的實體，所以LM沒有直接暴露給KB。

Masking tokens in mention-spans

並且訓練模型去預測這些詞能促進知識記憶（Sun et al。， 2020）。 Roberts et al。（2020）使用一個簡單的掩蔽策略來研究這個策略，其中LM訓練來預測文字中包含命名實體和日期的標記。

作者發現T5模型最大的版本在開放域問答（QA）基準上生成精確匹配的答案，其準確性高於抽取系統

——甚至沒有訪問外部上下文文件，模擬了一個“closed-book”考試。

對比學習

，被用作LM監督在詞和句子層次（Devlin et al。， 2019），還設計了對實體提及的監督（Shen et al。，2020）。例如，Xiong et al。（2020）將訓練前語料庫中提到的部分實體替換為相同型別的負取樣實體的名稱，並訓練LM預測span中的實體是否已被替換。雖然先前的closed-book T5模型（Roberts et al。， 2020）優於 Xiong et al。（2020）的基於開放域QA的對比實體替換訓練的open-book BERT，但是後者可能更具普遍性：

對於訓練期間沒見過的事實，T5的效能會顯著下降，而open-book方法更穩健

（Lewis et al。， 2021）。

4.2 late fusion連結

下一個強level的實體監督是訓練LM去連結entity-centric文字上下文和KB實體集E。這裡，我們介紹late fusion方法，該方法在單詞級操作，輸入到LM，並且僅在LM的輸出層合併實體。這類方法最簡潔的表示是，將文字語料庫的單個token或mention匹配到實體庫，而無需要任何外部資源。研究人員提出的最低限度的“實體感知”Broscheit （2019），它將單個分類層加在預訓練BERT encoder的頂部，透過最先進的專業實體連結體系結構實現SOTA結果（Kolitsas et al。，2018）。

實體元資訊

對於LM驅動的實體連結來說，名稱和描述等實體元資訊是可行的外部資源（Botha et al。，2020）。例如，在零樣本實體連結中，文字提及必須連結到在訓練期間不可見的實體，僅使用實體描述作為附加資料。在這裡，解決方案訓練分離的BERT模型，透過編碼候選實體的描述來選擇和排序候選實體（Logeswaran et al。，2019；Wu et al。，2020）。近來，encoder-decoder LMs經過訓練，透過生成實體的唯一名稱來檢索實體（De Cao et al。，2021），它的優點是可以使用LM的詞彙表大小（通常是數萬）而不是KB實體集大小（可能是數千萬）。De Cao et al。，（2021）在實體連結和QA方面取得了和判別式方法相當的結果，這表明LMs生成entity-aware的潛力。

外部實體embeddings

由獨立預訓練的外部實體embedding被用作LMs的歸納偏置來源。例如，在BERT encoder輸出處，一些BERT變體透過將外部實體embedding與上下文詞表示線性融合，進一步預訓練基礎模型（Zhang et al。，2019；He et al。，2020）。BERT還經過了微調，使其輸出的token表示可以與外部實體embedding相匹配，以完成端到端實體連結的任務（Chen et al。，2020）。這種方法嚴重依賴於外部學習embeddings的質量，這既是優點也是缺點：這種embedding可能包含關於KB的有用的隱含結構資訊，但另一方面可能會將錯誤傳播到LM中。

4.3 middle fusion or early fusion 連結

我們所考慮的entity-level監督技術的最後最強的一類也是基於連結的，但是是在更早的階段融合實體資訊。Mid-fusion方法在隱藏層之間檢索外部實體表示，並將它們重新上下文化到LM中。下圖提供了early fusion的輸入輸出示例。

檢索實體embedding

並且將他們整合進入LM的隱藏層詞表示中是一種middle-fusion技術，具有靈活的優勢：

它允許訓練者選擇在哪裡（即在哪個層）進行embedding實體整合，以及如何學習實體embedding並將其重新融入LM中。

Peters et al。（2019）使用單詞到實體的注意機制，將外部預先訓練的凍結實體embedding嵌入到BERT的最終隱藏層中。Févry et al。（2020）在預訓練時聯合學習外部實體embedding，並使用注意力機制加權在BERT早期隱層中進行整合。最新的方法和一個30*larger T5在closed-book QA的效果差不多，這表明LMs和KB embeddings 可以聯合訓練，以增強和互補。

將實體視作“token”

，將特殊保留的實體符號附加到LM的詞彙表中是最早的entity fusion方法。例如，Yamada et al。（2020）在向RoBERTa提及這些實體的文字上下文旁邊輸入實體token標記，並在其隱藏層中使用專門的word-to-entity和entity-to-entity注意力矩陣。其他方法保持基本的LM的內部架構完全不變，只關注在輸入級別對齊LM的詞和實體嵌入空間（Rosset et al。，2020；Poerner et al。，2020）。

然而，請注意，這種方法可能會顯著地擴大LM的詞表大小。

例如，普通的BERT詞典有大約3萬個token，而英文Wikipedia有大約6百萬個實體，這使得對更大詞彙量的預訓練在時間和記憶體使用上都很昂貴（Yamada et al。，2020；Dufter et al。，2021）。

4.4 總結和展望

LM實體監督的文章數量迅速增多。與NLP最近的趨勢一致（Khashabi et al。，2020），越來越多的實體監督策略使用生成模型（Roberts et al。，2020；De Cao et al。，2021）。它們之所以有吸引力，是因為它們允許在輸出方面具有高度的靈活性，並避免了對潛在的數百萬個實體進行分類的需要。

然而，一些研究發現，生成模型目前的表現並不好，超出了它們從訓練集中記憶的內容(Wang et al., 2021b; Lewis et al., 2021)。這些發現表明，將實體知識儲存在外部（Févry et al., 2020）的魯棒性更強，例如可以有效更新LM的知識 (Verga et al.,2020)。我們認為，未來的工作將需要權衡全引數和基於檢索的實體建模方法，從純粹的準確性、引數和訓練效率，以及超越訓練集的泛化能力方面。

5 Relation-level supervision

最後，我們考慮使用KB三元組或路徑來監督LMs執行復雜的、通常是組合任務，如關係分類、文字生成和基於規則的推理。我們再一次按照less symbolic和more symbolic來組織方法。在這種情況下，less symbolic方法將三元組和路徑視為完全自然的語言（§5。1，5。2）。相反，more symbolic方法學習KB中關係型別的不同嵌入。下表提供了這一節的分類，並給出典型例子和評估任務。

5.1 關係——斷言模板

基於模板的詞彙化是一種流行的relation-level監督策略，它不直接向KB公開LM。類似於如何將知識庫查詢轉換為知識探測的完形填空prompt，三元組首先被使用（通常手工構建的）關係模板轉化為自然語言斷言。然後將這些斷言輸入LM。

詞彙化三元組

在概念證明研究中，Wikidata的詞彙化三元組被用作LM訓練資料，證明LMs可以在受控條件下作為KBs的自然語言查詢介面（Heinzerling and Inui，2021）。在這個方向上，

一種很有前景的方法是使用encoder-decoder LMs生成答案集，透過詞彙化的Wikidata三元組生成自然語言查詢

（Thorne et al。， 2020， 2021），使用LMs處理多答案知識庫查詢——迄今為止，在LM知識查詢文獻中，這是一個有待研究的任務。

我們的方法使用關係模板將KB三元組轉換為句子由此去構建任務特定的訓練集，從而在（例如，故事生成，常識問答，關係分類）等任務上取得進展。雖然大多數方法依賴於手工製作模板，但也有少數的方法使用Wikipedia上的遠端監督來自動挖掘模板，從而在關係分類（Bouraoui et al。，2020），常識問答（Ye et al。，2020）等任務上取得不錯的結果。

組合路徑

跨越多個原子的符號知識也可以詞彙化並輸入到LM（Lauscher et al。，2020；Talmor et al。，2020a），為組合推理去訓練模型（Clark et al。，2020；Talmor et al。，2020b）。值得注意的是，當RoBERTa對錶達（真實的或合成的）事實和來自知識庫的規則的句子進行微調時，它回答隱含查詢的準確性很高（Clark et al。，2020；Talmor et al。，2020b）。

然而，Clark et al. (2020) 提出，這些結果都沒有證實LMs可以“推理”，但是他們至少可以模擬推理——提出一個開放的問題，即如何探測和度量，LM是否真正能夠進行組合推理。

5.2 KB三元組線性化

主要優點是它將符號三元組轉換為序列，這些序列可以直接輸入到LMs中

。

然而，手工模板是一個人工的過程，遠距離監督有很多噪音。為了保持模板的優點，同時避免缺點，三元組可以透過線性化的方式將它們輸入到LM中，也就是說，將subject、relation和object壓扁成一個輸入序列。透過線性化，relation-level監督變得非常簡單，只需

將線性化的序列輸入LM

，然後再用特定任務的損失進行訓練（Yao et al。，2019； Kim et al。，2020； Ribeiro et al。，2020； Wang et al。，2021a），或者

將序列注入預訓練語料庫

（Liu et al。，2020）。前一種方法最近有一個值得注意的工作（Agarwal et al。，2021），他們線上性化的Wikidata上訓練了T5，去生成這些三元組的完全線性化版本。在傳統文件語料庫的基礎上，將這些詞彙化的三元組作為檢索“文件”，改進基於LM的QA。然而，請注意，它們也可以作為LM訓練資料用於其他下游任務，而不是使用手工製作的模板。

5.3 Relations as dedicated embeddings

到目前為止討論的策略都是將KB三元組和路徑視為自然語言序列。一個更“符號化”的方法是使用專用的embedding去表示KB關係型別，使用late-fusion，middle-fusion，early-fusion方法將這些embedding整合到LM中。圖5a和5b展示了late-fusion的輸入輸出例子，其中關係文字上下文被輸入到LM中，LMs構建和整合並輸出關係embedding。圖5c舉例說明了early fusion，關係被當作token輸入。

實體提及範圍的上下文表示可以在LM的輸出層池化

，以表示關係（Wang et al。，2021c；Y u et al。，2020）。例如Baldini Soares et al。（2019）連線插入到文字實體提及附近的特殊實體開始標記的上下文表示，並對BERT進行微調，以便為覆蓋相同實體對的語句輸出類似的關係表示。（圖5a）。這種方法在關係分類中被證明是非常成功的，已經被應用到英語以外的其他語言中（Köksal and Özgür，2020；Ananthram et al。，2020），也被作為LM的一個預訓練目標（Qin et al。，2021）。

非上下文關係embedding

可以透過定義一個單獨的關係嵌入矩陣來學習，並將它融入LM中。這種方法的優點是類似於檢索外部實體嵌入的方法（§4。3），它支援late （Wang et al。，2021d；Daza et al。，2021）和middle stage的fusion。前者的例子，Wang et al。（2021d）提出LM預訓練目標，透過LM輸入KB實體的文字描述並對其進行編碼，然後使用鏈路預測損失在輸出處與外部學習的關係embedding相結合（圖5b）。結合標準的word-level建模目標，這種方法可以在sentence-level（如關係分類）和graph-level（如KB完成）中實現泛化。

將關係視為“token”

，對於LM中關係的early fusion，是透過將知識庫的關係型別附加到LM的詞表來實現的。這個方法一個值得注意的工作是COMET常識KB構建框架（Bosselut et al。，2019；Hwang et al。，2021；Jiang et al。，2021）。給定一個subject/relation作為輸入，COMET對LM進行微調以得到object。COMET表現出很好的效果在沒有經過KB構建訓練的400*larger LMs上（Hwang et al。， 2021）。然而，當在小樣本條件下對COMET框架進行訓練和測試時，使用模板（§5。1）可能比向詞表中新增特殊標記有更好的效果。

5.4 總結和展望

LMs的Relation-level監督是令人振奮的，因為它支援各種複雜的NLP任務。這些任務有一個統一的主題，那就是組合型，即小的“building blocks”可以被組合起來獲得新知識。因為組合性被認為是機器泛化的關鍵（Lake et al。，2017）。

我們認為，研究對於理解和提高LMs的軟推理能力(Clark et al., 2020; Talmor et al., 2020b, § 5.1)是至關重要的。

最後，雖然我們討論的大多數方向都涉及到使用KBs改進LM知識，但我們發現使用LM生成KBs的方向同樣有趣————反映了LM和KBs的互補性，因為KBs的自動化和擴充套件最終將為LM提供更多的關係訓練資料。

COMET框架在常識知識庫構建方面取得了進展，但在百科知識方面還沒有觀察到同樣的進展。

後者帶來了獨特的挑戰：常識實體不會消除歧義，三元組只需要看似合理而不是總是正確的，百科全書（事實型知識庫）實體通常會消除歧義，事實往往是二元的真/假。我們期待未來的研究能夠解決這些挑戰，或許可以建立在生成性事實實體檢索方面的最新突破（De Cao et al。， 2021， § 4。2）。

6 結論和展望

在這篇綜述中，我們概述了LMs如何在預訓練階段和微調階段中獲得關係型世界知識。我們提出了一種新的分類法，根據提供給LM的知識庫監督級別對知識表示方法進行分類，從no explicit level到entity-level到relation-level的監督。

未來，

我們認為來自LM社群和KB社群的觀點和工具之間會有更強的協同作用

。特別是，我們期待在NLP中，

越來越多地與大規模KB資源結合，出現功能強大、表達能力強的LMs，以提高LMs的知識回憶和推理能力

。並且，我們期望此類KBs資源越來越多地直接由LMs生成。在這兩個方向上，我們希望未來的工作將繼續探索本文討論的主題，特別是描述和測試KB記憶力與LMs泛化能力的對比。我們還期望為評估LM知識開發更多標準化的benchmark和任務，這個方向最近已經看到了一些進展（Petroni et al。，2021）。隨著LMs和KBs交叉研究的快速進展，我們期待著更好地發展和結合這兩種知識表示的優勢的新研究。

參考文獻

太懶，先不寫了。。。

小蜜蜂問答

小蜜蜂問答

EMNLP'21| 語言模型表示關係型知識：綜述（翻譯）

推薦文章

小蜜蜂問答

小蜜蜂問答

EMNLP'21| 語言模型表示關係型知識：綜述（翻譯）

相關文章

銅仁和懷化哪個城市大？

小車年檢週期表？

氧矽鋁鐵鈣化學符號？

高通驍龍835具有協處理器嗎？效能如何？

推薦文章