《文字摘要的簡單理論模型》閱讀筆記
論文題目:(Long)A Simple Theoretical Model of Importance for Summarization
論文作者:Maxime Peyrard
論文連結:
https://www。
aclweb。org/anthology/P1
9-1101。pdf
首發於:Sherlock的小酒館
ACL 2019
文字摘要是一種基於背景知識的有損語義壓縮過程,其核心問題是如何定位和篩選
重要資訊
(Importance Information)。除了直接提供文字摘要結果供使用者閱讀外,也為很多其他下游任務(長文字情感分析、搜尋引擎、推薦系統等)提供輔助。
Summarization
本論文是來自瑞士洛桑聯邦理工學院Maxime Peyrard的工作,ACL 2019傑出論文【outstanding paper(5)】。
作者以往的相關工作:
Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, ACL 2019(Short)
A Principled Framework for Evaluating Summarizers: Comparing Models of Summary Quality against Human Judgments, ACL 2017
Optimizing an Approximation of ROUGE - a Problem-Reduction Approach to Extractive Multi-Document Summarization, ACL 2016
本文不涉及複雜模型和龐大的訓練語料,其以資訊理論為基礎,來探究什麼樣的摘要是一個好摘要。為了進一步提升摘要的質量,本文提出了幾個概念來指導摘要生成的過程:
冗餘度(Redundancy)
相關性(Relevance)
資訊量(Informativeness)
論文理論的依據和前提
本文采用的是夏農資訊理論(
夏農的資訊理論究竟牛在哪裡?
)中的基本理論。摘要的主要目的就是在損失最小資訊量的情況下,最大限度表達原文資訊量。論文將文字切分成最基本的語義單元
,語義單元負責語義部分,而資訊理論只需要關注由語義單元構成的文字資訊即可。
一下介紹中引入的部分術語符號如下:
: 表示一個語義單元(字元,詞,n-gram或者具有更復雜語義語法內容的單元)
:表示由語義單元
組成的集合
:一段自然語言的文字
表示文字
包含原子資訊
的機率
度量的幾個維度
冗餘度(Redundancy)
Redundancy
當處理較長的文字是,只以相關性為目標做摘要會遇到一個很明顯的問題:模型傾向於生成多個相似度很高的摘要,而丟失了一些小眾主題的資訊。以往,也有很多工作對摘要的冗餘度進行研究。
MMR(Maximal Marginal Relevance):
將相關性和冗餘度放在一個目標函式中,使用貪心演算法最佳化目標函式。每次挑選新的摘要句
時,除了 1)建模其與
相關性分數
外,還要 2)扣除其與當前摘要集合
的
冗餘度分數
,最後 3)挑選綜合分數最高的候選句加入到摘要集合中。
Submodular:
submodular在建模冗餘度時,不是懲罰冗餘性,而是獎勵多樣性。
文中直接使用資訊理論中的
熵
來度量摘要的資訊量,對冗餘度進行建模。
其中
是獨立於摘要
的約束條件,因此公式可以簡化為如下的形式:
注:熵越大,文字的不確定性越高,資訊量也越大,那麼其冗餘度也越小。
相關性(Relevance)
相關性是摘要生成問題中最基本的一個要求,大多數模型對摘要抽取或生成的目標都可以近似為相關性。以下為一些基於相關性對摘要進行建模的方法:
基於關鍵詞的方法:
先使用關鍵詞抽取模型抽取關鍵詞,然後統計包含關鍵詞最多的句子作為候選摘要。關鍵詞抽取應用比較廣泛的就是基於tfidf方法。
基於主題模型:
如LDA,LSA等,分析文件隱含的主題,然後分析句子和主題的相關性。
將句子向量化表示:
然後對句子進行聚類,隱含的每個聚類代表某個主題,然後從這些主題中挑選摘要句。
graph-based方法:
以textrank為經典方法,將句子作為節點,句子之間的相似度關係作為邊,構建有權圖,利用圖論中的演算法,得到每個句子的權重分數。 這種方法,相比較於前面三個不太直觀,實質上,它挑選的句子通常是相似性最強的一堆句子中的一個。即textrank認為一個句子如果與它相似的句子數越多,表明這個句子與文件主題內容越相關。
本文用
交叉熵
來建模摘要與原文的相關性:
注:交叉熵越小,表示摘要和文件的差異越小,那麼相關性越強。
整合相關性和冗餘度
KL散度很好地整合了相關性和冗餘度。當
與
的
散度很小的時候,說明摘要擬合原文的效果非常好,此時相關性和冗餘度的綜合分數就比較高。
“資訊量”(Informativeness)
根據論文所說,假設當前有一個背景知識庫
,從文件
中得到的摘要
對於
來說應儘可能增多資訊。這樣才能使讀者在閱讀摘要後獲取更多的資訊。
protential Information
本概念的目標主要是為了對informativeness建模提供上界。簡單來說,在已知背景知識
的條件下,我們也能從
中獲取新的資訊。同樣也可以使用交叉熵來建模兩個分佈的差異,公式如下:
重要性(Importance) = Relevance + Informativeness
Importance
是論文提出的一個新的概念,它針對的是語義單元,目標是計算每個語義單元的重要性分數。在構造摘要的時候,會根據這個分數判斷是否選擇某個語義單元。而且產生摘要應僅透過使用
中可用的資訊,來使知識背景為
的使用者帶來最新的資訊。構造這樣一個打分函式
,需要滿足以下約束條件:
Informativeness:
不同的語義單元
在文件中的機率分佈相同
且
,則
,語義單元的重要性分數
與 informativeness負相關。
Relevance:
不同的語義單元
在
中的機率分佈相同
且
,則
,語義單元的重要性分數
與 relevance負相關。
Additivity:
打分函式應當保持資訊理論中度量方法的加性性質
Normalization:
為了滿足上述四個條件,論文給出一個函式例項:
注:
對於重要性(Importance)來說,它整合了Relevance和Informativeness兩個維度,由此得到的理想摘要應當能儘可能擬合機率分佈
, 這裡仍用交叉熵來度量分佈的差異,因此公式如下:
整合各個維度
上文所述的重要性已經整合了Relevance和Informativeness兩個維度,要得到最終的最佳化目標,就需要把Redundancy也整合進來。
實驗
論文並沒有使用一些傳統的Rouge、Bleu等評測方法對摘要進行評測,而是使用金字塔的計算方式對機器和人工生成的摘要各自進行評分。最後計算兩者的相關係數,以評測機器生成的摘要是否達到了人工的水平。
參考
拋開模型,探究文字自動摘要的本質——ACL2019 論文佳作研讀系列
ACL 2019 A Simple Theoretical Model of Importance for Summarization