論文題目:(Long)A Simple Theoretical Model of Importance for Summarization

論文作者:Maxime Peyrard

論文連結:

https://www。

aclweb。org/anthology/P1

9-1101。pdf

首發於:Sherlock的小酒館

ACL 2019

文字摘要是一種基於背景知識的有損語義壓縮過程,其核心問題是如何定位和篩選

重要資訊

(Importance Information)。除了直接提供文字摘要結果供使用者閱讀外,也為很多其他下游任務(長文字情感分析、搜尋引擎、推薦系統等)提供輔助。

《文字摘要的簡單理論模型》閱讀筆記

Summarization

本論文是來自瑞士洛桑聯邦理工學院Maxime Peyrard的工作,ACL 2019傑出論文【outstanding paper(5)】。

作者以往的相關工作:

Studying Summarization Evaluation Metrics in the Appropriate Scoring Range, ACL 2019(Short)

A Principled Framework for Evaluating Summarizers: Comparing Models of Summary Quality against Human Judgments, ACL 2017

Optimizing an Approximation of ROUGE - a Problem-Reduction Approach to Extractive Multi-Document Summarization, ACL 2016

本文不涉及複雜模型和龐大的訓練語料,其以資訊理論為基礎,來探究什麼樣的摘要是一個好摘要。為了進一步提升摘要的質量,本文提出了幾個概念來指導摘要生成的過程:

冗餘度(Redundancy)

相關性(Relevance)

資訊量(Informativeness)

論文理論的依據和前提

本文采用的是夏農資訊理論(

夏農的資訊理論究竟牛在哪裡?

)中的基本理論。摘要的主要目的就是在損失最小資訊量的情況下,最大限度表達原文資訊量。論文將文字切分成最基本的語義單元

\omega_{i}

,語義單元負責語義部分,而資訊理論只需要關注由語義單元構成的文字資訊即可。

H(X)=-\sum_{\omega_{i}} \mathbb{P}_{X}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{X}\left(\omega_{i}\right)\right)

一下介紹中引入的部分術語符號如下:

\omega_{i}

: 表示一個語義單元(字元,詞,n-gram或者具有更復雜語義語法內容的單元)

\Omega

:表示由語義單元

\omega_{i}

組成的集合

X

:一段自然語言的文字

\mathbb{P}_{X}\left(\omega_{i}\right)

表示文字

X

包含原子資訊

\omega_{i}

的機率

度量的幾個維度

冗餘度(Redundancy)

《文字摘要的簡單理論模型》閱讀筆記

Redundancy

當處理較長的文字是,只以相關性為目標做摘要會遇到一個很明顯的問題:模型傾向於生成多個相似度很高的摘要,而丟失了一些小眾主題的資訊。以往,也有很多工作對摘要的冗餘度進行研究。

MMR(Maximal Marginal Relevance):

將相關性和冗餘度放在一個目標函式中,使用貪心演算法最佳化目標函式。每次挑選新的摘要句

d_i \in D

時,除了 1)建模其與

相關性分數

外,還要 2)扣除其與當前摘要集合

R

冗餘度分數

,最後 3)挑選綜合分數最高的候選句加入到摘要集合中。

\operatorname{MMR}(\mathrm{D}, \mathrm{D}, \mathrm{R})=\operatorname{Argmax}_{{\mathrm{d}_{\mathrm{i}} \in \mathrm{D}}^{k}} \left[\underbrace{\lambda \operatorname{sim}\left(\mathrm{D}, \mathrm{d}_{\mathrm{i}}\right)}_{Relevance} - \underbrace{(1-\lambda) \max_{{\mathrm{d}_{\mathrm{j}} \in \mathrm{R}}}\left(\operatorname{sim}\left(\mathrm{d}_{\mathrm{i}}, \mathrm{d}_{\mathrm{j}}\right)\right)}_{Redundancy}\right]

Submodular:

submodular在建模冗餘度時,不是懲罰冗餘性,而是獎勵多樣性。

文中直接使用資訊理論中的

來度量摘要的資訊量,對冗餘度進行建模。

\operatorname{Red}(S)=H_{\max }-H(S)

其中

H_{\max }=\log |\Omega|

是獨立於摘要

S

的約束條件,因此公式可以簡化為如下的形式:

\begin{eqnarray} \operatorname{Red}(S)&=&-H(S) \\ \\  &=& \sum_{\omega_{i}} \mathbb{P}_{S}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{D}\left(\omega_{i}\right)\right) \end{eqnarray}

注:熵越大,文字的不確定性越高,資訊量也越大,那麼其冗餘度也越小。

相關性(Relevance)

《文字摘要的簡單理論模型》閱讀筆記

相關性是摘要生成問題中最基本的一個要求,大多數模型對摘要抽取或生成的目標都可以近似為相關性。以下為一些基於相關性對摘要進行建模的方法:

基於關鍵詞的方法:

先使用關鍵詞抽取模型抽取關鍵詞,然後統計包含關鍵詞最多的句子作為候選摘要。關鍵詞抽取應用比較廣泛的就是基於tfidf方法。

基於主題模型:

如LDA,LSA等,分析文件隱含的主題,然後分析句子和主題的相關性。

將句子向量化表示:

然後對句子進行聚類,隱含的每個聚類代表某個主題,然後從這些主題中挑選摘要句。

graph-based方法:

以textrank為經典方法,將句子作為節點,句子之間的相似度關係作為邊,構建有權圖,利用圖論中的演算法,得到每個句子的權重分數。 這種方法,相比較於前面三個不太直觀,實質上,它挑選的句子通常是相似性最強的一堆句子中的一個。即textrank認為一個句子如果與它相似的句子數越多,表明這個句子與文件主題內容越相關。

本文用

交叉熵

來建模摘要與原文的相關性:

 \begin{eqnarray} \operatorname{Rel}(S, D)&=&-C E(S, D)  &=& \sum_{\omega_{i}} \mathbb{P}_{S}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{D}\left(\omega_{i}\right)\right) \end{eqnarray}

注:交叉熵越小,表示摘要和文件的差異越小,那麼相關性越強。

整合相關性和冗餘度

KL散度很好地整合了相關性和冗餘度。當

S

D

KL

散度很小的時候,說明摘要擬合原文的效果非常好,此時相關性和冗餘度的綜合分數就比較高。

\begin{eqnarray} \operatorname{Rel}(S, D) - Red(S) &=&-C E(S, D) + H(S) &=& - KL(S||D) \end{eqnarray}

“資訊量”(Informativeness)

《文字摘要的簡單理論模型》閱讀筆記

根據論文所說,假設當前有一個背景知識庫

K

,從文件

D

中得到的摘要

S

對於

K

來說應儘可能增多資訊。這樣才能使讀者在閱讀摘要後獲取更多的資訊。

\begin{eqnarray} \operatorname{Inf}(S, K)&=& CE(S, K)  &=& -\sum_{\omega_{i}} \mathbb{P}_{S}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{K}\left(\omega_{i}\right)\right) \end{eqnarray}

protential Information

本概念的目標主要是為了對informativeness建模提供上界。簡單來說,在已知背景知識

K

的條件下,我們也能從

D

中獲取新的資訊。同樣也可以使用交叉熵來建模兩個分佈的差異,公式如下:

\begin{eqnarray} \operatorname{PI_K}(D, K)&=& CE(D, K) &=& -\sum_{\omega_{i}} \mathbb{P}_{D}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{K}\left(\omega_{i}\right)\right) \end{eqnarray}

重要性(Importance) = Relevance + Informativeness

Importance

是論文提出的一個新的概念,它針對的是語義單元,目標是計算每個語義單元的重要性分數。在構造摘要的時候,會根據這個分數判斷是否選擇某個語義單元。而且產生摘要應僅透過使用

D

中可用的資訊,來使知識背景為

K

的使用者帶來最新的資訊。構造這樣一個打分函式

f\left(d_{i}, k_{i}\right)

,需要滿足以下約束條件:

Informativeness:

不同的語義單元

\omega_{i}, \omega_{j}, i \neq j

在文件中的機率分佈相同

d_i = d_j

k_i > k_j

,則

f\left(d_{i}, k_{i}\right)<f\left(d_{j}, k_{j}\right)

,語義單元的重要性分數

f

與 informativeness負相關。

Relevance:

不同的語義單元

\omega_{i}, \omega_{j}, i \neq j

K

中的機率分佈相同

d_i > d_j

k_i = k_j

,則

f\left(d_{i}, k_{i}\right) > f\left(d_{j}, k_{j}\right)

,語義單元的重要性分數

f

與 relevance負相關。

Additivity:

打分函式應當保持資訊理論中度量方法的加性性質

I\left(f\left(d_{i}, k_{i}\right)\right) \equiv \alpha I\left(d_{i}\right)+\beta I\left(k_{i}\right)

Normalization:

\sum_{i} f\left(d_{i}, k_{i}\right)=1

為了滿足上述四個條件,論文給出一個函式例項:

\begin{aligned} \mathbb{P}_{\frac{D}{K}}\left(\omega_{i}\right) &=\frac{1}{C} \cdot \frac{d_{i}^{\alpha}}{k_{i}^{\beta}} \\ C &=\sum_{i} \frac{d_{i}^{\alpha}}{k_{i}^{\beta}}, \alpha, \beta \in \mathbb{R}^{+} \end{aligned}

注:

d_{i}=\mathbb{P}_{D}\left(\omega_{i}\right),  k_{i}=\mathbb{P}_{K}\left(\omega_{i}\right)

對於重要性(Importance)來說,它整合了Relevance和Informativeness兩個維度,由此得到的理想摘要應當能儘可能擬合機率分佈

\mathbb{P}_{\frac{D}{K}}

, 這裡仍用交叉熵來度量分佈的差異,因此公式如下:

\text { Importance }\left(S, \frac{D}{K}\right)=-C E\left(S, \frac{D}{K}\right)

整合各個維度

上文所述的重要性已經整合了Relevance和Informativeness兩個維度,要得到最終的最佳化目標,就需要把Redundancy也整合進來。

\begin{aligned}  \theta_{I}(S, D, K) &= \underbrace{\alpha Rel(S, D) + \beta Inf(S, K)}_{Importance} - Red(S) \\ &=-C E\left(S, \frac{D}{K}\right) + H(S) \\ &=-K L\left(\mathbb{P}_{S} \| \mathbb{P}_{\frac{D}{K}}\right) \end{aligned}

實驗

論文並沒有使用一些傳統的Rouge、Bleu等評測方法對摘要進行評測,而是使用金字塔的計算方式對機器和人工生成的摘要各自進行評分。最後計算兩者的相關係數,以評測機器生成的摘要是否達到了人工的水平。

《文字摘要的簡單理論模型》閱讀筆記

參考

拋開模型,探究文字自動摘要的本質——ACL2019 論文佳作研讀系列

ACL 2019 A Simple Theoretical Model of Importance for Summarization