《文字摘要的簡單理論模型》閱讀筆記

論文題目：（Long）A Simple Theoretical Model of Importance for Summarization

論文作者：Maxime Peyrard

論文連結：

https：//www。

aclweb。org/anthology/P1

9-1101。pdf

首發於：Sherlock的小酒館

ACL 2019

文字摘要是一種基於背景知識的有損語義壓縮過程，其核心問題是如何定位和篩選

重要資訊

（Importance Information）。除了直接提供文字摘要結果供使用者閱讀外，也為很多其他下游任務（長文字情感分析、搜尋引擎、推薦系統等）提供輔助。

Summarization

本論文是來自瑞士洛桑聯邦理工學院Maxime Peyrard的工作，ACL 2019傑出論文【outstanding paper（5）】。

作者以往的相關工作：

Studying Summarization Evaluation Metrics in the Appropriate Scoring Range， ACL 2019（Short）

A Principled Framework for Evaluating Summarizers： Comparing Models of Summary Quality against Human Judgments， ACL 2017

Optimizing an Approximation of ROUGE - a Problem-Reduction Approach to Extractive Multi-Document Summarization， ACL 2016

本文不涉及複雜模型和龐大的訓練語料，其以資訊理論為基礎，來探究什麼樣的摘要是一個好摘要。為了進一步提升摘要的質量，本文提出了幾個概念來指導摘要生成的過程：

冗餘度（Redundancy）

相關性（Relevance）

資訊量（Informativeness）

論文理論的依據和前提

本文采用的是夏農資訊理論（

夏農的資訊理論究竟牛在哪裡？

）中的基本理論。摘要的主要目的就是在損失最小資訊量的情況下，最大限度表達原文資訊量。論文將文字切分成最基本的語義單元

$\omega_{i}$

，語義單元負責語義部分，而資訊理論只需要關注由語義單元構成的文字資訊即可。

$H(X)=-\sum_{\omega_{i}} \mathbb{P}_{X}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{X}\left(\omega_{i}\right)\right)$

一下介紹中引入的部分術語符號如下：

$\omega_{i}$

：表示一個語義單元（字元，詞，n-gram或者具有更復雜語義語法內容的單元）

$\Omega$

：表示由語義單元

$\omega_{i}$

組成的集合

：一段自然語言的文字

$\mathbb{P}_{X}\left(\omega_{i}\right)$

表示文字

包含原子資訊

$\omega_{i}$

的機率

度量的幾個維度

冗餘度（Redundancy）

Redundancy

當處理較長的文字是，只以相關性為目標做摘要會遇到一個很明顯的問題：模型傾向於生成多個相似度很高的摘要，而丟失了一些小眾主題的資訊。以往，也有很多工作對摘要的冗餘度進行研究。

MMR（Maximal Marginal Relevance）：

將相關性和冗餘度放在一個目標函式中，使用貪心演算法最佳化目標函式。每次挑選新的摘要句

$d_i \in D$

時，除了 1）建模其與

相關性分數

外，還要 2）扣除其與當前摘要集合

的

冗餘度分數

，最後 3）挑選綜合分數最高的候選句加入到摘要集合中。

$\operatorname{MMR}(\mathrm{D}, \mathrm{D}, \mathrm{R})=\operatorname{Argmax}_{{\mathrm{d}_{\mathrm{i}} \in \mathrm{D}}^{k}} \left[\underbrace{\lambda \operatorname{sim}\left(\mathrm{D}, \mathrm{d}_{\mathrm{i}}\right)}_{Relevance} - \underbrace{(1-\lambda) \max_{{\mathrm{d}_{\mathrm{j}} \in \mathrm{R}}}\left(\operatorname{sim}\left(\mathrm{d}_{\mathrm{i}}, \mathrm{d}_{\mathrm{j}}\right)\right)}_{Redundancy}\right]$

Submodular：

submodular在建模冗餘度時，不是懲罰冗餘性，而是獎勵多樣性。

文中直接使用資訊理論中的

熵

來度量摘要的資訊量，對冗餘度進行建模。

$\operatorname{Red}(S)=H_{\max }-H(S)$

其中

$H_{\max }=\log |\Omega|$

是獨立於摘要

的約束條件，因此公式可以簡化為如下的形式：

$\begin{eqnarray} \operatorname{Red}(S)&=&-H(S) \\ \\ &=& \sum_{\omega_{i}} \mathbb{P}_{S}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{D}\left(\omega_{i}\right)\right) \end{eqnarray}$

注：熵越大，文字的不確定性越高，資訊量也越大，那麼其冗餘度也越小。

相關性（Relevance）

相關性是摘要生成問題中最基本的一個要求，大多數模型對摘要抽取或生成的目標都可以近似為相關性。以下為一些基於相關性對摘要進行建模的方法：

基於關鍵詞的方法：

先使用關鍵詞抽取模型抽取關鍵詞，然後統計包含關鍵詞最多的句子作為候選摘要。關鍵詞抽取應用比較廣泛的就是基於tfidf方法。

基於主題模型：

如LDA，LSA等，分析文件隱含的主題，然後分析句子和主題的相關性。

將句子向量化表示：

然後對句子進行聚類，隱含的每個聚類代表某個主題，然後從這些主題中挑選摘要句。

graph-based方法：

以textrank為經典方法，將句子作為節點，句子之間的相似度關係作為邊，構建有權圖，利用圖論中的演算法，得到每個句子的權重分數。這種方法，相比較於前面三個不太直觀，實質上，它挑選的句子通常是相似性最強的一堆句子中的一個。即textrank認為一個句子如果與它相似的句子數越多，表明這個句子與文件主題內容越相關。

本文用

交叉熵

來建模摘要與原文的相關性：

$\begin{eqnarray} \operatorname{Rel}(S, D)&=&-C E(S, D) &=& \sum_{\omega_{i}} \mathbb{P}_{S}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{D}\left(\omega_{i}\right)\right) \end{eqnarray}$

注：交叉熵越小，表示摘要和文件的差異越小，那麼相關性越強。

整合相關性和冗餘度

KL散度很好地整合了相關性和冗餘度。當

與

的

散度很小的時候，說明摘要擬合原文的效果非常好，此時相關性和冗餘度的綜合分數就比較高。

$\begin{eqnarray} \operatorname{Rel}(S, D) - Red(S) &=&-C E(S, D) + H(S) &=& - KL(S||D) \end{eqnarray}$

“資訊量”（Informativeness）

根據論文所說，假設當前有一個背景知識庫

，從文件

中得到的摘要

對於

來說應儘可能增多資訊。這樣才能使讀者在閱讀摘要後獲取更多的資訊。

$\begin{eqnarray} \operatorname{Inf}(S, K)&=& CE(S, K) &=& -\sum_{\omega_{i}} \mathbb{P}_{S}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{K}\left(\omega_{i}\right)\right) \end{eqnarray}$

protential Information

本概念的目標主要是為了對informativeness建模提供上界。簡單來說，在已知背景知識

的條件下，我們也能從

中獲取新的資訊。同樣也可以使用交叉熵來建模兩個分佈的差異，公式如下：

$\begin{eqnarray} \operatorname{PI_K}(D, K)&=& CE(D, K) &=& -\sum_{\omega_{i}} \mathbb{P}_{D}\left(\omega_{i}\right) \cdot \log \left(\mathbb{P}_{K}\left(\omega_{i}\right)\right) \end{eqnarray}$

重要性（Importance） = Relevance + Informativeness

Importance

是論文提出的一個新的概念，它針對的是語義單元，目標是計算每個語義單元的重要性分數。在構造摘要的時候，會根據這個分數判斷是否選擇某個語義單元。而且產生摘要應僅透過使用

中可用的資訊，來使知識背景為

的使用者帶來最新的資訊。構造這樣一個打分函式

$f\left(d_{i}, k_{i}\right)$

，需要滿足以下約束條件：

Informativeness:

不同的語義單元

$\omega_{i}, \omega_{j}, i \neq j$

在文件中的機率分佈相同

且

，則

$f\left(d_{i}, k_{i}\right)<f\left(d_{j}, k_{j}\right)$

，語義單元的重要性分數

與 informativeness負相關。

Relevance:

不同的語義單元

$\omega_{i}, \omega_{j}, i \neq j$

在

中的機率分佈相同

且

，則

$f\left(d_{i}, k_{i}\right) > f\left(d_{j}, k_{j}\right)$

，語義單元的重要性分數

與 relevance負相關。

Additivity:

打分函式應當保持資訊理論中度量方法的加性性質

$I\left(f\left(d_{i}, k_{i}\right)\right) \equiv \alpha I\left(d_{i}\right)+\beta I\left(k_{i}\right)$

Normalization:

$\sum_{i} f\left(d_{i}, k_{i}\right)=1$

為了滿足上述四個條件，論文給出一個函式例項：

$\begin{aligned} \mathbb{P}_{\frac{D}{K}}\left(\omega_{i}\right) &=\frac{1}{C} \cdot \frac{d_{i}^{\alpha}}{k_{i}^{\beta}} \\ C &=\sum_{i} \frac{d_{i}^{\alpha}}{k_{i}^{\beta}}, \alpha, \beta \in \mathbb{R}^{+} \end{aligned}$

注：

$d_{i}=\mathbb{P}_{D}\left(\omega_{i}\right), k_{i}=\mathbb{P}_{K}\left(\omega_{i}\right)$

對於重要性（Importance）來說，它整合了Relevance和Informativeness兩個維度，由此得到的理想摘要應當能儘可能擬合機率分佈

$\mathbb{P}_{\frac{D}{K}}$

，這裡仍用交叉熵來度量分佈的差異，因此公式如下：

$\text { Importance }\left(S, \frac{D}{K}\right)=-C E\left(S, \frac{D}{K}\right)$

整合各個維度

上文所述的重要性已經整合了Relevance和Informativeness兩個維度，要得到最終的最佳化目標，就需要把Redundancy也整合進來。

$\begin{aligned} \theta_{I}(S, D, K) &= \underbrace{\alpha Rel(S, D) + \beta Inf(S, K)}_{Importance} - Red(S) \\ &=-C E\left(S, \frac{D}{K}\right) + H(S) \\ &=-K L\left(\mathbb{P}_{S} \| \mathbb{P}_{\frac{D}{K}}\right) \end{aligned}$

實驗

論文並沒有使用一些傳統的Rouge、Bleu等評測方法對摘要進行評測，而是使用金字塔的計算方式對機器和人工生成的摘要各自進行評分。最後計算兩者的相關係數，以評測機器生成的摘要是否達到了人工的水平。

參考

拋開模型，探究文字自動摘要的本質——ACL2019 論文佳作研讀系列

ACL 2019 A Simple Theoretical Model of Importance for Summarization

小蜜蜂問答

小蜜蜂問答

《文字摘要的簡單理論模型》閱讀筆記

推薦文章

小蜜蜂問答

小蜜蜂問答

《文字摘要的簡單理論模型》閱讀筆記

相關文章

“雲在天空裡_____，在_______，在______，在______。”怎麼填空？

在大尺度室外環境中使用路標的視覺語義SLAM

RoadMap:一種用於自動駕駛視覺定位的輕質語義地圖（ICRA2021）

不瘟不火的意思是什麼?

推薦文章

“雲在天空裡_，在_，在，在__。”怎麼填空？