Aspect-based Sentiment Classification with ASGCN

題目：

Aspect-based Sentiment Classification with Aspect-specific Graph

Convolutional Networks

EMNLP2019

原文連結：

Abstract

由於注意力機制和卷積神經網路（CNN）可以在方面和上下文進行語義對齊，因此被廣泛應用於基於方面的情感分類（

aspect方面，即使用者從哪個角度評論，或者商品從哪個角度介紹，例如價格、效能、服務等

）。但是，這些模型缺乏解釋

相關句法約束和遠距離單詞依存關係

的機制，因此可能會

錯誤地將與語法無關的上下文單詞識別為判斷方面情感的線索

。為了解決這個問題，我們建議在句子依存樹上建立圖卷積網路，以利用句法資訊和單詞依存。在此基礎上，提出了一種新穎的針對特定方面的情感分類框架。在三個基準測試集合上進行的實驗表明，我們提出的模型與一系列最新模型的效果相當，並且進一步證明了圖卷積結構可以正確捕獲語法資訊和遠距離單詞依存關係。

Introduction

基於方面的（也稱為方面級別）情感分類旨在識別句子中明確給出的方面的情感極性。例如，在有關膝上型電腦的評論中說“From the speed to the multi-touch gestures this operating system beats Windows easily。”operating system和Windows兩個方面的情緒極性分別是正面和負面。通常，此任務被表述為預測所提供的

（句子，方面）對

的極性。

鑑於手動特徵劃分的效率不高（Jiang et al。， 2011），基於方面的情感分類的早期工作主要基於神經網路方法（Dong et al。， 2014； Vo and Zhang， 2015）。自從Tang等人（Tang et al。（2016a））指出在上下文單詞和方面之間建模語義關係的挑戰後，注意力機制與遞迴神經網路在最近的模型中開始扮演關鍵角色。

雖然基於注意力的模型很有希望，但是它們不足以捕捉一個句子中上下文單詞和特定方面的句法依存性。因此，當前的注意力機制可能導致

給定方面錯誤地將句法上不相關的上下文單詞作為描述符

（Limitation 1）。看一個具體的例子，“Its size is ideal and the weight is acceptable”。基於注意力的模型通常識別出 acceptable 作為 size 方面的描述符，但事實並非如此。為了解決這個問題，He等人（He et al。（2018））對注意權重施加了一些句法限制，但是句法結構的作用沒有得到充分的利用。

除了基於注意力的模型之外，因為某一方面的情感通常是由關鍵短語而不是單個單詞來確定，卷積神經網路（CNN）被用於提取某一方面的描述性多詞短語。

儘管如此，基於CNN的模型只能透過對單詞序列進行卷積操作將多單詞特徵感知為連續單詞，但不足以確定由彼此不相鄰的多個單詞所表示的情感

（Limitation 2）。在“The staff should be a bit more friendly” 一句中將 staff 作為特定的方面，基於CNN的模型可能會透過檢測 more friendly 這描述性短語來做出錯誤的預測，而忽略了 should be 兩個詞所隱含的反向情緒。

作者旨在透過使用圖卷積網路（GCN）解決上面確定的兩個限制。 GCN具有多層體系結構，每一層都使用近鄰特徵來編碼和更新圖中節點的表示。透過引用句法依存樹（syntactical dependency trees），GCN能夠將

句法相關的單詞

關聯到

目標方面

，並透過GCN層學習遠距離多詞關係和句法資訊。 GCN已利用在文件-單詞關係和樹結構上，但是如何在基於方面的情感分類中有效使用仍然有待探索。

本文提出了Aspect-specific Graph Convonlutional Network（ASGCN），是第一個基於GCN用於特定方面的情感分類的的模型。 ASGCN從雙向長短期記憶網路（LSTM）層開始，以捕獲有關單詞順序的上下文資訊。為了獲得特定於方面的特徵，在LSTM輸出的頂部加入多層圖卷積結構，隨後是掩碼機制，可過濾掉非特定方面的單詞並僅保留高階特定方面的特徵。特定於方面的特徵被反饋到LSTM輸出，以檢索有關該方面的資訊性特徵，然後將其用於預測基於方面的情感。

Contributions

利用句子中的句法依賴性結構，解決基於方面的情感分類的

長距離多詞依賴性問題

。

提出了一種新的方面特定的GCN模型，該方向的首次研究。

大量的實驗結果證明了利用句法資訊和遠距離單詞依存關係的重要性，並證明了模型在基於方面的情感分類中捕獲和利用它們的有效性。

Related Work

在單詞序列上構建神經網路模型，例如CNN（Kim， 2014； Johnson and Zhang， 2015），RNN（Tang et al。， 2016a）和遞迴卷積神經網路（RCNN）（Lai et al。， 2015），在情感分析中取得了可喜的表現。

但是，人們也認識到了利用依賴樹來捕獲

單詞的距離關係

的重要性，且仍缺乏有效機制。

Tai et al。（2015）表明，具有依賴樹的LSTM優於CNN。

Dong et al。（2014）提出了一種使用依賴樹的自適應遞迴神經網路，並取得良好效果。

最近的研究表明，一般的基於依賴的模型很難獲得與基於注意力的模型相當的表現，因為

依賴樹無法正確捕獲長距離的上下文語義資訊

。但是圖卷積網路（GCN）可以解決這一限制。 GCN （Kipf and Welling， 2017）最近在人工智慧領域引起了越來越多的關注，並已應用於自然語言處理（NLP）。

Marcheggiani and Titov （2017）聲稱GCN可以被視為LSTM的補充，並提出了基於GCN的語義角色標記模型。

Vashishth et al。（2018） and Zhang et al。（2018）在文件日期標記和關係分類中分別使用了依賴樹上的圖卷積。

Yao et al。（2018）將GCN引入到利用文件-詞和詞-詞關係的文字分類中，並獲得了比各種state-of-the-art方法好的效能。

本文透過圖卷積深入研究了依賴樹的影響，並開發了特定於方面的GCN模型，該模型與LSTM架構和注意力機制整合在一起，可以更有效地基於方面進行情感分類。

Graph Convolutional Networks

GCN可以看作是傳統CNN的思想對於非結構化資料的區域性資訊進行編碼的改良。對於具有k個節點的一張圖，透過列舉這張圖獲得鄰接矩陣

$A\in R^{k\times k}$

。我們將節點i的第l層的輸出表示為

$h_{i}^{l}$

，其中

$h_{i}^{0}$

表示節點i的初始狀態。對於L層GCN，

$l\in [1,2,...,L]$

並且

$h_{i}^{L}$

是節點i的最終狀態。圖卷積在節點表示上的操作為：

其中

$W^{l}$

是線性轉換權重，

$b^{l}$

是偏置項，

$\sigma$

是非線性方程，比如ReLU。

由於圖卷積過程僅編碼直接鄰居的資訊，因此在L層GCN結構中，圖中的節點只能受到相鄰節點的影響。以此方式，

在句子依存樹上的圖卷積為句子內的一個方面提供了句法約束，以基於句法距離識別描述性詞

（解決上述Limitation 1）。此外，

GCN能夠處理用非連續詞描述方面的極性的情況

（解決上述Limitation 2），因為依存樹上的GCN會將非連續詞收集到較小的範圍內，並透過圖卷積適當地聚集其特徵。因此，作者受到啟發，採用GCN來利用句法資訊和遠距離單詞依存關係進行基於方面的情感分類。

Aspect-specific Graph Convolutional Network

Embedding and Bidirectional LSTM

給定n詞句子

$c=\left\{ w_{1}^{c},w_{2}^{c},...,w_{\tau+1}^{c},...,w_{\tau+m}^{c},...,w_{n-1}^{c},w_{n}^{c} \right\}$

包含了從第

$(\tau+1)$

個token開始的m詞的方面物件，我們將每個單詞token嵌入具有嵌入矩陣

$E\in R^{\left| V \right|\times d_{e}}$

的低維實值向量空間（Bengio等，2003），其中

$\left| V \right|$

是詞典大小，

$d_{e}$

是詞嵌入的維度。利用句子的詞嵌入，構造雙向LSTM來產生隱藏狀態向量

$H^{c}=\left\{ h_{1}^{c},h_{2}^{c},...,h_{\tau+1}^{c},...,h_{\tau+m}^{c},...,h_{n-1}^{c},h_{n}^{c} \right\}$

，其中

$h_{t}^{c}\in R^{2d_{h}}$

表示雙向LSTM在每個時間點t的隱層狀態向量，

$d_{h}$

是單向LSTM的隱層狀態輸出的維度。

Obtaining Aspect-oriented Features

與一般的情感分類不同，基於方面的情感分類的目標是從方面的角度判斷情感，因此需要面向方面的特徵提取策略。在這項研究中，我們透過在句子的句法依存樹上應用多層圖卷積，並在其頂部強加一個特定於方面的掩碼層，來獲得面向方面的特徵。

Graph Convolution over Dependency Trees

在句子依存樹上應用了GCN網路。具體來說，在構造完給定句子的依存關係樹之後，首先根據句子中的單詞獲得鄰接矩陣

$A\in R^{n\times n}$

。重要的是要注意依賴樹是有向圖。雖然GCN通常不考慮方向，但可以將其調整為適合direction-aware的情況。因此，提出了ASGCN的兩個變體，即在無向的依賴圖上的ASGCN-DG，以及在有向的依賴圖上的ASGCN-DT。實際上，ASGCN-DG和ASGCN-DT之間的唯一區別在於它們的鄰接矩陣：ASGCN-DT的鄰接矩陣比ASGCN-DG的稀疏得多。這種設定與父節點受其子節點廣泛影響的現象相符。此外，遵循Kipf和Welling（2017）中的自迴圈思想，每個單詞與自身的鄰接矩陣手動設定，即A的對角線值均為1。在雙向LSTM輸出的基礎上，以多層方式執行ASGCN變體，即

$H^{0}=H^{c}$