1。 語料收集

這裡收集了開放的多個語料,比如tt新聞,wb語料。今天我們主要用到的tt新聞第1份語料(非多標籤的語料)。語料來自於fate233/toutiao-text-classfication-dataset。

2。 語料自動標註

這裡實際上做了兩次實驗,為了描述簡潔,我就合併到1個了。

tt1語料類目與系統類目對應關係

【實驗過程】

查出句子的類別標記對應於本系統分類體系中的類別標記,對於沒有對應類別標記的句子濾除掉,

需要注意的是當前tt語料是有類別標記的,以後實際中是沒有類別標記的,那些不在我們自己的分類體系中的句子怎麼處理有待考慮。

類目對映關係透過人工給定。

計算句子向量。

計算句子向量與每個類目向量的相似度。

按相似度值對類目列表排序。

輸出top3的類目名稱列表以及相似度值。

經過第1次實驗增加下邊額外的過程

加入去除單字的預處理(一般與分詞系統詞表不全有關/未登入詞的處理)

句子必須含有fastText中的詞否則過濾(暫時不需要考慮fastText詞向量矩陣收詞不夠。將實驗1中類目預測相似度值為0的句子抽取出來,數量為40個,人工檢視發現他們都是機構名,而這些機構名對於類別區分沒有太大作用,因此可以考慮不預測這樣的句子。

需要注意的是,有些句子雖然含有fastText詞,但是這些詞卻不具有明顯的類別區分作用,而句子中具有類別區分作用的詞卻沒在fastText詞庫中,這樣的句子如果數量很多的話,還是要考慮處理的方法

,比如利用fastText表示未登入詞,或者直接人工指定規則。)

句子中必須至少含有1個關鍵詞表中的詞否則過濾(只對含有類目關鍵詞的句子進行自動標註對提升正確率是有幫助的)

【自動標註的準確率】

說明:

“經濟”、“社會民生”、“政治”3個類目相較於實驗1準確率有所下降

,有待今天分析原因。“工業”、“文化教育”類目準確率有所提升。“農業”類目準確率沒變。

相較於實驗1,由於加入了用關鍵詞過濾句子,

自動標註文字總量下降了一半,這一半中是否有有價值的句子有待人工驗證

【自動標註到原類目以外類目的情況】

tt語料中的類目沒有覆蓋我們類目體系中的所有類目,在自動標註過程中,有些句子被標註到了語料中沒有的類目上(比如被標註到“能源資源”類目、“資訊產業類目”)

說明:

“能源資源”相較於實驗1的句子數增加了的原因是去除了單字詞的原因。

有待

人工驗證準確性

【結論】

對預測相似度值設定閾值以期提升準確性是不可行的

。從實驗結果中看,標註正確的相似度值和標註錯誤的相似度值之間沒有明顯差異。

對預測的3個類目的相似度值的方差設定閾值提升準確性是不可行的

。從實驗結果中看,標註正確的句子的相似度值方差與標註錯誤的句子的相似度方差之間沒有明顯差異。

去掉分詞後的單字詞對於預測結果提升是有幫助的。

只對含有類目關鍵詞的句子進行自動標註對提升正確率是有幫助的。

自動標註對於“工業”、“農業”,“文化教育”的準確率在tt1語料上是可以的,達到85%以上。