宣告:我主要從事語音合成,對語音識別的學習主要出於興趣。文章內容摘要如有錯誤,還望讀者指出,共同​學習進步。

歡迎關注微信公眾號:低調奮進

Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures

本文2021。04。12號由德國亞琛工業大學計算機科學系釋出,主要對比使用TTS合成的資料對不同ASR架構的影響,具體的文章連結

https://

arxiv。org/pdf/2104。0537

9。pdf

內容摘要

就目前的ASR架構,主要分為attention encoder-decoder(AED),connectionist-temporal-classification(CTC)和Hybrid ASR​。其中效果最好的還是Hybrid ASR​。本文主要使用TTS進行資料增廣,使AED的效能逼近Hybrid ASR​。

本文是TTS和ASR都使用LibriSpeech-100,合成使用的文字是LibriSpeech-360,具體的結果如table 5​所示,主要的結論如下:

1)使用TTS增廣資料對AED提升很大,對Hybrid ASR和CTC​相對較小;

2)即使使用TTS增光資料,AED還是無法達到Hybrid ASR的效能;

3)雖然TTS資料對Hybrid ASR影響很小,本文使用LibriSpeech-100來訓練Hybrid ASR,在乾淨和噪聲資料集上獲得了目前WER較好的3。3%/10%的表現。

語音識別論文:Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc