語音識別論文:Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc
李永強 發表于 娛樂2021-04-19
宣告:我主要從事語音合成,對語音識別的學習主要出於興趣。文章內容摘要如有錯誤,還望讀者指出,共同學習進步。
歡迎關注微信公眾號:低調奮進
Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures
本文2021。04。12號由德國亞琛工業大學計算機科學系釋出,主要對比使用TTS合成的資料對不同ASR架構的影響,具體的文章連結
https://
arxiv。org/pdf/2104。0537
9。pdf
內容摘要
就目前的ASR架構,主要分為attention encoder-decoder(AED),connectionist-temporal-classification(CTC)和Hybrid ASR。其中效果最好的還是Hybrid ASR。本文主要使用TTS進行資料增廣,使AED的效能逼近Hybrid ASR。
本文是TTS和ASR都使用LibriSpeech-100,合成使用的文字是LibriSpeech-360,具體的結果如table 5所示,主要的結論如下:
1)使用TTS增廣資料對AED提升很大,對Hybrid ASR和CTC相對較小;
2)即使使用TTS增光資料,AED還是無法達到Hybrid ASR的效能;
3)雖然TTS資料對Hybrid ASR影響很小,本文使用LibriSpeech-100來訓練Hybrid ASR,在乾淨和噪聲資料集上獲得了目前WER較好的3。3%/10%的表現。