語音識別論文：Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc

宣告：我主要從事語音合成，對語音識別的學習主要出於興趣。文章內容摘要如有錯誤，還望讀者指出，共同學習進步。

歡迎關注微信公眾號：低調奮進

Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Architectures

本文2021。04。12號由德國亞琛工業大學計算機科學系釋出，主要對比使用TTS合成的資料對不同ASR架構的影響，具體的文章連結

https：//

arxiv。org/pdf/2104。0537

9。pdf

內容摘要

就目前的ASR架構，主要分為attention encoder-decoder（AED），connectionist-temporal-classification（CTC）和Hybrid ASR。其中效果最好的還是Hybrid ASR。本文主要使用TTS進行資料增廣，使AED的效能逼近Hybrid ASR。

本文是TTS和ASR都使用LibriSpeech-100，合成使用的文字是LibriSpeech-360，具體的結果如table 5所示，主要的結論如下：

1）使用TTS增廣資料對AED提升很大，對Hybrid ASR和CTC相對較小；

2）即使使用TTS增光資料，AED還是無法達到Hybrid ASR的效能；

3）雖然TTS資料對Hybrid ASR影響很小，本文使用LibriSpeech-100來訓練Hybrid ASR，在乾淨和噪聲資料集上獲得了目前WER較好的3。3%/10%的表現。

小蜜蜂問答

小蜜蜂問答

語音識別論文：Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc

推薦文章

小蜜蜂問答

小蜜蜂問答

語音識別論文：Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc

相關文章

大眾汽車防滑系統le？

威爾法晶鑽黑與至臻黑的區別是什麼？

長安逸動防滑功能怎麼用

心臟驟停如何急救？高以翔猝死帶來的警示？

推薦文章