多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程
本文由
墨理學AI
整理撰寫,近期會逐步把一些資料集資源博文整合到該專欄
知乎的排版感覺很舒服哇
對應公號文章地址如下
資料集介紹
基礎資訊
西北工業大學音訊語音和語言處理研究組(ASLP Lab)、出門問問、希爾貝殼聯合釋出1萬小時多領域中文語音識別資料集 WenetSpeech
該部分介紹主要參考該文,追求排版體驗的同學,可點選如下連結進行查閱:
WenetSpeech 簡介
WenetSpeech 除了含有 10000+ 小時的高質量標註資料之外,還包括2400+ 小時弱標註資料和 22400+ 小時的總音訊,覆蓋各種網際網路音影片、噪聲背景條件、講話方式,來源領域包括有聲書、解說、紀錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場景,領域詳細統計資料如下圖所示。
WenetSpeech 收集過程
下圖中給出該 OCR 系統在不同場景下的幾個典型示例。圖中綠色的框為檢測到的所有文字區域,紅色的框為判定為字幕的文字區域,紅色框上方的文字為 OCR 的識別結果。 可以看到,該系統正確的判定了字幕區域,並準確的識別了字幕文字,同時經過我們測試,發現該系統也可以準確判定字幕的起始和結束時間。
資料校驗
WenetSpeech 中選取置信度>=95%的資料作為高質量標註資料,選取置信度在0。6和0。95之間的資料作為弱監督資料。
經典演算法對比
下載正確開啟方式
該下載方式記錄時間:【2021-10-22記錄】
下載主頁
填寫郵箱資訊
提交成功介面如下
很快郵箱收到下載方式說明
讓準備,500G 磁碟空間
開始下載
根據網速情況,下載大致需要 大半天吧
du -sh
資料集壓縮包大小:309G
tree -L 3
檢視資料集結構如下
致敬大佬
WenetSpeech 是目前最大的開源普通話語音語料庫,適用於產業級語音識別的研究
全人類的人工智慧事業大概就是這樣一步一步向前推動的吧
語音資料集總結博文如下
近期經典有趣博文推薦