本文由

墨理學AI

整理撰寫,近期會逐步把一些資料集資源博文整合到該專欄

知乎的排版感覺很舒服哇

對應公號文章地址如下

資料集介紹

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

基礎資訊

西北工業大學音訊語音和語言處理研究組(ASLP Lab)、出門問問、希爾貝殼聯合釋出1萬小時多領域中文語音識別資料集 WenetSpeech

該部分介紹主要參考該文,追求排版體驗的同學,可點選如下連結進行查閱:

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

WenetSpeech 簡介

WenetSpeech 除了含有 10000+ 小時的高質量標註資料之外,還包括2400+ 小時弱標註資料和 22400+ 小時的總音訊,覆蓋各種網際網路音影片、噪聲背景條件、講話方式,來源領域包括有聲書、解說、紀錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場景,領域詳細統計資料如下圖所示。

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

WenetSpeech 收集過程

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

下圖中給出該 OCR 系統在不同場景下的幾個典型示例。圖中綠色的框為檢測到的所有文字區域,紅色的框為判定為字幕的文字區域,紅色框上方的文字為 OCR 的識別結果。 可以看到,該系統正確的判定了字幕區域,並準確的識別了字幕文字,同時經過我們測試,發現該系統也可以準確判定字幕的起始和結束時間。

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

資料校驗

WenetSpeech 中選取置信度>=95%的資料作為高質量標註資料,選取置信度在0。6和0。95之間的資料作為弱監督資料。

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

經典演算法對比

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

下載正確開啟方式

該下載方式記錄時間:【2021-10-22記錄】

下載主頁

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

填寫郵箱資訊

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

提交成功介面如下

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

很快郵箱收到下載方式說明

讓準備,500G 磁碟空間

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

開始下載

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

根據網速情況,下載大致需要 大半天吧

du -sh

資料集壓縮包大小:309G

tree -L 3

檢視資料集結構如下

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

致敬大佬

WenetSpeech 是目前最大的開源普通話語音語料庫,適用於產業級語音識別的研究

全人類的人工智慧事業大概就是這樣一步一步向前推動的吧

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

語音資料集總結博文如下

近期經典有趣博文推薦

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程