小蜜蜂問答

小蜜蜂問答

多領域中文語音識別資料集 WenetSpeech 正式釋出——有效下載教程

墨理學AI 發表于娛樂2021-11-09

本文由

墨理學AI

整理撰寫，近期會逐步把一些資料集資源博文整合到該專欄

知乎的排版感覺很舒服哇

對應公號文章地址如下

資料集介紹

基礎資訊

西北工業大學音訊語音和語言處理研究組（ASLP Lab）、出門問問、希爾貝殼聯合釋出1萬小時多領域中文語音識別資料集 WenetSpeech

該部分介紹主要參考該文，追求排版體驗的同學，可點選如下連結進行查閱：

WenetSpeech 簡介

WenetSpeech 除了含有 10000+ 小時的高質量標註資料之外，還包括2400+ 小時弱標註資料和 22400+ 小時的總音訊，覆蓋各種網際網路音影片、噪聲背景條件、講話方式，來源領域包括有聲書、解說、紀錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場景，領域詳細統計資料如下圖所示。

WenetSpeech 收集過程

下圖中給出該 OCR 系統在不同場景下的幾個典型示例。圖中綠色的框為檢測到的所有文字區域，紅色的框為判定為字幕的文字區域，紅色框上方的文字為 OCR 的識別結果。可以看到，該系統正確的判定了字幕區域，並準確的識別了字幕文字，同時經過我們測試，發現該系統也可以準確判定字幕的起始和結束時間。

資料校驗

WenetSpeech 中選取置信度>=95%的資料作為高質量標註資料，選取置信度在0。6和0。95之間的資料作為弱監督資料。

經典演算法對比

下載正確開啟方式

該下載方式記錄時間：【2021-10-22記錄】

下載主頁

填寫郵箱資訊

提交成功介面如下

很快郵箱收到下載方式說明

讓準備，500G 磁碟空間

開始下載

根據網速情況，下載大致需要大半天吧

du -sh

資料集壓縮包大小：309G

tree -L 3

檢視資料集結構如下

致敬大佬

WenetSpeech 是目前最大的開源普通話語音語料庫，適用於產業級語音識別的研究

全人類的人工智慧事業大概就是這樣一步一步向前推動的吧

語音資料集總結博文如下

近期經典有趣博文推薦

上一篇：<<華晨宇和張傑唱功誰更厲害？

下一篇：深度長文分析丨學音樂之後，我才知道《貓和老鼠》有多牛逼>>

標籤： WenetSpeech 資料字幕語音如下