部分OCR實用中文資料集

近期，PaddleOCR（

https：//

github。com/PaddlePaddle

/PaddleOCR

）整理了部分OCR實用的中文資料集，包括ICDAR2019-LSVT，ICDAR2017-RCTW-17，中文街景文字識別，中文文件文字識別，ICDAR2019-ArT，詳情如下，更多資訊請參考：

1、ICDAR2019-LSVT

資料來源

：

https：//

ai。baidu。com/broad/intr

oduction？dataset=lsvt

資料簡介

：共45w中文街景影象，包含5w（2w測試+3w訓練）全標註資料（文字座標+文字內容），40w弱標註資料（僅文字內容），如下圖所示：

（a）全標註資料

（b）弱標註資料

下載地址

：

https：//

ai。baidu。com/broad/down

load？dataset=lsvt

2、ICDAR2017-RCTW-17

資料來源

：

https：//

rctw。vlrlab。net/

資料簡介

：共包含12，000+影象，大部分圖片是透過手機攝像頭在野外採集的。有些是截圖。這些圖片展示了各種各樣的場景，包括街景、海報、選單、室內場景和手機應用程式的截圖。

下載地址

：

https：//

rctw。vlrlab。net/dataset

3、中文街景文字識別

資料來源

：

https：//

aistudio。baidu。com/aist

udio/competition/detail/8

資料簡介

：共包括29萬張圖片，其中21萬張圖片作為訓練集（帶標註），8萬張作為測試集（無標註）。資料集採自中國街景，並由街景圖片中的文字行區域（例如店鋪標牌、地標等等）截取出來而形成。所有影象都經過一些預處理，將文字區域利用仿射變化，等比對映為一張高為48畫素的圖片，如圖所示：

（a）標註：魅派整合吊頂

（b）標註：母嬰用品連鎖

下載地址

https：//

aistudio。baidu。com/aist

udio/datasetdetail/8429

4、中文文件文字識別

資料來源

：

https：//

github。com/YCG09/chines

e_ocr

資料簡介

：

共約364萬張圖片，按照99：1劃分成訓練集和驗證集。

資料利用中文語料庫（新聞 + 文言文），透過字型、大小、灰度、模糊、透視、拉伸等變化隨機生成

包含漢字、英文字母、數字和標點共5990個字元（字元集合：

https：//

github。com/YCG09/chines

e_ocr/blob/master/train/char_std_5990。txt

）

每個樣本固定10個字元，字元隨機擷取自語料庫中的句子

圖片解析度統一為280x32

下載地址

：

https：//

pan。baidu。com/s/1QkI7kj

ah8SPHwOQ40rS1Pw

（密碼：lu7m）

5、ICDAR2019-ArT

資料來源

：

https：//

ai。baidu。com/broad/intr

oduction？dataset=art

資料簡介

：共包含10，166張影象，訓練集5603圖，測試集4563圖。由Total-Text、SCUT-CTW1500、Baidu Curved Scene Text三部分組成，包含水平、多方向和彎曲等多種形狀的文字。

下載地址

：

https：//

ai。baidu。com/broad/down

load？dataset=art

小蜜蜂問答

小蜜蜂問答

部分OCR實用中文資料集

推薦文章

小蜜蜂問答

小蜜蜂問答

部分OCR實用中文資料集

相關文章

163郵箱是什麼格式？具體點？

怎麼樣發一份匿名郵件？

你會看商品包裝上的生產日期嗎？

韻腳是ang的字有哪些？

推薦文章