近期,PaddleOCR(

https://

github。com/PaddlePaddle

/PaddleOCR

)整理了部分OCR實用的中文資料集,包括ICDAR2019-LSVT,ICDAR2017-RCTW-17,中文街景文字識別,中文文件文字識別,ICDAR2019-ArT,詳情如下,更多資訊請參考:

1、ICDAR2019-LSVT

資料來源

https://

ai。baidu。com/broad/intr

oduction?dataset=lsvt

資料簡介

: 共45w中文街景影象,包含5w(2w測試+3w訓練)全標註資料(文字座標+文字內容),40w弱標註資料(僅文字內容),如下圖所示:

部分OCR實用中文資料集

(a) 全標註資料

部分OCR實用中文資料集

(b) 弱標註資料

下載地址

https://

ai。baidu。com/broad/down

load?dataset=lsvt

2、ICDAR2017-RCTW-17

資料來源

https://

rctw。vlrlab。net/

資料簡介

:共包含12,000+影象,大部分圖片是透過手機攝像頭在野外採集的。有些是截圖。這些圖片展示了各種各樣的場景,包括街景、海報、選單、室內場景和手機應用程式的截圖。

部分OCR實用中文資料集

下載地址

https://

rctw。vlrlab。net/dataset

/

3、中文街景文字識別

資料來源

https://

aistudio。baidu。com/aist

udio/competition/detail/8

資料簡介

:共包括29萬張圖片,其中21萬張圖片作為訓練集(帶標註),8萬張作為測試集(無標註)。資料集採自中國街景,並由街景圖片中的文字行區域(例如店鋪標牌、地標等等)截取出來而形成。所有影象都經過一些預處理,將文字區域利用仿射變化,等比對映為一張高為48畫素的圖片,如圖所示:

部分OCR實用中文資料集

(a) 標註:魅派整合吊頂

部分OCR實用中文資料集

(b) 標註:母嬰用品連鎖

下載地址

https://

aistudio。baidu。com/aist

udio/datasetdetail/8429

4、中文文件文字識別

資料來源

https://

github。com/YCG09/chines

e_ocr

資料簡介

共約364萬張圖片,按照99:1劃分成訓練集和驗證集。

資料利用中文語料庫(新聞 + 文言文),透過字型、大小、灰度、模糊、透視、拉伸等變化隨機生成

包含漢字、英文字母、數字和標點共5990個字元(字元集合:

https://

github。com/YCG09/chines

e_ocr/blob/master/train/char_std_5990。txt

每個樣本固定10個字元,字元隨機擷取自語料庫中的句子

圖片解析度統一為280x32

部分OCR實用中文資料集

下載地址

https://

pan。baidu。com/s/1QkI7kj

ah8SPHwOQ40rS1Pw

(密碼:lu7m)

5、ICDAR2019-ArT

資料來源

https://

ai。baidu。com/broad/intr

oduction?dataset=art

資料簡介

:共包含10,166張影象,訓練集5603圖,測試集4563圖。由Total-Text、SCUT-CTW1500、Baidu Curved Scene Text三部分組成,包含水平、多方向和彎曲等多種形狀的文字。

部分OCR實用中文資料集

下載地址

https://

ai。baidu。com/broad/down

load?dataset=art