部分OCR實用中文資料集
近期,PaddleOCR(
https://
github。com/PaddlePaddle
/PaddleOCR
)整理了部分OCR實用的中文資料集,包括ICDAR2019-LSVT,ICDAR2017-RCTW-17,中文街景文字識別,中文文件文字識別,ICDAR2019-ArT,詳情如下,更多資訊請參考:
1、ICDAR2019-LSVT
資料來源
:
https://
ai。baidu。com/broad/intr
oduction?dataset=lsvt
資料簡介
: 共45w中文街景影象,包含5w(2w測試+3w訓練)全標註資料(文字座標+文字內容),40w弱標註資料(僅文字內容),如下圖所示:
(a) 全標註資料
(b) 弱標註資料
下載地址
:
https://
ai。baidu。com/broad/down
load?dataset=lsvt
2、ICDAR2017-RCTW-17
資料來源
:
https://
rctw。vlrlab。net/
資料簡介
:共包含12,000+影象,大部分圖片是透過手機攝像頭在野外採集的。有些是截圖。這些圖片展示了各種各樣的場景,包括街景、海報、選單、室內場景和手機應用程式的截圖。
下載地址
:
https://
rctw。vlrlab。net/dataset
/
3、中文街景文字識別
資料來源
:
https://
aistudio。baidu。com/aist
udio/competition/detail/8
資料簡介
:共包括29萬張圖片,其中21萬張圖片作為訓練集(帶標註),8萬張作為測試集(無標註)。資料集採自中國街景,並由街景圖片中的文字行區域(例如店鋪標牌、地標等等)截取出來而形成。所有影象都經過一些預處理,將文字區域利用仿射變化,等比對映為一張高為48畫素的圖片,如圖所示:
(a) 標註:魅派整合吊頂
(b) 標註:母嬰用品連鎖
下載地址
https://
aistudio。baidu。com/aist
udio/datasetdetail/8429
4、中文文件文字識別
資料來源
:
https://
github。com/YCG09/chines
e_ocr
資料簡介
:
共約364萬張圖片,按照99:1劃分成訓練集和驗證集。
資料利用中文語料庫(新聞 + 文言文),透過字型、大小、灰度、模糊、透視、拉伸等變化隨機生成
包含漢字、英文字母、數字和標點共5990個字元(字元集合:
https://
github。com/YCG09/chines
e_ocr/blob/master/train/char_std_5990。txt
)
每個樣本固定10個字元,字元隨機擷取自語料庫中的句子
圖片解析度統一為280x32
下載地址
:
https://
pan。baidu。com/s/1QkI7kj
ah8SPHwOQ40rS1Pw
(密碼:lu7m)
5、ICDAR2019-ArT
資料來源
:
https://
ai。baidu。com/broad/intr
oduction?dataset=art
資料簡介
:共包含10,166張影象,訓練集5603圖,測試集4563圖。由Total-Text、SCUT-CTW1500、Baidu Curved Scene Text三部分組成,包含水平、多方向和彎曲等多種形狀的文字。
下載地址
:
https://
ai。baidu。com/broad/down
load?dataset=art