常見的資料增強專案和論文介紹
在機器學習專案中,資料集對演算法模型的效能是有很大的影響的,特別是現在深度學習,對於資料集的要求就更高了,經常我們都可能會遇到資料集數量太少的情況,這時候除了再人工蒐集新的資料,另外一個做法就是資料增強,從已有的資料透過一些方法,包括一些演算法來進行拓展,得到更多數量的資料集。
今天介紹的是一個介紹了幾個常見的資料增強專案和其他相關的論文程式碼的 Github 專案,其 github 地址:
https://
github。com/CrazyVertigo
/awesome-data-augmentation
常見的專案
imgaug
這個專案的 star 數量是已經有 8k 多了,顯示使用的數量也有 2k多,克隆倉庫的有1k多,的GitHub地址:
https://
github。com/aleju/imgaug
它可以實現的效果包括新增噪音、仿射變換、裁剪、翻轉、旋轉等,其效果圖如下所示:
Albumentations
這第二個專案是 2018年的一篇論文《
Albumentations: fast and flexible image augmentations
》的實現程式碼,論文地址:
https://
arxiv。org/abs/1809。0683
9v1
github 專案已經有 4k 的star,地址如下:
https://
github。com/albumentatio
ns-team/albumentations
該專案的特點有:
速度比大部分的庫都要快;
基於
numpy
和
OpenCV
兩個庫,並選擇最合適的一個
介面簡單,靈活
大量的多種的變換方法實現
易於拓展應用到其他的任務或者庫
支援的變換操作物件有影象、masks、關鍵點、邊界框
支援 python 3。5-3。7 的版本
可以和 PyTorch 結合使用
已經被應用到很多深度學習的競賽中,包括 Kaggle、topcoder,CVPR,MICCAI
作者是 Kaggle Masters
其效果如下所示,可以看到能實現的方法包括顏色空間的變換、亮度調整、模糊、壓縮、黑白
Augmentor
第三個專案同樣來自一篇論文《
Biomedical image augmentation using Augmentor
》,其論文地址:
https://www。
ncbi。nlm。nih。gov/pubmed
/30989173
github star 的數量也有 3。8k了,其地址:
https://
github。com/mdbloice/Aug
mentor
官方文件:
http://
augmentor。readthedocs。io
/
實現的效果如下所示:
論文和程式碼
Mixup
來自 ICLR 2018 的論文:《
Mixup: BEYOND EMPIRICAL RISK MINIMIZATION
》
論文地址:
https://
arxiv。org/abs/1710。0941
2
GitHub 地址:
https://
github。com/facebookrese
arch/mixup-cifar10
效果如下所示:
Cutout
2017年的論文:《
Improved Regularization of Convolutional Neural Networks with Cutout
》
論文地址:
https://
arxiv。org/abs/1708。0455
2
github 地址:
https://
github。com/uoguelph-mlr
g/Cutout
Cutmix
ICCV 2019 的論文:《
CutMix:Regularization Strategy to Train Strong Classifiers with Localizable Features
》
論文地址:
https://
arxiv。org/pdf/1905。0489
9。pdf
github地址:
https://
github。com/clovaai/CutM
ix-PyTorch
Augmix
ICLR 2020 的論文:《
AUGMIX: A SIMPLE DATA PROCESSING METHOD TO IMPROVE ROBUSTNESS AND UNCERTAINTY
》
論文地址:
https://
arxiv。org/pdf/1912。0278
1。pdf
github 地址:
https://
github。com/google-resea
rch/augmix
fast-autoaugment
NeurlIPS 2019 的論文《 Fast AutoAugment》
論文地址:
https://
arxiv。org/abs/1905。0039
7
github 地址:
https://
github。com/kakaobrain/f
ast-autoaugment
AutoAugment
CVPR 2019 的論文 《
AutoAugment:Learning Augmentation Strategies from Data
》
論文地址:
https://
arxiv。org/pdf/1805。0950
1v3。pdf
github地址:
https://
github。com/DeepVoltaire
/AutoAugment
RandAugment
ICLR 2020 的論文《
RandAugment: Practical automated data augmentation with a reduced search space
》
論文地址:
https://
arxiv。org/pdf/1912。0278
1。pdf
github地址:
https://
github。com/tensorflow/t
pu/tree/master/models/official/efficientnet
GridMask
2020年的論文題目《GridMask Data Augmentation》
論文地址:
https://
arxiv。org/abs/2001。0408
6
github地址:
https://
github。com/akuxcw/GridM
ask
知乎的論文解讀:
https://
zhuanlan。zhihu。com/p/10
3992528
imagecorruptions
2019 年的論文《
Benchmarking Robustness in Object Detection:Autonomous Driving when Winter is Coming
》
論文地址:
https://
arxiv。org/pdf/1912。0278
1。pdf
github 地址:
https://
github。com/CrazyVertigo
/imagecorruptions
CycleGAN
ICCV 2017 年的一篇論文《
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkss
》,也是 GAN 領域非常有名的一篇論文
論文地址:
https://
arxiv。org/pdf/1703。1059
3。pdf
github 地址:
https://
github。com/junyanz/Cycl
eGAN
https://
github。com/junyanz/pyto
rch-CycleGAN-and-pix2pix
Small Object Augmentation
2019 年的論文《
Augmentation for small object detection
》
論文地址:
https://
arxiv。org/pdf/1902。0729
6。pdf
github 地址:
https://
github。com/gmayday1997/
SmallObjectAugmentation
知乎閱讀筆記:
https://
zhuanlan。zhihu。com/p/64
635490
標註工具
labelImg
2017 年的一個標註工具,目前有超過 9k star 的github專案,地址為:
https://
github。com/tzutalin/lab
elImg
它可以進行圖片的標註,以及繪製邊界框,如下所示:
labelme
同樣是2017年開源的一個標註工具,目前有 4k+ 的star,github 地址:
https://
github。com/wkentaro/lab
elme
這是一個可以實現多種形狀的標註,比如多邊形、圓形、矩形、直線、點等,如下所示:
這個介紹資料增強方面的專案和論文程式碼,以及標註工具的 GitHub 專案就介紹到這裡,再次放上其github 地址: