在機器學習專案中,資料集對演算法模型的效能是有很大的影響的,特別是現在深度學習,對於資料集的要求就更高了,經常我們都可能會遇到資料集數量太少的情況,這時候除了再人工蒐集新的資料,另外一個做法就是資料增強,從已有的資料透過一些方法,包括一些演算法來進行拓展,得到更多數量的資料集。

今天介紹的是一個介紹了幾個常見的資料增強專案和其他相關的論文程式碼的 Github 專案,其 github 地址:

https://

github。com/CrazyVertigo

/awesome-data-augmentation

常見的專案

imgaug

這個專案的 star 數量是已經有 8k 多了,顯示使用的數量也有 2k多,克隆倉庫的有1k多,的GitHub地址:

https://

github。com/aleju/imgaug

它可以實現的效果包括新增噪音、仿射變換、裁剪、翻轉、旋轉等,其效果圖如下所示:

常見的資料增強專案和論文介紹

Albumentations

這第二個專案是 2018年的一篇論文《

Albumentations: fast and flexible image augmentations

》的實現程式碼,論文地址:

https://

arxiv。org/abs/1809。0683

9v1

github 專案已經有 4k 的star,地址如下:

https://

github。com/albumentatio

ns-team/albumentations

該專案的特點有:

速度比大部分的庫都要快;

基於

numpy

OpenCV

兩個庫,並選擇最合適的一個

介面簡單,靈活

大量的多種的變換方法實現

易於拓展應用到其他的任務或者庫

支援的變換操作物件有影象、masks、關鍵點、邊界框

支援 python 3。5-3。7 的版本

可以和 PyTorch 結合使用

已經被應用到很多深度學習的競賽中,包括 Kaggle、topcoder,CVPR,MICCAI

作者是 Kaggle Masters

其效果如下所示,可以看到能實現的方法包括顏色空間的變換、亮度調整、模糊、壓縮、黑白

常見的資料增強專案和論文介紹

Augmentor

第三個專案同樣來自一篇論文《

Biomedical image augmentation using Augmentor

》,其論文地址:

https://www。

ncbi。nlm。nih。gov/pubmed

/30989173

github star 的數量也有 3。8k了,其地址:

https://

github。com/mdbloice/Aug

mentor

官方文件:

http://

augmentor。readthedocs。io

/

實現的效果如下所示:

常見的資料增強專案和論文介紹

論文和程式碼

Mixup

來自 ICLR 2018 的論文:《

Mixup: BEYOND EMPIRICAL RISK MINIMIZATION

論文地址:

https://

arxiv。org/abs/1710。0941

2

GitHub 地址:

https://

github。com/facebookrese

arch/mixup-cifar10

效果如下所示:

常見的資料增強專案和論文介紹

Cutout

2017年的論文:《

Improved Regularization of Convolutional Neural Networks with Cutout

論文地址:

https://

arxiv。org/abs/1708。0455

2

github 地址:

https://

github。com/uoguelph-mlr

g/Cutout

Cutmix

ICCV 2019 的論文:《

CutMix:Regularization Strategy to Train Strong Classifiers with Localizable Features

論文地址:

https://

arxiv。org/pdf/1905。0489

9。pdf

github地址:

https://

github。com/clovaai/CutM

ix-PyTorch

Augmix

ICLR 2020 的論文:《

AUGMIX: A SIMPLE DATA PROCESSING METHOD TO IMPROVE ROBUSTNESS AND UNCERTAINTY

論文地址:

https://

arxiv。org/pdf/1912。0278

1。pdf

github 地址:

https://

github。com/google-resea

rch/augmix

fast-autoaugment

NeurlIPS 2019 的論文《 Fast AutoAugment》

論文地址:

https://

arxiv。org/abs/1905。0039

7

github 地址:

https://

github。com/kakaobrain/f

ast-autoaugment

AutoAugment

CVPR 2019 的論文 《

AutoAugment:Learning Augmentation Strategies from Data

論文地址:

https://

arxiv。org/pdf/1805。0950

1v3。pdf

github地址:

https://

github。com/DeepVoltaire

/AutoAugment

RandAugment

ICLR 2020 的論文《

RandAugment: Practical automated data augmentation with a reduced search space

論文地址:

https://

arxiv。org/pdf/1912。0278

1。pdf

github地址:

https://

github。com/tensorflow/t

pu/tree/master/models/official/efficientnet

GridMask

2020年的論文題目《GridMask Data Augmentation》

論文地址:

https://

arxiv。org/abs/2001。0408

6

github地址:

https://

github。com/akuxcw/GridM

ask

知乎的論文解讀:

https://

zhuanlan。zhihu。com/p/10

3992528

imagecorruptions

2019 年的論文《

Benchmarking Robustness in Object Detection:Autonomous Driving when Winter is Coming

論文地址:

https://

arxiv。org/pdf/1912。0278

1。pdf

github 地址:

https://

github。com/CrazyVertigo

/imagecorruptions

CycleGAN

ICCV 2017 年的一篇論文《

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkss

》,也是 GAN 領域非常有名的一篇論文

論文地址:

https://

arxiv。org/pdf/1703。1059

3。pdf

github 地址:

https://

github。com/junyanz/Cycl

eGAN

https://

github。com/junyanz/pyto

rch-CycleGAN-and-pix2pix

Small Object Augmentation

2019 年的論文《

Augmentation for small object detection

論文地址:

https://

arxiv。org/pdf/1902。0729

6。pdf

github 地址:

https://

github。com/gmayday1997/

SmallObjectAugmentation

知乎閱讀筆記:

https://

zhuanlan。zhihu。com/p/64

635490

標註工具

labelImg

2017 年的一個標註工具,目前有超過 9k star 的github專案,地址為:

https://

github。com/tzutalin/lab

elImg

它可以進行圖片的標註,以及繪製邊界框,如下所示:

常見的資料增強專案和論文介紹

labelme

同樣是2017年開源的一個標註工具,目前有 4k+ 的star,github 地址:

https://

github。com/wkentaro/lab

elme

這是一個可以實現多種形狀的標註,比如多邊形、圓形、矩形、直線、點等,如下所示:

常見的資料增強專案和論文介紹

這個介紹資料增強方面的專案和論文程式碼,以及標註工具的 GitHub 專案就介紹到這裡,再次放上其github 地址: