본문 바로가기
Data Science

[Paper Review] EfficientNetV2 논문 번역

by AI_Wooah 2022. 9. 22.


[https://arxiv.org/pdf/2104.00298.pdf](https://arxiv.org/pdf/2104.00298.pdf)

Mingxing Tan, Quoc V. Le



세줄요약!




Our contributions are threefold:

우리의 기여는 세 가지입니다.

- We introduce EfficientNetV2, a new family of smaller and faster models. Found by our training-aware NAS and scaling, EfficientNetV2 outperform previous models in both training speed and parameter efficiency.
    
    더 작고 빠른 모델의 새로운 제품군인 EfficientNetV2를 소개합니다. 훈련 인식 NAS와 확장성을 통해 발견된 EfficientNetV2는 훈련 속도와 매개변수 효율성 모두에서 이전 모델보다 성능이 뛰어납니다.
    
- We propose an improved method of progressive learning, which adaptively adjusts regularization along with image size. We show that it speeds up training, and simultaneously improves accuracy.
    
    우리는 이미지 크기에 따라 정규화를 적응적으로 조정하는 개선된 점진적 학습 방법을 제안합니다. 우리는 그것이 훈련 속도를 높이고 동시에 정확도를 향상시킨다는 것을 보여줍니다.
    
- We demonstrate up to 11x faster training speed and up to 6.8x better parameter efficiency on ImageNet, CIFAR, Cars, and Flowers dataset, than prior art.
    
    ImageNet, CIFAR, Cars 및 Flowers 데이터세트에서 선행 기술보다 최대 11배 더 빠른 훈련 속도와 최대 6.8배 더 나은 매개변수 효율성을 보여줍니다.
   




### Abstract


This paper introduces EfficientNetV2, a new family of convolutional networks that have faster training speed and better parameter efficiency than previous models. To develop these models, we use a combination of training-aware neural architecture search and scaling, to jointly optimize training speed and parameter efficiency. The models were searched from the search space enriched with new ops such as Fused-MBConv. Our experiments show that EfficientNetV2 models train much faster than state-of-the-art models while being up to 6.8x smaller.

이 문서에서는 **이전 모델보다 더 빠른 훈련 속도와 더 나은 매개변수 효율성**을 가진 새로운 컨볼루션 네트워크 제품군인 EfficientNetV2를 소개합니다. 이러한 모델을 개발하기 위해 우리는 훈련 인식 [신경망 아키텍쳐 탐색(NAS:Neural Architecture Search)](https://www.notion.so/NAS-Neural-Architecture-Search-cc1eba3f80204f8ca7969c14b258cadb) 및 확장을 조합하여 **훈련 속도와 매개변수 효율성을 함께 최적화**합니다. Fused-MBConv와 같은 새로운 작업이 풍부한 검색 공간에서 모델을 검색했습니다. 우리의 실험에 따르면 EfficientNetV2 모델은 최첨단 모델보다 **훨씬 빠르게 학습**하면서 최대 **6.8배 더 작습니다**.

[[신경망 아키텍쳐 탐색(NAS:Neural Architecture Search)](https://lv99.tistory.com/35)](https://www.notion.so/NAS-Neural-Architecture-Search-cc1eba3f80204f8ca7969c14b258cadb)

Our training can be further sped up by progressively increasing the image size during training, but it often causes a drop in accuracy. To compensate for this accuracy drop, we propose an improved method of progressive learning, which adaptively adjusts regularization (e.g. data augmentation) along with image size.

훈련 중에 이미지 크기를 점진적으로 늘려 훈련 속도를 더 높일 수 있지만 정확도가 떨어지는 경우가 많습니다. 이러한 정확도 저하를 보정하기 위해 우리는 이미지 크기와 함께 정규화(예: 데이터 증대)를 적용하여 조정하는 개선된 점진적 학습 방법을 제안합니다.

With progressive learning, our EfficientNetV2 significantly outperforms previous models on ImageNet and [CIFAR](http://solarisailab.com/archives/1700#:~:text=%5B*%5D%20CIFAR%EB%8A%94%20%E2%80%9CCanadian%20Institute,%EB%A5%BC%20%EC%A7%80%EC%9B%90%ED%95%98%EB%8A%94%20%EA%B8%B0%EA%B4%80%EC%9D%B4%EB%8B%A4.)/Cars/Flowers datasets. By pretraining on the same ImageNet21k, our EfficientNetV2 achieves 87.3% top-1 accuracy on ImageNet [ILSVRC2012](https://dbcollection.readthedocs.io/en/latest/datasets/imagenet.html#:~:text=The%20Large%20Scale%20Visual%20Recognition,categories%20and%201.2%20million%20images), outperforming the recent [ViT](https://arxiv.org/abs/2010.11929) by 2.0% accuracy while training 5x-11x faster using the same computing resources.

점진적 학습을 통해 EfficientNetV2는 ImageNet 및 CIFAR/Cars/Flowers 데이터 세트에 대한 이전 모델보다 훨씬 뛰어난 성능을 보입니다. 동일한 ImageNet21k에 대한 사전 훈련을 통해 EfficientNetV2는 ImageNet ILSVRC2012에서 87.3%의 상위 1 정확도를 달성하여 동일한 컴퓨팅 리소스를 사용하여 5x-11x 더 빠르게 훈련하는 동안 최근 ViT보다 2.0% 더 높은 정확도를 달성했습니다.

![img1.daumcdn.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/db572c73-e00f-4c8c-9b61-12734574e9a7/img1.daumcdn.png)

Figure 1. ImageNet ILSVRC2012 top-1 Accuracy vs. Training Time and Parameters – Models tagged with 21k are pretrained on ImageNet21k, and others are directly trained on ImageNet ILSVRC2012. Training time is measured with 32 TPU cores. All EfficientNetV2 models are trained with progressive learning. Our EfficientNetV2 trains 5x - 11x faster than others, while using up

그림 1. ImageNet ILSVRC2012 상위 1 정확도 대 훈련 시간 및 매개변수 – 21k로 태그가 지정된 모델은 ImageNet21k에서 사전 훈련되고 나머지는 ImageNet ILSVRC2012에서 직접 훈련됩니다. 훈련 시간은 32개의 TPU 코어로 측정됩니다. 모든 EfficientNetV2 모델은 점진적 학습으로 훈련됩니다. 우리의 EfficientNetV2는 다른 것보다 5배 - 11배 빠르게 훈련합니다.

### 1. Introduction

Training efficiency is important to deep learning as model size and training data size are increasingly larger. For example, GPT-3 (Brown et al., 2020), with much a larger model and more training data, demonstrates the remarkable capability in few shot learning, but it requires weeks of training with thousands of GPUs, making it difficult to retrain or improve.

학습 효율성은 모델 크기와 학습 데이터 크기가 점점 더 커짐에 따라 딥 러닝에 중요합니다. 예를 들어, 훨씬 더 큰 모델과 더 많은 훈련 데이터가 있는 GPT-3(Brown et al., 2020)은 소수의 샷 학습에서 놀라운 능력을 보여줍니다. 그러나 수천 개의 GPU로 몇 주 동안 훈련해야 하므로 재훈련이나 개선이 어렵습니다.

Training efficiency has gained significant interests recently. For instance, NFNets (Brock et al., 2021) aim to improve training efficiency by removing the expensive batch normalization; Several recent works (Srinivas et al., 2021) focus on improving training speed by adding attention layers into convolutional networks (ConvNets); Vision Transformers (Dosovitskiy et al., 2021) improves training efficiency on large-scale datasets by using Transformer blocks. However, these methods often come with expensive overhead on large parameter size, as shown in Figure 1(b).

훈련 효율성은 최근 상당한 관심을 받고 있습니다. 예를 들어, NFNet(Brock et al., 2021)은 값비싼 배치 정규화를 제거하여 훈련 효율성을 개선하는 것을 목표로 합니다. 최근 몇 가지 연구(Srinivas et al., 2021)는 주의 계층을 컨볼루션 네트워크(ConvNets)에 추가하여 훈련 속도를 향상시키는 데 중점을 둡니다. Vision Transformers(Dosovitskiy et al., 2021)는 Transformer 블록을 사용하여 대규모 데이터 세트에 대한 교육 효율성을 개선합니다. 그러나 이러한 방법은 종종 그림 1(b)와 같이 큰 매개변수 크기에 대한 비싼 오버헤드를 수반합니다.

In this paper, we use an combination of training-aware neural architecture search (NAS) and scaling to improve both training speed and parameter efficiency. Given the parameter efficiency of EfficientNets (Tan & Le, 2019a), we start by systematically studying the training bottlenecks in EfficientNets. Our study shows in EfficientNets:

(1) training with very large image sizes is slow;

(2) depthwise convolutions are slow in early layers.

(3) equally scaling up every stage is sub-optimal.

Based on these observations, we design a search space enriched with additional ops such as Fused-MBConv, and apply training-aware NAS and scaling to jointly optimize model accuracy, training speed, and parameter size. Our found networks, named EfficientNetV2, train up to 4x faster than prior models (Figure 3), while being up to 6.8x smaller in parameter size.

이 문서에서는 훈련 인식 신경 아키텍처 검색(NAS)과 확장성을 조합하여 훈련 속도와 매개변수 효율성을 모두 향상시킵니다. EfficientNets의 매개변수 효율성(Tan & Le, 2019a)을 감안할 때 EfficientNets의 교육 병목 현상을 체계적으로 연구하는 것부터 시작합니다. 우리 연구는 EfficientNets에서 다음을 보여줍니다.

(1) 매우 큰 이미지 크기로 훈련하는 것은 느립니다.

(2) 깊이별 컨볼루션은 초기 레이어에서 느립니다.

(3) 모든 단계를 균등하게 확장하는 것은 차선책입니다.

이러한 관찰을 바탕으로 Fused-MBConv와 같은 추가 연산이 풍부한 검색 공간을 설계하고 학습 인식 NAS 및 스케일링을 적용하여 모델 정확도, 학습 속도 및 매개변수 크기를 공동으로 최적화합니다. EfficientNetV2라는 우리가 발견한 네트워크는 이전 모델보다 최대 4배 더 빠르게 훈련하는 반면(그림 3), 매개변수 크기는 최대 6.8배 더 작습니다.

Our training can be further sped up by progressively increasing image size during training. Many previous works, such as progressive resizing (Howard, 2018), FixRes (Touvronet al., 2019), and Mix&Match (Hoffer et al., 2019), have used smaller image sizes in training; however, they usually keep the same regularization for all image sizes, causing a drop in accuracy. We argue that keeping the same regularization for different image sizes is not ideal: for the same network, small image size leads to small network capacity and thus requires weak regularization; vice versa, large image size requires stronger regularization to combat overfitting (see Section 4.1). Based on this insight, we propose an improved method of progressive learning: in the early training epochs, we train the network with small image size and weak regularization (e.g., dropout and data augmentation), then we gradually increase image size and add stronger regularization. Built upon progressive resizing (Howard, 2018), but by dynamically adjusting regularization, our approach can speed up the training without causing accuracy drop.

훈련 중에 이미지 크기를 점진적으로 늘려 훈련 속도를 더욱 높일 수 있습니다. 점진적 크기 조정(Howard, 2018), FixRes(Touvronet al., 2019) 및 Mix&Match(Hoffer et al., 2019)와 같은 많은 이전 작업은 훈련에서 더 작은 이미지 크기를 사용했습니다. 그러나 일반적으로 모든 이미지 크기에 대해 동일한 정규화를 유지하므로 정확도가 떨어집니다. 우리는 서로 다른 이미지 크기에 대해 동일한 정규화를 유지하는 것이 이상적이지 않다고 주장합니다. 동일한 네트워크의 경우 이미지 크기가 작으면 네트워크 용량이 작아지므로 정규화가 약한 것입니다. 그 반대의 경우도 마찬가지입니다. 이미지 크기가 크면 과적합을 방지하기 위해 더 강력한 정규화가 필요합니다(섹션 4.1 참조). 이 통찰력을 바탕으로 우리는 개선된 점진적 학습 방법을 제안합니다. 초기 교육 에포크에서 작은 이미지 크기와 약한 정규화(예: 드롭아웃 및 데이터 증대)로 네트워크를 교육한 다음 점차적으로 이미지 크기를 늘리고 더 강한 정규화를 추가합니다. . 점진적 크기 조정을 기반으로 하지만(Howard, 2018), 정규화를 동적으로 조정하여 정확도 저하 없이 훈련 속도를 높일 수 있습니다.

With the improved progressive learning, our EfficientNetV2 achieves strong results on ImageNet, CIFAR-10, CIFAR100, Cars, and Flowers dataset. On ImageNet, we achieve 85.7% top-1 accuracy while training 3x - 9x faster and being up to 6.8x smaller than previous models (Figure 1). Our EfficientNetV2 and progressive learning also make it easier to train models on larger datasets. For example, ImageNet21k(Russakovsky et al., 2015) is about 10x larger than ImageNet ILSVRC2012, but our EfficientNetV2 can finish the training within two days using moderate computing resources of 32 TPUv3 cores. By pretraining on the public ImageNet21k, our EfficientNetV2 achieves 87.3% top-1 accuracy on ImageNet ILSVRC2012, outperforming the recent ViT-L/16 by 2.0% accuracy while training 5x-11x faster (Figure 1).

개선된 점진적 학습을 통해 EfficientNetV2는 ImageNet, CIFAR-10, CIFAR100, 자동차 및 꽃 데이터 세트에서 강력한 결과를 달성합니다. ImageNet에서는 이전 모델보다 3배 - 9배 더 빠르게 훈련하고 최대 6.8배 작게 훈련하면서 85.7%의 상위 1 정확도를 달성했습니다(그림 1). EfficientNetV2 및 점진적 학습을 통해 더 큰 데이터 세트에서 모델을 더 쉽게 교육할 수도 있습니다. 예를 들어 ImageNet21k(Russakovsky et al., 2015)는 ImageNet ILSVRC2012보다 약 10배 더 크지만 EfficientNetV2는 32개의 TPUv3 코어의 적당한 컴퓨팅 리소스를 사용하여 이틀 안에 교육을 마칠 수 있습니다. 공개 ImageNet21k에 대한 사전 훈련을 통해 EfficientNetV2는 ImageNet ILSVRC2012에서 87.3%의 상위 1 정확도를 달성하여 최신 ViT-L/16보다 2.0% 더 높은 정확도를 달성하는 동시에 훈련 속도는 5~11배 빨라졌습니다(그림 1).

### 2. Related work

Training and parameter efficiency: Many works, such as DenseNet (Huang et al., 2017) and EfficientNet (Tan & Le, 2019a), focus on parameter efficiency, aiming to achieve better accuracy with less parameters. Some more recent works aim to improve training or inference speed instead of parameter efficiency. For example, RegNet (Radosavovic et al., 2020), ResNeSt (Zhang et al., 2020), TResNet (Ridnik et al., 2020), and EfficientNet-X (Li et al., 2021) focus on GPU and/or TPU inference speed; NFNets (Brock et al., 2021) and BoTNets (Srinivas et al., 2021) focus on improving training speed. However, their training or inference speed often comes with the cost of more parameters. This paper aims to significantly improve both training speed and parameter efficiency than prior art.

훈련 및 매개변수 효율성: DenseNet(Huang et al., 2017) 및 EfficientNet(Tan & Le, 2019a)과 같은 많은 작업은 더 적은 매개변수로 더 나은 정확도를 달성하는 것을 목표로 매개변수 효율성에 중점을 둡니다. 최근 연구에서는 매개변수 효율성 대신 학습 또는 추론 속도를 개선하는 것을 목표로 합니다. 예를 들어 RegNet(Radosavovic et al., 2020), ResNeSt(Zhang et al., 2020), TResNet(Ridnik et al., 2020) 및 EfficientNet-X(Li et al., 2021)는 GPU 및/또는 또는 TPU 추론 속도; NFNets(Brock et al., 2021) 및 BoTNets(Srinivas et al., 2021)는 훈련 속도 향상에 중점을 둡니다. 그러나 훈련 또는 추론 속도에는 종종 더 많은 매개변수가 필요합니다. 이 논문은 선행 기술보다 훈련 속도와 매개변수 효율성을 크게 향상시키는 것을 목표로 합니다.

Progressive training: Previous works have proposed different kinds of progressive training, which dynamically change the training settings or networks, for GANs (Karras et al., 2018), transfer learning (Karras et al., 2018), adversarial learning (Yu et al., 2019), and language models (Press et al., 2021). Progressive resizing (Howard, 2018) is mostly related to our approach, which aims to improve training speed. However, it usually comes with the cost of accuracy drop. Another closely related work is Mix&Match (Hoffer et al., 2019), which randomly sample different image size for each batch. Both progressive resizing and Mix&Match use the same regularization for all image sizes, causing a drop in accuracy. In this paper, our main difference is to adaptively adjust regularization as well so that we can improve both training speed and accuracy. Our approach is also partially inspired by curriculum learning (Bengio et al., 2009), which schedules training examples from easy to hard. Our approach also gradually increases learning difficulty by adding more regularization, but we don’t selectively pick training examples.

점진적 훈련: 이전 연구에서는 GAN(Karras et al., 2018), 전이 학습(Karras et al., 2018), 적대적 학습(Yu et al.)에 대해 훈련 설정이나 네트워크를 동적으로 변경하는 다양한 종류의 점진적 훈련을 제안했습니다. ., 2019) 및 언어 모델(Press et al., 2021). 점진적 크기 조정(Howard, 2018)은 대부분 훈련 속도 향상을 목표로 하는 우리의 접근 방식과 관련이 있습니다. 그러나 일반적으로 정확도가 떨어지는 비용이 수반됩니다. 밀접하게 관련된 또 다른 작업은 각 배치에 대해 다른 이미지 크기를 무작위로 샘플링하는 Mix&Match(Hoffer et al., 2019)입니다. 점진적 크기 조정과 Mix&Match 모두 모든 이미지 크기에 대해 동일한 정규화를 사용하므로 정확도가 떨어집니다. 이 논문에서 우리의 주요 차이점은 훈련 속도와 정확도를 모두 향상시킬 수 있도록 정규화도 적응적으로 조정한다는 것입니다. 우리의 접근 방식은 또한 교육 과정 학습(Bengio et al., 2009)에서 부분적으로 영감을 받아 교육 예제를 쉬운 것에서 어려운 것으로 계획합니다. 우리의 접근 방식은 더 많은 정규화를 추가하여 점차적으로 학습 난이도를 높입니다. 그러나 우리는 훈련 예제를 선택적으로 선택하지 않습니다.

Neural architecture search (NAS): By automating the network design process, NAS has been used to optimize the network architecture for image classification (Zoph et al., 2018), object detection (Chen et al., 2019; Tan et al., 2020), segmentation (Liu et al., 2019), hyperparameters (Dong et al., 2020), and other applications (Elsken et al., 2019). Previous NAS works mostly focus on improving FLOPs efficiency (Tan & Le, 2019b;a) or inference efficiency (Tan et al., 2019; Cai et al., 2019; Wu et al., 2019; Li et al., 2021). Unlike prior works, this paper uses NAS to optimize training and parameter efficiency.

다음: 이전 연구 GAN(Karras et al., 2018), 적대적(Yu et al.), 적대적(Yu et al.)에 대한 다양한 설정 제안했습니다. ., 2019) 및 언어 모델(Press et al., 2021). 큰 규모(Howard, 2018)는 우리의 가까이에 있습니다. 이 전체 목록에 포함되어 있지 않습니다. 이 좋은 점에서 Mix&Match(Hoffer et al., 2019)가 잘 되고 있습니다. 엄정화와 Mix&Match의 일체화로 인해 비상입니다. 이 기능은 우리의 주요 기능으로 완벽하게 적응하고 있습니다. 우리의 접근 방식은 당신의 생각을 뛰어넘는 교육의 예(Bengio et al., 2009)입니다. 더 많은 접근을 통해 더 많은 것을 즐길 수 있습니다. 우리는 선택을 할 수 없었습니다.

### 3. EfficientNetV2 Architecture Design

In this section, we study the training bottlenecks of EfficientNet (Tan & Le, 2019a), and introduce our training-aware NAS and scaling, as well as EfficientNetV2 models.

이 섹션에서는 EfficientNet(Tan & Le, 2019a)의 교육 병목 현상을 연구하고 교육 인식 NAS 및 확장성과 EfficientNetV2 모델을 소개합니다.

**3.1. Review of EfficientNet**

EfficientNet (Tan & Le, 2019a) is a family of models that are optimized for FLOPs and parameter efficiency. It leverages NAS to search for the baseline EfficientNet-B0 that has better trade-off on accuracy and FLOPs. The baseline model is then scaled up with a compound scaling strategy to obtain a family of models B1-B7. While recent works have claimed large gains on training or inference speed, they are often worse than EfficientNet in terms of parameters and FLOPs efficiency (Table 1). In this paper, we aim to improve the training speed while maintaining the parameter efficiency.

EfficientNet(Tan & Le, 2019a)은 FLOP 및 매개변수 효율성에 최적화된 모델 제품군입니다. NAS를 활용하여 정확도와 FLOP에서 더 나은 균형을 이루는 기준 EfficientNet-B0을 검색합니다. 그런 다음 기준 모델은 복합 확장 전략으로 확장되어 모델 B1-B7 제품군을 얻습니다. 최근 연구에서는 훈련 또는 추론 속도가 크게 향상되었다고 주장하지만 매개변수 및 FLOP 효율성 측면에서 EfficientNet보다 나쁩니다(표 1). 이 논문에서는 매개변수 효율성을 유지하면서 훈련 속도를 향상시키는 것을 목표로 합니다.

Table 1. EfficientNets have good parameter and FLOPs efficiency

EfficientNet은 좋은 매개변수와 FLOP 효율성을 가지고 있습니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3c3935e8-8a08-42a7-ab3e-f9938c8b8ae1/Untitled.png)

**3.2. Understanding Training Efficiency**

We study the training bottlenecks of EfficientNet (Tan & Le, 2019a), henceforth is also called EfficientNetV1, and a few simple techniques to improve training speed.

우리는 EfficientNet(Tan & Le, 2019a)의 훈련 병목 현상을 연구합니다(이후 EfficientNetV1이라고도 함). 그리고 훈련 속도를 향상시키는 몇 가지 간단한 기술.

Training with very large image sizes is slow: As pointed out by previous works (Radosavovic et al., 2020), EfficientNet’s large image size results in significant memory usage. Since the total memory on GPU/TPU is fixed, we have to train these models with smaller batch size, which drastically slows down the training. A simple improvement is to apply FixRes (Touvron et al., 2019), by using a smaller image size for training than for inference. As shown in Table 2, smaller image size leads to less computations and enables large batch size, and thus improves training speed by up to 2.2x. Notably, as pointed out in (Touvron et al., 2020; Brock et al., 2021), using smaller image size for training also leads to slightly better accuracy. But unlike (Touvron et al., 2019), we do not finetune any layers after training. approach, by progressively adjusting image size and regularization during training.

매우 큰 이미지 크기로 훈련하면 느림: 이전 작업(Radosavovic et al., 2020)에서 지적했듯이 EfficientNet의 큰 이미지 크기는 상당한 메모리 사용량을 초래합니다. GPU/TPU의 총 메모리는 고정되어 있으므로 이러한 모델을 더 작은 배치 크기로 훈련해야 하므로 훈련 속도가 크게 느려집니다. 간단한 개선 사항은 추론보다 훈련에 더 작은 이미지 크기를 사용하여 FixRes(Touvron et al., 2019)를 적용하는 것입니다. 표 2에서 보는 바와 같이 이미지 크기가 작을수록 연산량이 적고 배치 크기가 커지므로 훈련 속도가 최대 2.2배 향상됩니다. 특히(Touvron et al., 2020; Brock et al., 2021)에서 지적한 것처럼 훈련에 더 작은 이미지 크기를 사용하면 정확도가 약간 더 높아집니다. 그러나 (Touvron et al., 2019)와 달리 훈련 후 레이어를 미세 조정하지 않습니다. 훈련 중에 이미지 크기와 정규화를 점진적으로 조정하여 접근합니다.

Table 2. EfficientNet-B6 accuracy and training throughput for different batch sizes and image size.

다양한 배치 크기 및 이미지 크기에 대한 EfficientNet-B6 정확도 및 교육 처리량.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/d4221910-5cff-445b-99a9-89b67adde779/Untitled.png)

**Depthwise convolutions are slow in early layers but effective in later stages**: Another training bottleneck of EfficientNet comes from the extensive depthwise convolutions (Sifre, 2014). Depthwise convolutions have fewer parameters and FLOPs than regular convolutions, but they often cannot fully utilize modern accelerators. Recently, Fused-MBConv is proposed in (Gupta & Tan, 2019) and later used in (Gupta & Akin, 2020; Xiong et al., 2020; Li et al., 2021) to better utilize mobile or server accelerators. It replaces the depthwise conv3x3 and expansion conv1x1 in MBConv (Sandler et al., 2018; Tan & Le, 2019a) with a single regular conv3x3, as shown in Figure 2. To systematically compares these two building blocks, we gradually replace the original MBConv in EfficientNet-B4 with FusedMBConv (Table 3). When applied in early stage 1-3, FusedMBConv can improve training speed with a small overhead on parameters and FLOPs, but if we replace all blocks with Fused-MBConv (stage 1-7), then it significantly increases parameters and FLOPs while also slowing down the training. Finding the right combination of these two building blocks, MBConv and Fused-MBConv, is non-trivial, which motivates us to leverage neural architecture search to automatically search for the best combination.

**깊이별 컨볼루션은 초기 레이어에서는 느리지만 나중 단계에서는 효과적입니다:** EfficientNet의 또 다른 교육 병목 현상은 광범위한 깊이별 컨볼루션에서 발생합니다(Sifre, 2014). 깊이별 컨볼루션은 일반 컨볼루션보다 매개변수와 FLOP가 적지만 최신 가속기를 완전히 활용할 수 없는 경우가 많습니다. 최근 Fused-MBConv는 (Gupta & Tan, 2019)에서 제안되었으며 나중에 (Gupta & Akin, 2020; Xiong et al., 2020; Li et al., 2021) 모바일 또는 서버 가속기를 더 잘 활용하기 위해 사용됩니다. 이는 MBConv(Sandler et al., 2018; Tan & Le, 2019a)의 깊이별 conv3x3 및 확장 conv1x1을 그림 2와 같이 단일 정규 conv3x3으로 대체합니다. 이 두 빌딩 블록을 체계적으로 비교하기 위해 원래 MBConv를 점진적으로 대체합니다. FusedMBConv를 사용한 EfficientNet-B4(표 3). 1-3단계 초기에 FusedMBConv를 적용하면 파라미터와 FLOP에 대한 약간의 오버헤드로 훈련 속도를 향상시킬 수 있지만 모든 블록을 Fused-MBConv(1-7단계)로 교체하면 파라미터와 FLOP가 크게 증가하는 동시에 느려집니다. 훈련 아래로. MBConv와 Fused-MBConv라는 두 빌딩 블록의 올바른 조합을 찾는 것은 쉬운 일이 아니므로 신경 아키텍처 검색을 활용하여 최상의 조합을 자동으로 검색하도록 동기를 부여합니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/c7291af3-d317-433e-8f64-3920dda4098a/Untitled.png)

Figure 2. Structure of MBConv and Fused-MBConv.

Table 3. Replacing MBConv with Fused-MBConv. No fused denotes all stages use MBConv, Fused stage1-3 denotes replacing MBConv with Fused-MBConv in stage {2, 3, 4}.

MBConv를 Fused-MBConv로 교체합니다. 융합되지 않음은 모든 단계에서 MBConv를 사용함을 나타내고 융합 단계 1-3은 단계 {2, 3, 4}에서 MBConv를 Fused-MBConv로 대체함을 나타냅니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8fc9e9cb-7e0a-4285-8693-e6a8d2e0f7bb/Untitled.png)

**Equally scaling up every stage is sub-optimal:** EfficientNet equally scales up all stages using a simple compound scaling rule. For example, when depth coefficient is 2, then all stages in the networks would double the number of layers. However, these stages are not equally contributed to the training speed and parameter efficiency. In this paper, we will use a non-uniform scaling strategy to gradually add more layers to later stages. In addition, EfficientNets aggressively scale up image size, leading to large memory consumption and slow training. To address this issue, we slightly modify the scaling rule and restrict the maximum mage size to a smaller value.

**모든 단계를 동일하게 확장하는 것은 차선책입니다:** EfficientNet은 간단한 복합 확장 규칙을 사용하여 모든 단계를 동일하게 확장합니다. 예를 들어 깊이 계수가 2이면 네트워크의 모든 단계는 레이어 수를 두 배로 늘립니다. 그러나 이러한 단계는 훈련 속도와 매개변수 효율성에 동등하게 기여하지 않습니다. 이 논문에서는 비균일 확장 전략을 사용하여 이후 단계에 점진적으로 더 많은 레이어를 추가할 것입니다. 또한 EfficientNet은 이미지 크기를 공격적으로 확장하여 메모리를 많이 소비하고 학습 속도가 느려집니다. 이 문제를 해결하기 위해 크기 조정 규칙을 약간 수정하고 최대 마법사 크기를 더 작은 값으로 제한합니다.

**3.3. Training-Aware NAS and Scaling**

트레이닝 인식 NAS 및 확장

To this end, we have learned multiple design choices for improving training speed. To search for the best combinations of those choices, we now propose a training-aware NAS.

이를 위해 훈련 속도를 향상시키기 위한 여러 설계 선택 사항을 배웠습니다. 이러한 선택의 최상의 조합을 찾기 위해 이제 교육 인식 NAS를 제안합니다.

**NAS Search:** Our training-aware NAS framework is largely based on previous NAS works (Tan et al., 2019; Tan & Le, 2019a), but aims to jointly optimize accuracy, parameter efficiency, and training efficiency on modern accelerators. Specifically, we use EfficientNet as our backbone. Our search space is a stage-based factorized space similar to (Tan et al., 2019), which consists of the design choices for convolutional operation types {MBConv, Fused-MBConv}, number of layers, kernel size {3x3, 5x5}, expansion ratio {1, 4, 6}. On the other hand, we reduce the search space size by (1) removing unnecessary search options such as pooling skip ops, since they are never used in the original EfficientNets; (2) reusing the same channel sizes from the backbone as they are already searched in (Tan & Le, 2019a). Since the search space is smaller, we can apply reinforcement learning (Tan et al., 2019) or simply random search on much larger networks that have comparable size as EfficientNetB4. Specifically, we sample up to 1000 models and train each model about 10 epochs with reduced image size for training. Our search reward combines the model accuracy A, the normalized training step time S, and the parameter size P, using a simple weighted product A · $S^w$ · $P^v$ , where w = -0.07 and v = -0.05 are empirically determined to balance the trade-offs similar to (Tan et al., 2019).

NAS 검색: 교육 인식 NAS 프레임워크는 이전 NAS 작업(Tan et al., 2019; Tan & Le, 2019a)을 기반으로 하지만 최신 가속기에서 정확도, 매개변수 효율성 및 교육 효율성을 공동으로 최적화하는 것을 목표로 합니다. 특히 EfficientNet을 백본으로 사용합니다. 우리의 검색 공간은 (Tan et al., 2019)와 유사한 단계 기반 인수 분해 공간으로, 컨볼루션 연산 유형 {MBConv, Fused-MBConv}, 레이어 수, 커널 크기 {3x3, 5x5}에 대한 설계 선택으로 구성됩니다. , 팽창비 {1, 4, 6}. 반면에 우리는 (1) 원래 EfficientNets에서 사용되지 않는 풀링 건너뛰기 작업과 같은 불필요한 검색 옵션을 제거하여 검색 공간 크기를 줄입니다. (2) 백본에서 이미 검색된 것과 동일한 채널 크기를 재사용합니다(Tan & Le, 2019a). 검색 공간이 더 작기 때문에 EfficientNetB4와 비슷한 크기를 가진 훨씬 더 큰 네트워크에서 강화 학습(Tan et al., 2019)을 적용하거나 단순히 무작위 검색을 적용할 수 있습니다. 구체적으로, 우리는 최대 1000개의 모델을 샘플링하고 훈련을 위해 축소된 이미지 크기로 각 모델을 약 10 Epoch에 훈련합니다.

우리의 검색 보상은 단순 가중 곱 A · $S^w$ · $P^v$를 사용하여 모델 정확도 A, 정규화된 훈련 단계 시간 S, 매개변수 크기 P를 결합합니다. 여기서 w = -0.07 및 v = - 0.05는 (Tan et al., 2019)와 유사한 균형을 유지하기 위해 경험적으로 결정됩니다.

EfficientNetV2 Architecture: Table 4 shows the architecture for our searched model EfficientNetV2-S. Compared to the EfficientNet backbone, our searched EfficientNetV2 has several major distinctions:

(1) The first difference is EfficientNetV2 extensively uses both MBConv (Sandler et al., 2018; Tan & Le, 2019a) and the newly added fused-MBConv (Gupta & Tan, 2019) in the early layers.

(2) Secondly, EfficientNetV2 prefers smaller expansion ratio for MBConv since smaller expansion ratios tend to have less memory access overhead.

(3) Thirdly, EfficientNetV2 prefers smaller 3x3 kernel sizes, but it adds more layers to compensate the reduced receptive field resulted from the smaller kernel size.

(4) Lastly, EfficientNetV2 completely removes the last stride-1 stage in the original EfficientNet, perhaps due to its large parameter size and memory access overhead.

EfficientNetV2 아키텍처: 표 4는 검색된 EfficientNetV2-S 모델의 아키텍처를 보여줍니다. EfficientNet 백본과 비교하여 검색된 EfficientNetV2에는 몇 가지 주요 차이점이 있습니다.

(1) 첫 번째 차이점은 EfficientNetV2가 초기 레이어에서 MBConv(Sandler et al., 2018; Tan & Le, 2019a)와 새로 추가된 fused-MBConv(Gupta & Tan, 2019)를 모두 광범위하게 사용한다는 것입니다.

(2) 둘째, EfficientNetV2는 확장 비율이 작을수록 메모리 액세스 오버헤드가 적은 경향이 있기 때문에 MBConv에 대해 더 작은 확장 비율을 선호합니다.

(3) 셋째, EfficientNetV2는 더 작은 3x3 커널 크기를 선호하지만 더 작은 커널 크기로 인한 감소된 수용 필드를 보상하기 위해 더 많은 레이어를 추가합니다.

(4) 마지막으로 EfficientNetV2는 큰 매개변수 크기와 메모리 액세스 오버헤드로 인해 원래 EfficientNet의 마지막 stride-1 단계를 완전히 제거합니다.

Table 4. EfficientNetV2-S architecture – MBConv and FusedMBConv blocks are described in Figure 2

EfficientNetV2-S 아키텍처 – MBConv 및 FusedMBConv 블록은 그림 2에 설명되어 있습니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/253f592c-3862-430c-9612-6c229a2eecd9/Untitled.png)

EfficientNetV2 Scaling: We scale up EfficientNetV2-S to obtain EfficientNetV2-M/L using similar compound scaling as (Tan & Le, 2019a), with a few additional optimizations:
(1) we restrict the maximum inference image size to 480, as very large images often lead to expensive memory and training speed overhead;

(2) as a heuristic, we also gradually add more layers to later stages (e.g., stage 5 and 6 in Table=4) in order to increase the network capacity without adding much runtime overhead.

EfficientNetV2 Scaling: EfficientNetV2-S를 확장하여 몇 가지 추가 최적화와 함께 (Tan & Le, 2019a)와 유사한 복합 확장을 사용하여 EfficientNetV2-M/L을 얻습니다.
(1) 최대 추론 이미지 크기를 480으로 제한합니다. 매우 큰 이미지는 종종 값비싼 메모리와 훈련 속도 오버헤드로 이어지기 때문입니다.

(2) 경험적 방법으로 많은 런타임 오버헤드를 추가하지 않고 네트워크 용량을 늘리기 위해 이후 단계(예: 표=4의 단계 5 및 6)에 점진적으로 더 많은 계층을 추가합니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/9813c828-ec37-4300-a4f3-10c31b6e2b62/Untitled.png)

Figure 3. ImageNet accuracy and training step time on TPUv3 – Lower step time is better; all models are trained with fixed image size without progressive learning.

TPUv3의 ImageNet 정확도 및 교육 단계 시간 – 단계 시간이 낮을수록 좋습니다. 모든 모델은 점진적 학습 없이 고정된 이미지 크기로 학습됩니다.

**Training Speed Comparison:** Figure 3 compares the training step time for our new EfficientNetV2, where all models are trained with fixed image size without progressive learning. For EfficientNet (Tan & Le, 2019a), we show two curves: one is trained with the original inference size, and the other is trained with about 30% smaller image size, same as EfficientNetV2 and NFNet (Touvron et al., 2019; Brock et al., 2021). All models are trained with 350 epochs, except NFNets are trained with 360 epochs, so all models have a similar number of training steps. Interestingly, we observe that when trained properly, EfficientNets still achieve pretty strong performance trade-off. More importantly, with our training-aware NAS and scaling, our proposed EfficientNetV2 model train much faster than the other recent models. These results also align with our inference results as shown in Table 7 and Figure 5.

**훈련 속도 비교:** 그림 3은 모든 모델이 점진적 학습 없이 고정 이미지 크기로 훈련되는 새로운 EfficientNetV2의 훈련 단계 시간을 비교합니다. EfficientNet(Tan & Le, 2019a)의 경우 두 개의 곡선이 표시됩니다. 하나는 원래 추론 크기로 훈련되고 다른 하나는 EfficientNetV2 및 NFNet과 같이 약 30% 더 작은 이미지 크기로 훈련됩니다(Touvron et al., 2019; Brock et al., 2021). 모든 모델은 350 Epoch로 훈련되지만 NFNet은 360 Epoch로 훈련되므로 모든 모델은 비슷한 수의 훈련 단계를 갖습니다. 흥미롭게도 우리는 적절하게 훈련되었을 때 EfficientNet이 여전히 매우 강력한 성능 트레이드오프를 달성한다는 것을 관찰했습니다. 더 중요한 것은 우리의 훈련 인식 NAS 및 확장성을 통해 제안된 EfficientNetV2 모델이 다른 최신 모델보다 훨씬 빠르게 훈련된다는 것입니다. 이러한 결과는 또한 표 7 및 그림 5에 표시된 것과 같이 우리의 추론 결과와 일치합니다.

### 4. Progressive Learning

**4.1. Motivation**

As discussed in Section 3, image size plays an important role in training efficiency. In addition to FixRes (Touvron et al., 2019), many other works dynamically change image sizes during training (Howard, 2018; Hoffer  et al., 2019), but they often cause a drop in accuracy.

3장에서 논의한 바와 같이 이미지 크기는 학습 효율성에 중요한 역할을 합니다. FixRes(Touvron et al., 2019) 외에도 많은 다른 작업이 훈련 중에 이미지 크기를 동적으로 변경하지만(Howard, 2018; Hoffer et al., 2019) 정확도가 떨어지는 경우가 많습니다.

We hypothesize the accuracy drop comes from the unbalanced regularization: when training with different image sizes, we should also adjust the regularization strength accordingly (instead of using a fixed regularization as in previous works). In fact, it is common that large models require stronger regularization to combat overfitting: for example, EfficientNet-B7 uses larger dropout and stronger data augmentation than the B0. In this paper, we argue that even for the same network, smaller image size leads to smaller network capacity and thus needs weaker regularization; vice versa, larger image size leads to more computations with larger capacity, and thus more vulnerable to overfitting.

정확도 저하가 불균형 정규화로 인해 발생한다고 가정합니다. 다른 이미지 크기로 훈련할 때 그에 따라 정규화 강도도 조정해야 합니다(이전 작업에서와 같이 고정 정규화를 사용하는 대신). 사실, 대형 모델은 과적합을 방지하기 위해 더 강력한 정규화가 필요한 것이 일반적입니다. 예를 들어 EfficientNet-B7은 B0보다 더 큰 드롭아웃과 더 강력한 데이터 증대를 사용합니다. 이 논문에서 우리는 동일한 네트워크의 경우에도 이미지 크기가 작을수록 네트워크 용량이 작아지므로 정규화가 더 약해질 필요가 있다고 주장합니다. 그 반대의 경우도 이미지 크기가 클수록 더 큰 용량으로 더 많은 계산을 수행하므로 **과적합에 더 취약**합니다.

To validate our hypothesis, we train a model, sampled from our search space, with different image sizes and data augmentations (Table 5). When image size is small, it has the best accuracy with weak augmentation; but for larger images, it performs better with stronger augmentation. This insight motivates us to adaptively adjust regularization along with image size during training, leading to our improved method of progressive learning.

우리의 가설을 검증하기 위해 검색 공간에서 샘플링한 모델을 다양한 이미지 크기와 데이터 증강으로 훈련합니다(표 5). 이미지 크기가 작을 때 약한 증강으로 최고의 정확도를 가집니다. 그러나 더 큰 이미지의 경우 더 강력한 증강으로 더 잘 수행됩니다. 이 통찰력은 훈련 중에 이미지 크기와 함께 정규화를 적응적으로 조정하도록 동기를 부여하여 개선된 점진적 학습 방법으로 이어집니다.

Table 5. ImageNet의 최고 정확도. 우리는 RandAug(Cubuk et al., 2020)를 사용하고 3번 실행에 대한 평균과 표준 편차를 보고합니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/f2ba0ea0-0a2c-4556-8a22-94f45a9ee056/Untitled.png)

**4.2. Progressive Learning with adaptive Regularization**

적응형 정규화를 통한 점진적 학습

Figure 4 illustrates the training process of our improved progressive learning: in the early training epochs, we train the network with smaller images and weak regularization, such that the network can learn simple representations easily and fast. Then, we gradually increase image size but also making learning more difficult by adding stronger regularization. Our approach is built upon (Howard, 2018) that progressively changes image size, but here we adaptively adjust regularization as well.

그림 4는 개선된 점진적 학습의 훈련 과정을 보여줍니다. 초기 훈련 시대에 우리는 네트워크가 간단한 표현을 쉽고 빠르게 학습할 수 있도록 더 작은 이미지와 약한 정규화로 네트워크를 훈련합니다. 그런 다음 점차적으로 이미지 크기를 늘리지만 더 강력한 정규화를 추가하여 학습을 더 어렵게 만듭니다. 우리의 접근 방식은 이미지 크기를 점진적으로 변경하는(Howard, 2018) 기반으로 구축되지만 여기에서는 정규화도 적응적으로 조정합니다.

Formally, suppose the whole training has N total steps, the target image size is $S_e$, with a list of regularization magnitude $Φ_e$ = {$Φ_e^k$ }, where k represents a type of regularization such as dropout rate or mixup rate value. We divide the training into M stages: for each stage 1 ≤ i ≤ M, the model is trained with image size $S_i$ and regularization magnitude $Φ_i$ = {$Φ_i^k$ }.

공식적으로 전체 훈련에 N개의 총 단계가 있고 대상 이미지 크기가 $S_e$이고 정규화 크기 $Φ_e$ = {$Φ_e^k$ }의 목록이 있다고 가정합니다.  여기서 k는 탈락률 또는 혼합 비율 값. 훈련을 M 단계로 나눕니다. 각 단계 1 ≤ i ≤ M에 대해 모델은 이미지 크기 $S_i$ 및 정규화 크기 $Φ_i$ = {$Φ_i^k$ }로 훈련됩니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/e1e4f3a5-b057-44c0-9d3e-06087f278cd8/Untitled.png)

Figure 4. Training process in our improved progressive learning – It starts with small image size and weak regularization (epoch=1), and then gradually increase the learning difficulty with larger image sizes and stronger regularization: larger dropout rate, RandAugment magnitude, and mixup ratio (e.g., epoch=300).

그림 4. 개선된 점진적 학습의 훈련 과정 – 작은 이미지 크기와 약한 정규화(epoch=1)로 시작하여 이미지 크기가 커지고 정규화가 강해지면 학습 난이도가 점차 높아집니다. 더 큰 드롭아웃 비율, RandAugment 크기 및 혼합 비율(예: Epoch=300).

The last stage M would use the targeted image size $S_e$ and regularization $Φ_e$. For simplicity, we heuristically pick the initial image size $S_0$ and regularization $Φ_0$, and then use a linear interpolation to determine the value for each stage. Algorithm 1 summarizes the procedure. At the beginning of each stage, the network will inherit all weights from the previous stage. Unlike transformers, whose weights (e.g., position embedding) may depend on input length, ConvNet weights are independent to image sizes and thus can be inherited easily.

마지막 단계 M은 목표 이미지 크기 $S_e$와 정규화 $Φ_e$를 사용합니다. 단순화를 위해 초기 이미지 크기 $S_0$와 정규화 $Φ_0$을 경험적으로 선택한 다음 선형 보간을 사용하여 각 단계의 값을 결정합니다. 알고리즘 1은 절차를 요약합니다. 각 단계가 시작될 때 네트워크는 이전 단계의 모든 가중치를 상속합니다. 가중치(예: 위치 임베딩)가 입력 길이에 따라 달라질 수 있는 변환기와 달리 ConvNet 가중치는 이미지 크기에 독립적이므로 쉽게 상속될 수 있습니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/e44a5809-bc50-4d84-8608-66bf125b2413/Untitled.png)

Our improved progressive learning is generally compatible to existing regularization. For simplicity, this paper mainly studies the following three types of regularization:

개선된 점진적 학습은 일반적으로 기존 정규화와 호환됩니다. 단순화를 위해 이 논문에서는 주로 다음 세 가지 유형의 정규화를 연구합니다.

- **Dropout** (Srivastava et al., 2014): a network-level regularization, which reduces co-adaptation by randomly dropping channels. We will adjust the dropout rate γ.

네트워크 수준의 정규화로, 채널을 무작위로 삭제하여 공동 적응을 줄입니다. 탈락률 γ를 조정합니다.

- **RandAugment** (Cubuk et al., 2020): a per-image data augmentation, with adjustable magnitude $\epsilon$.
    
    $\epsilon$ 크기를 조정할 수 있는 이미지별 데이터 증가.
    
- **Mixup** (Zhang et al., 2018): a cross-image data augmentation. Given two images with labels $(x_i, y_i)$ and $(x_j , y_j)$, it combines them with mixup ratio $λ: \widetilde{x}_i = λx_j + (1 − λ)x_i$ and $\widetilde{y}_i = λy_j + (1 − λ)y_i$. We would adjust mixup ratio λ during training.
    
    교차 이미지 데이터 증대. $(x_i, y_i)$ 및  레이블이 있는 두 이미지가 주어지면 혼합 비율 λ와 결합합니다. $λ: \widetilde{x}_i = λx_j + (1 − λ)x_i$ 및 $\widetilde{y}_i = λy_j + (1 − λ)y_i$. 훈련 중에 혼합 비율 λ를 조정합니다.
    

### 5. Main Results

This section presents our experimental setups, the main results on ImageNet, and the transfer learning results on CIFAR-10, CIFAR-100, Cars, and Flowers.

이 섹션에서는 실험 설정, ImageNet의 주요 결과 및 CIFAR-10, CIFAR-100, 자동차 및 꽃에 대한 전이 학습 결과를 제공합니다.

**5.1. ImageNet ILSVRC2012**
Setup: ImageNet ILSVRC2012 (Russakovsky et al., 2015) contains about 1.28M training images and 50,000 validation images with 1000 classes. During architecture search or hyperparameter tuning, we reserve 25,000 images (about 2%) from the training set as minival for accuracy evaluation. We also use minival to perform early stopping. Our ImageNet training settings largely follow EfficientNets (Tan & Le, 2019a): RMSProp optimizer with decay 0.9 and momentum 0.9; batch norm momentum 0.99; weight decay 1e-5. Each model is trained for 350 epochs with total batch size 4096. Learning rate is first warmed up from 0 to 0.256, and then decayed by 0.97 every 2.4 epochs. We use exponential moving average with 0.9999 decay rate, RandAugment (Cubuk et al., 2020), Mixup (Zhang et al., 2018), Dropout (Srivastava et al., 2014), and stochastic depth (Huang et al., 2016) with 0.8 survival probability.

설정: ImageNet ILSVRC2012(Russakovsky et al., 2015)에는 약 128만 개의 훈련 이미지와 1000개의 클래스가 있는 50,000개의 검증 이미지가 포함되어 있습니다. 아키텍처 검색 또는 하이퍼파라미터 조정 중에 정확도 평가를 위해 훈련 세트에서 25,000개의 이미지(약 2%)를 최소값으로 예약합니다. 우리는 또한 조기 정지를 수행하기 위해 minival을 사용합니다. ImageNet 교육 설정은 주로 EfficientNets(Tan & Le, 2019a)를 따릅니다. 배치 노멀 모멘텀 0.99; 체중 감소 1e-5. 각 모델은 총 배치 크기가 4096인 350 Epoch 동안 훈련됩니다. 학습률은 먼저 0에서 0.256으로 워밍업된 다음 2.4 Epoch마다 0.97씩 감소합니다. 감소율이 0.9999인 지수 이동 평균, RandAugment(Cubuk et al., 2020), Mixup(Zhang et al., 2018), Dropout(Srivastava et al., 2014) 및 0.8 생존 확률의 확률적 깊이(Huang et al., 2016)를 사용합니다.

Table 6. Progressive training settings for EfficientNetV2.

EfficientNetV2에 대한 점진적 교육 설정.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/fef827cd-79b8-4aea-b62c-cf5e76d09f65/Untitled.png)

For progressive learning, we divide the training process into four stages with about 87 epochs per stage: the early stage uses a small image size with weak regularization, while the later stages use larger image sizes with stronger regularization, as described in Algorithm 1. Table 6 shows the minimum (for the first stage) and maximum (for the last stage) values of image size and regularization. For simplicity, all models use the same minimum values of size and regularization, but they adopt different maximum values, as larger models generally require more regularization to combat overfitting. Following (Touvron et al., 2020), our maximum image size for training is about 20% smaller than inference, but we don’t finetune any layers after training.

점진적 학습을 위해 우리는 학습 프로세스를 단계당 약 87개의 에포크가 있는 4단계로 나눕니다. 초기 단계에서는 알고리즘 1에 설명된 대로 약한 정규화와 함께 작은 이미지 크기를 사용하는 반면 후반 단계에서는 더 강한 정규화와 함께 더 큰 이미지 크기를 사용합니다. 도 6은 이미지 크기 및 정규화의 최소값(첫 번째 단계의 경우) 및 최대값(마지막 단계의 경우)을 보여줍니다. 단순화를 위해 모든 모델은 크기와 정규화에 대해 동일한 최소값을 사용하지만 모델이 클수록 일반적으로 과적합을 방지하기 위해 더 많은 정규화가 필요하기 때문에 최대값이 다릅니다. 다음(Touvron et al., 2020)에 따르면 훈련을 위한 최대 이미지 크기는 추론보다 약 20% 작지만 훈련 후 레이어를 미세 조정하지 않습니다.

Results: As shown in Table 7, our EfficientNetV2 models are significantly faster and achieves better accuracy and parameter efficiency than previous ConvNets and Transformers on ImageNet. In particular, our EfficientNetV2-M achieves comparable accuracy to EfficientNet-B7 while training 11x faster using the same computing resources. Our EfficientNetV2 models also significantly outperform all recent RegNet and ResNeSt, in both accuracy and inference speed. Figure 1 further visualizes the comparison on training speed and parameter efficiency. Notably, this speedup is a combination of progressive training and better networks, and we will study the individual impact for each of them in our ablation studies.

결과: 표 7에서 볼 수 있듯이 EfficientNetV2 모델은 ImageNet의 이전 ConvNet 및 Transformer보다 훨씬 더 빠르고 더 나은 정확도와 매개변수 효율성을 달성합니다. 특히 EfficientNetV2-M은 동일한 컴퓨팅 리소스를 사용하여 11배 더 빠르게 훈련하면서 EfficientNet-B7에 필적하는 정확도를 달성합니다. 우리의 EfficientNetV2 모델은 또한 정확도와 추론 속도 모두에서 최근의 모든 RegNet 및 ResNeSt를 훨씬 능가합니다. 그림 1은 훈련 속도와 매개변수 효율성에 대한 비교를 더 시각화합니다. 특히, 이 속도 향상은 점진적인 훈련과 더 나은 네트워크의 조합이며, 우리는 절제 연구에서 각각에 대한 개별적인 영향을 연구할 것입니다.

Recently, Vision Transformers have demonstrated impressive results on ImageNet accuracy and training speed. However, here we show that properly designed ConvNets with improved training method can still largely outperform vision transformers in both accuracy and training efficiency. In particular, our EfficientNetV2-L achieves 85.7% top-1 accuracy, surpassing ViT-L/16(21k), a much larger transformer model pretrained on a larger ImageNet21k dataset. Here, ViTs are not well tuned on ImageNet ILSVRC2012; DeiTs use the same architectures as ViTs, but achieve better results by adding more regularization.

최근 Vision Transformers는 ImageNet 정확도와 훈련 속도에서 인상적인 결과를 보여주었습니다. 그러나 여기서 우리는 개선된 훈련 방법을 사용하여 적절하게 설계된 ConvNet이 정확도와 훈련 효율성 모두에서 여전히 비전 트랜스포머보다 성능이 훨씬 우수할 수 있음을 보여줍니다. 특히 EfficientNetV2-L은 더 큰 ImageNet21k 데이터 세트에서 사전 훈련된 훨씬 더 큰 변환기 모델인 ViT-L/16(21k)을 능가하는 85.7%의 상위 1 정확도를 달성합니다. 여기서 ViT는 ImageNet ILSVRC2012에서 잘 조정되지 않습니다. DeiT는 ViT와 동일한 아키텍처를 사용하지만 더 많은 정규화를 추가하여 더 나은 결과를 얻습니다.

Although our EfficientNetV2 models are optimized for training, they also perform well for inference, because training speed often correlates with inference speed. Figure 5 visualizes the model size, FLOPs, and inference latency based on Table 7. Since latency often depends on hardware and software, here we use the same PyTorch Image Models codebase (Wightman, 2021) and run all models on the same machine using the batch size 16. In general, our models have slightly better parameters/FLOPs efficiency than EfficientNets, but our inference latency is up to 3x faster than EfficientNets. Compared to the recent ResNeSt that are specially optimized for GPUs, our EfficientNetV2-M achieves 0.6% better accuracy with 2.8x faster inference speed.

EfficientNetV2 모델은 훈련에 최적화되어 있지만 훈련 속도는 종종 추론 속도와 상관 관계가 있기 때문에 추론에도 잘 수행됩니다. 그림 5는 표 7을 기반으로 모델 크기, FLOP 및 추론 대기 시간을 시각화합니다. 대기 시간은 종종 하드웨어와 소프트웨어에 따라 달라지므로 여기에서는 동일한 PyTorch 이미지 모델 코드베이스(Wightman, 2021)를 사용하고 모든 모델을 동일한 머신에서 실행합니다. 배치 크기 16. 일반적으로 우리 모델은 EfficientNets보다 매개변수/FLOP 효율성이 약간 더 높지만 추론 대기 시간은 EfficientNets보다 최대 3배 빠릅니다. GPU에 특별히 최적화된 최신 ResNeSt와 비교하여 EfficientNetV2-M은 2.8배 더 빠른 추론 속도와 0.6% 더 나은 정확도를 달성합니다.

**5.2. ImageNet21k**
Setup: ImageNet21k (Russakovsky et al., 2015) contains about 13M training images with 21,841 classes. The original ImageNet21k doesn’t have train/eval split, so we reserve randomly picked 100,000 images as validation set and use the remaining as training set. We largely reuse the same training settings as ImageNet ILSVRC2012 with a few changes:

설정: ImageNet21k(Russakovsky et al., 2015)에는 21,841개의 클래스가 있는 약 1,300만 개의 교육 이미지가 포함되어 있습니다. 원본 ImageNet21k에는 훈련/평가 분할이 없으므로 무작위로 100,000개의 이미지를 유효성 검사 세트로 예약하고 나머지를 훈련 세트로 사용합니다. ImageNet ILSVRC2012와 동일한 교육 설정을 몇 가지 변경 사항을 제외하고 대부분 재사용합니다.

(1) we change the training epochs to 60 or 30 to reduce training time, and use cosine learning rate decay that can adapt to different steps without extra tuning;

(1) 훈련 시간을 줄이기 위해 훈련 에포크를 60 또는 30으로 변경하고 추가 조정 없이 다른 단계에 적응할 수 있는 코사인 학습률 감쇠를 사용합니다.

(2) since each image has multiple labels, we normalize the labels to have sum of 1 before computing softmax loss. After pretrained on ImageNet21k, each model is finetuned on ILSVRC2012 for 15 epochs using cosine learning rate decay.

(2) 각 이미지에는 여러 개의 레이블이 있으므로 softmax 손실을 계산하기 전에 레이블의 합이 1이 되도록 레이블을 정규화합니다. ImageNet21k에서 사전 훈련된 후 각 모델은 코사인 학습률 감쇠를 사용하여 15세대 동안 ILSVRC2012에서 미세 조정됩니다.

Results: Table 7 shows the performance comparison, where models tagged with 21k are pretrained on ImageNet21k and finetuned on ImageNet ILSVRC2012. Compared to the recent ViT-L/16(21k), our EfficientNetV2-L(21k) improves the top-1 accuracy by 1.5% (85.3% vs. 86.8%), using 2.5x fewer parameters and 3.6x fewer FLOPs, while running 6x - 7x faster in training and inference.

결과: 표 7은 21k로 태그가 지정된 모델이 ImageNet21k에서 사전 훈련되고 ImageNet ILSVRC2012에서 미세 조정되는 성능 비교를 보여줍니다. 최근 ViT-L/16(21k)에 비해 EfficientNetV2-L(21k)은 2.5배 적은 매개변수와 3.6배 적은 FLOP을 사용하여 상위 1 정확도를 1.5%(85.3% vs. 86.8%) 향상시킵니다. 훈련 및 추론에서 6배 - 7배 더 빠르게 실행합니다.

We would like to highlight a few interesting observations:

몇 가지 흥미로운 관찰 사항을 강조하고 싶습니다.

- Scaling up data size is more effective than simply scaling up model size in high-accuracy regime: when the top-1 accuracy is beyond 85%, it is very difficult to further improve it by simply increasing model size due to the severe overfitting. However, the extra ImageNet21K pretraining can significantly improve accuracy. The effectiveness of large datasets is also observed in previous works (Mahajan et al., 2018; Xie et al., 2020; Dosovitskiy et al., 2021).
    
    데이터 크기를 확장하는 것은 고정확도 영역에서 단순히 모델 크기를 확장하는 것보다 효과적입니다. 상위 1 정확도가 85%를 초과하는 경우 심각한 과적합으로 인해 단순히 모델 크기를 늘리는 것만으로는 더 이상 개선하기가 매우 어렵습니다. 그러나 추가 ImageNet21K 사전 훈련은 정확도를 크게 향상시킬 수 있습니다. 대규모 데이터 세트의 효과는 이전 연구에서도 관찰되었습니다(Mahajan et al., 2018; Xie et al., 2020; Dosovitskiy et al., 2021).
    
- Pretraining on ImageNet21k could be quite efficient. Although ImageNet21k has 10x more data, our training approach enables us to finish the pretraining of EfficientNetV2 within two days using 32 TPU cores (instead of weeks for ViT (Dosovitskiy et al., 2021)). This is more effective than training larger models on ImageNet. We suggest future research on large-scale models use the public ImageNet21k as a default dataset.
    
    ImageNet21k에 대한 사전 교육은 매우 효율적일 수 있습니다. ImageNet21k에는 10배 더 많은 데이터가 있지만 교육 방식을 사용하면 32개의 TPU 코어를 사용하여 2일 이내에 EfficientNetV2의 사전 교육을 완료할 수 있습니다(ViT의 경우 몇 주가 아닌(Dosovitskiy et al., 2021)). 이것은 ImageNet에서 더 큰 모델을 훈련하는 것보다 더 효과적입니다. 대규모 모델에 대한 향후 연구에서는 공개 ImageNet21k를 기본 데이터 세트로 사용할 것을 제안합니다.
    

Table 7. EfficientNetV2 Performance Results on ImageNet (Russakovsky et al., 2015) – Infer-time is measured on V100 GPU FP16 with batch size 16 using the same codebase (Wightman, 2021); Train-time is the total training time normalized for 32 TPU cores. Models marked with 21k are pretrained on ImageNet21k with 13M images, and others are directly trained on ImageNet ILSVRC2012 with 1.28M images from scratch. All EfficientNetV2 models are trained with our improved method of progressive learning.

표 7. ImageNet의 EfficientNetV2 성능 결과(Russakovsky et al., 2015) – 추론 시간은 동일한 코드베이스를 사용하여 배치 크기 16으로 V100 GPU FP16에서 측정되었습니다(Wightman, 2021). 훈련 시간은 32개의 TPU 코어에 대해 정규화된 총 훈련 시간입니다. 21k로 표시된 모델은 ImageNet21k에서 13M 이미지로 사전 학습되고 다른 모델은 ImageNet ILSVRC2012에서 처음부터 128만 이미지로 직접 학습됩니다. 모든 EfficientNetV2 모델은 개선된 점진적 학습 방법으로 훈련되었습니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a6d939ed-3d13-437b-adb4-694351033d98/Untitled.png)

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/45a1c02f-8440-4b75-ae77-d6c60f59c1fa/Untitled.png)

Figure 5. Model Size, FLOPs, and Inference Latency – Latency is measured with batch size 16 on V100 GPU. 21k denotes pretrained on ImageNet21k images, others are just trained on ImageNet ILSVRC2012. Our EfficientNetV2 has slightly better parameter efficiency with EfficientNet, but runs 3x faster for inference.

그림 5. 모델 크기, FLOP 및 추론 대기 시간 – 대기 시간은 V100 GPU에서 배치 크기 16으로 측정되었습니다. 21k는 ImageNet21k 이미지에 대해 사전 학습된 이미지를 나타내고 나머지는 ImageNet ILSVRC2012에 대해 사전 학습된 이미지를 나타냅니다. EfficientNetV2는 EfficientNet에서 매개변수 효율성이 약간 더 높지만 추론을 위해 3배 더 빠르게 실행됩니다.

Table 8. Transfer Learning Performance Comparison – All models are pretrained on ImageNet ILSVRC2012 and finetuned on downstream datasets. Transfer learning accuracy is averaged over five runs.

표 8. 전이 학습 성능 비교 – 모든 모델은 ImageNet ILSVRC2012에서 사전 학습되고 다운스트림 데이터 세트에서 미세 조정됩니다. 전이 학습 정확도는 5회 실행에 대한 평균입니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/365be8a2-99aa-415b-ac1c-4d556bd01666/Untitled.png)

**5.3. Transfer Learning Datasets**

전이 학습 데이터 세트
Setup: We evaluate our models on four transfer learning datasets: CIFAR-10, CIFAR-100, Flowers and Cars. Table 9 includes the statistics of these datasets.

설정: CIFAR-10, CIFAR-100, 꽃 및 자동차의 네 가지 전이 학습 데이터 세트에서 모델을 평가합니다. 표 9는 이러한 데이터 세트의 통계를 포함합니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/182fb3f1-12c9-4241-b44c-602584546abd/Untitled.png)

For this experiment, we use the checkpoints trained on ImageNet ILSVRC2012. For fair comparison, no ImageNet21k images are used here. Our finetuning settings are mostly the same as ImageNet training with a few modifications similar to (Dosovitskiy et al., 2021; Touvron et al., 2021): We use smaller batch size 512, smaller initial learning rate 0.001 with cosine decay. For all datasets, we train each model for fixed 10,000 steps. Since each model is finetuned with very few steps, we disable weight decay and use a simple cutout data augmentation.

이 실험에서는 ImageNet ILSVRC2012에서 훈련된 체크포인트를 사용합니다. 공정한 비교를 위해 여기에는 ImageNet21k 이미지가 사용되지 않습니다. 우리의 미세 조정 설정은 다음과 유사한 몇 가지 수정을 제외하고 ImageNet 교육과 거의 동일합니다(Dosovitskiy et al., 2021; Touvron et al., 2021): 우리는 더 작은 배치 크기 512, 더 작은 초기 학습률 0.001을 코사인 감쇠로 사용합니다. 모든 데이터 세트에 대해 고정된 10,000단계에 대해 각 모델을 훈련합니다. 각 모델은 매우 적은 단계로 미세 조정되므로 가중치 감소를 비활성화하고 간단한 컷아웃 데이터 증대를 사용합니다.

Results: Table 8 compares the transfer learning performance. In general, our models outperform previous ConvNets and Vision Transformers for all these datasets, sometimes by a non-trivial margin: for example, on CIFAR-100, EfficientNetV2-L achieves 0.6% better accuracy than prior GPipe/EfficientNets and 1.5% better accuracy than prior ViT/DeiT models. These results suggest that our models also generalize well beyond ImageNet.

결과: 표 8은 전이 학습 성능을 비교합니다. 일반적으로 우리 모델은 이러한 모든 데이터 세트에 대해 이전 ConvNets 및 Vision Transformers보다 성능이 우수하며 때로는 사소한 차이가 있습니다. 예를 들어 CIFAR-100에서 EfficientNetV2-L은 이전 GPipe/EfficientNets보다 0.6% 더 나은 정확도와 1.5% 더 나은 정확도를 달성합니다. 이전 ViT/DeiT 모델보다 이러한 결과는 우리 모델이 ImageNet을 훨씬 넘어서 일반화할 수 있음을 시사합니다.

### 6. Ablation Studies

**6.1. Comparison to EfficientNet**
In this section, we will compare our EfficientNetV2 (V2 for short) with EfficientNets (Tan & Le, 2019a) (V1 for short) under the same training and inference settings.

이 섹션에서는 동일한 교육 및 추론 설정에서 EfficientNetV2(줄여서 V2)와 EfficientNets(Tan & Le, 2019a)(줄여서 V1)를 비교합니다.

Performance with the same training: Table 10 shows the performance comparison using the same progressive learning settings. As we apply the same progressive learning to EfficientNet, its training speed (reduced from 139h to 54h) and accuracy (improved from 84.7% to 85.0%) are better than the original paper (Tan & Le, 2019a). However, as shown in Table 10, our EfficientNetV2 models still outperform EfficientNets by a large margin: EfficientNetV2-M reduces parameters by 17% and FLOPs by 37%, while running 4.1x faster in training and 3.1x faster in inference than EfficientNet-B7. Since we are using the same training settings here, we attribute the gains to the EfficientNetV2 architecture.

동일한 훈련을 통한 성과: 표 10은 동일한 점진적 학습 설정을 사용한 성과 비교를 보여줍니다. EfficientNet에 동일한 점진적 학습을 적용하면 학습 속도(139h에서 54h로 감소)와 정확도(84.7%에서 85.0%로 향상)가 원본 논문보다 좋습니다(Tan & Le, 2019a). 그러나 표 10에서 볼 수 있듯이 EfficientNetV2 모델은 여전히 EfficientNet을 크게 능가합니다. EfficientNetV2-M은 EfficientNet-B7보다 훈련에서 4.1배, 추론에서 3.1배 더 빠르게 실행하면서 매개변수를 17%, FLOP를 37% 줄입니다. . 여기에서 동일한 교육 설정을 사용하고 있기 때문에 EfficientNetV2 아키텍처에 이점이 있다고 생각합니다.

Table 10. Comparison with the same training settings – Our new EfficientNetV2-M runs faster with less parameters.

표 10. 동일한 교육 설정과의 비교 – 새로운 EfficientNetV2-M은 더 적은 매개변수로 더 빠르게 실행됩니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3f7510e1-8a8c-45cd-beac-cddf2acc8e63/Untitled.png)

Scaling Down: Previous sections mostly focus on largescale models. Here we compare smaller models by scaling down our EfficientNetV2-S using EfficientNet compound scaling. For easy comparison, all models are trained without progressive learning. Compared to small-size EfficientNets (V1), our new EfficientNetV2 (V2) models are generally faster while maintaining comparable parameter efficiency

축소: 이전 섹션에서는 주로 대규모 모델에 중점을 둡니다. 여기에서 EfficientNet 복합 스케일링을 사용하여 EfficientNetV2-S를 축소하여 더 작은 모델을 비교합니다. 쉬운 비교를 위해 모든 모델은 점진적 학습 없이 학습됩니다. 소형 EfficientNet(V1)과 비교하여 당사의 새로운 EfficientNetV2(V2) 모델은 일반적으로 유사한 매개변수 효율성을 유지하면서 더 빠릅니다.

Table 11. Scaling down model size – We measure the inference throughput (images/sec) on V100 FP16 GPU with batch size 128.

표 11. 모델 크기 축소 – 배치 크기가 128인 V100 FP16 GPU에서 추론 처리량(이미지/초)을 측정합니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/eb0b5441-26af-45e6-aff5-b8503d9eca88/Untitled.png)

**6.2. Progressive Learning for Different Networks**

다양한 네트워크에 대한 점진적 학습
We ablate the performance of our progressive learning for different networks. Table 12 shows the performance comparison between our progressive training and the baseline training, using the same ResNet and EfficientNet models. Here, the baseline ResNets have higher accuracy than the original paper (He et al., 2016) because they are trained with our improved training settings (see Section 5) using more epochs and better optimizers. We also increase the image size from 224 to 380 for ResNets to further increase the network capacity and accuracy.

우리는 다른 네트워크에 대한 점진적 학습의 성능을 제거합니다. 표 12는 동일한 ResNet 및 EfficientNet 모델을 사용하여 점진적 훈련과 기준 훈련 간의 성능 비교를 보여줍니다. 여기에서 기준 ResNet은 더 많은 에포크와 더 나은 최적화 프로그램을 사용하여 개선된 훈련 설정(섹션 5 참조)으로 훈련되기 때문에 원본 논문(He et al., 2016)보다 정확도가 더 높습니다. 또한 **네트워크 용량과 정확도를 더욱 높이기 위해 ResNet의 이미지 크기를 224에서 380으로 늘립니다.**

Table 12. Progressive learning for ResNets and EfficientNets – (224) and (380) denote inference image size. Our progressive training improves both accuracy and training time for all networks.

ResNets 및 EfficientNets에 대한 점진적 학습 – (224) 및 (380)은 추론 이미지 크기를 나타냅니다. 우리의 점진적인 훈련은 모든 네트워크의 정확도와 훈련 시간을 모두 향상시킵니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/2598e7d5-6123-4eba-ae5c-00f62a18283b/Untitled.png)

As shown in Table 12, our progressive learning generally reduces the training time and meanwhile improves the accuracy for all different networks. Not surprisingly, when the default image size is very small, such as ResNet50(224) with 224x224 size, the training speedup is limited (1.4x speedup); however, when the default image size is larger and the model is more complex, our approach achieves larger gains on accuracy and training efficiency: for ResNet152(380), our approach improves speed up the training by 2.1x with slightly better accuracy; for EfficientNet-B4, our approach improves speed up the training by 2.2x.

표 12에서 볼 수 있듯이 점진적 학습은 일반적으로 훈련 시간을 줄이고 모든 다른 네트워크의 정확도를 향상시킵니다. 당연히 기본 이미지 크기가 224x224 크기의 ResNet50(224)과 같이 매우 작은 경우 훈련 속도 향상이 제한됩니다(1.4x 속도 향상). 그러나 기본 이미지 크기가 더 크고 모델이 더 복잡할 때 우리의 접근 방식은 정확도와 훈련 효율성에서 더 큰 이득을 얻습니다. ResNet152(380)의 경우 우리의 접근 방식은 약간 더 나은 정확도로 훈련 속도를 2.1배 향상시킵니다. EfficientNet-B4의 경우 우리의 접근 방식은 훈련 속도를 2.2배 향상시킵니다.

**6.3. Importance of Adaptive Regularization**

적응형 정규화의 중요성
A key insight from our training approach is the adaptive regularization, which dynamically adjusts regularization according to image size. This paper chooses a simple progressive approach for its simplicity, but it is also a general method that can be combined with other approaches. Table 13 studies our adaptive regularization on two training settings: one is to progressively increase image size from small to large (Howard, 2018), and the other is to randomly sample a different image size for each batch (Hoffer et al., 2019). Because TPU needs to recompile the graph for each new size, here we randomly sample a image size every eight epochs instead of every batch. Compared to the vanilla approaches of progressive or random resizing that use the same regularization for all image sizes, our adaptive regularization improves the accuracy by 0.7%. Figure 6 further compares the training curve for the progressive approach. Our adaptive regularization uses much smaller regularization for small images at the early training epochs, allowing models to converge faster and achieve better final accuracy.

훈련 접근 방식의 핵심 통찰력은 이미지 크기에 따라 정규화를 동적으로 조정하는 적응형 정규화입니다. 본 논문은 그 단순함을 위해 단순한 점진적 접근을 선택하지만, 다른 접근과 결합할 수 있는 일반적인 방법이기도 하다. 표 13은 두 가지 훈련 설정에 대한 적응 정규화를 연구합니다. 하나는 이미지 크기를 작은 것에서 큰 것으로 점진적으로 늘리는 것이고(Howard, 2018), 다른 하나는 각 배치에 대해 다른 이미지 크기를 무작위로 샘플링하는 것입니다(Hoffer et al., 2019). . TPU는 각각의 새 크기에 대해 그래프를 다시 컴파일해야 하므로 여기에서는 배치가 아닌 8개 에포크마다 이미지 크기를 무작위로 샘플링합니다. 모든 이미지 크기에 대해 동일한 정규화를 사용하는 점진적 또는 무작위 크기 조정의 바닐라 접근 방식과 비교할 때 적응형 정규화는 정확도를 0.7% 향상시킵니다. 그림 6은 점진적 접근 방식에 대한 훈련 곡선을 추가로 비교합니다. 적응형 정규화는 초기 훈련 에포크에서 작은 이미지에 대해 훨씬 더 작은 정규화를 사용하여 모델이 더 빠르게 수렴하고 더 나은 최종 정확도를 얻을 수 있도록 합니다.

Table 13. Adaptive regularization – We compare ImageNet top-1 accuracy based on the average of three runs.

적응형 정규화 - 3회 실행의 평균을 기반으로 ImageNet 상위 1 정확도를 비교합니다.

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3d64e382-c703-49ab-870f-0ddeef01b970/Untitled.png)

![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/a6c9699b-9105-4750-b9b2-c09b9984908f/Untitled.png)

Figure 6. Training curve comparison – Our adaptive regularization converges faster and achieves better final accuracy

훈련 곡선 비교 – 적응형 정규화가 더 빠르게 수렴하고 더 나은 최종 정확도를 달성합니다.

### 7. Conclusion

This paper presents EfficientNetV2, a new family of smaller and faster neural networks for image recognition. Optimized with training-aware NAS and model scaling, our EfficientNetV2 significantly outperforms previous models, while being much faster and more efficient in parameters. To further speed up the training, we propose an improved method of progressive learning, that jointly increases image size and regularization during training. Extensive experiments show our EfficientNetV2 achieves strong results on ImageNet, and CIFAR/Flowers/Cars. Compared to EfficientNet and more recent works, our EfficientNetV2 trains up to 11x faster while being up to 6.8x smaller.

이 논문에서는 이미지 인식을 위한 더 작고 더 빠른 신경망의 새로운 제품군인 EfficientNetV2를 제시합니다. 교육 인식 NAS 및 모델 확장으로 최적화된 EfficientNetV2는 이전 모델보다 성능이 훨씬 뛰어나면서 매개변수에서 훨씬 빠르고 효율적입니다. 훈련 속도를 더욱 높이기 위해 우리는 훈련 중 이미지 크기와 정규화를 공동으로 증가시키는 개선된 점진적 학습 방법을 제안합니다. 광범위한 실험에 따르면 EfficientNetV2는 ImageNet 및 CIFAR/Flowers/Car에서 강력한 결과를 얻었습니다. EfficientNet 및 최신 작업과 비교할 때 EfficientNetV2는 최대 11배 더 빠르게 훈련하는 동시에 최대 6.8배 더 작습니다.

Acknowledgements

Special thanks to Lucas Sloan for helping open sourcing. We thank Ruoming Pang, Sheng Li, Andrew Li, Hanxiao Liu, Zihang Dai, Neil Houlsby, Ross Wightman, Jeremy Howard, Thang Luong, Daiyi Peng, Yifeng Lu, Da Huang, Chen Liang, Aravind Srinivas, Irwan Bello, Max Moroz, Futang Peng for their feedback.

반응형

'Data Science' 카테고리의 다른 글

[Bayes] Bayesian inference(베이즈 추론)의 배경  (1) 2022.08.18

댓글