본문 바로가기
ML 관련/이미지 처리 관련

[논문 리뷰] InternImage : Exploring Large-Scale Vision Foundation Models with Deformable Convolutions(2022) [논문 리뷰]

by 탶선 2023. 3. 13.
반응형

 

최근 대세인 VIT가 아닌 CNN을 활용한 연구로서, object detection, segmentation 부분 SOTA를 달성하였다.

23.01.10 기준 3개 부분 SOTA

Abstract

  • 최근 몇 년간 large-scale vit의 비약적 성장이 이루어짐
  • CNN기반 large-scale 모델은 여전히 초기상태에 머무름
  • InternImage라 부르는 새로운 방법 제안(기존 모델들과의 차이점)
    • ViT처럼 매개변수 및 훈련 데이터 증가
    • 최근 CNN의 초점 large dense kernels와 다름
    • 변형 가능한 컨볼루션을 핵심 연산자로 사용
    • detection, segmentation과 같은 다운스트림 작업에 필요한 큰 effective receptive field를 가짐
    • input 및 task information에 따라 조정되는 adaptive spatial aggregation를 가짐
    • 전통적 CNN의 strict inductive bias를 줄이고 ViT처럼 대용량 데이터에서 대규모 매개변수로 더 강하고 견고한 패턴을 학습 가능

Introduction

Comparisons of different core operators

(a): MHSA - 메모리, 계산량 효율성 문제 있음
(b): 제한 범위의 MHSA - long-range dependence 문제 있음
(c): 매우 큰 커널을 사용한 깊이별 컨볼루션 -(빼기) 적응형 공간 집계
(d): MHSA와 유사(유리한 속성을 공유) 대규모 모델에 효율적인 변형 가능한 컨볼루션
  • basic classification, detection, and segmentation task에서 대량의 매개변수와 데이터를 활용하는 요즘 CNN이 ViT보다 열등하다고 평가됨
  • CNN 기반 기반 모델도 유사한 operator-/architecture-level designs, scaling-up parameters, massive data를 갖추고 있을 때 ViT와 비슷하거나 더 나은 성능을 달성할 수 있다고 주장
  • CNN과 ViT 사이의 격차 해소를 위한 두 가지 측면의 차이점 요약
    1. the operator level: ViTs의 MHSA은 long-range dependencies와 adaptive spatial aggregation를 가지고 있음
      • MHSA의 이점을 활용한 ViT는 대량의 데이터에서 CNN보다 더 강력하고 견고한 표현 학습 가능
    2. ViT에는 LN, FFN, GELU 등 표준 CNN에 포함되지 않은 고급 구성 요소가 포함되어 있음
  1. 샘플링 오프셋이 유연하여 주어진 데이터에서 적절한 receptive fields(장거리 또는 단거리일 수 있음)를 동적으로 학습
  2. sampling offsets and modulation scalars
    • 입력 데이터에 따라 적응적으로 조정
    • ViT와 같은 adaptive spatial aggregation를 성취 가능
    • 일반 컨볼루션의 over-inductive bias를 줄입니다.
  3. 컨볼루션 창은 일반적인 3 ×3이며, 큰 dense 커널로 인한 최적화 문제와 비싼 cost 회피

Proposed Method

regular convolution, MHSA의 주요 차이점

  • Long-range dependencies
    • large effective receptive fields(Long-range dependencies)가 있는 모델이 일반적으로 다운스트림 비전 작업에서 더 잘 수행된다는 것이 오랫동안 인식됨
    • CNN의 3x3일반 컨볼루션의 effective receptive fields는 상대적으로 작음
    • 매우 심층적인 모델을 사용하더라도 CNN 기반 모델은 성능을 제한하는 ViT와 같은 장거리 종속성 획득 불가
  • Adaptive spatial aggregation
    • MHSA
      • 가중치가 입력에 의해 동적으로 조절
    • 일반 컨볼루션
      • 정적 가중치, 2D 지역성, neighborhood 구조, translation equivalence 등과 같은 귀납적 편향을 가진 연산자
    • 유도성이 높은 특성을 사용 시 일반 컨볼루션으로 구성된 모델이 ViT보다 더 빨리 수렴, 훈련 데이터가 덜 필요할 수 있으나, CNN이 웹 스케일 데이터에서 더 일반적이고 강력한 패턴을 학습하는 것을 제한함

DCNv2

  • 컨볼루션과 MHSA 사이의 격차를 해소하는 간단한 방법 장거리 종속성과 Adaptive spatial aggregation을 일반 컨볼루션에 도입
  • 식 1을 통해 DCNv2와 MHSA의 유사 속성을 확인

$x \in \mathbb{R}^{C \times H \times W} $

 

 

 

 

  •  장거리 종속성의 경우 샘플링 오프셋 Δ$p_k$가 유연하고 단거리 또는 장거리 기능과 상호 작용 가능
  • adaptive spatial aggregation의 경우 샘플링 오프셋 Δ$p_k$와 변조 스칼라 $m_k$모두 학습 가능, 입력 x에 의해 조절
  • K: 총 샘플링 포인트 수
  • k: 샘플링 포인트 enumerate
  • $w_k \in \mathbb{R}^{C \times C} $: k번째 샘플링 포인트의 투영 가중치
  • $m_k \in \mathbb{R}$: k번째 샘플링 포인트의 변조 스칼라, 시그모이드 함수에 의해 정규화
  • $p_k$: 미리 정의된 그리드 샘플링 {(−1, −1),(−1, 0), ...,(0, 1), ...,( 1, 1)}의 k번째 위치
  • ∆$p_k$는 k번째 그리드 샘플링 위치에 해당하는 오프셋

core operator: DCNv3

  • 기본 블록이 트랜스포머인 LN, FFN로 구성된 InternImage의 전체 아키텍처, stem , 다운샘플링 레이어는 기존 CNN의 설계를 따름
  • s2: stride 2 // p1: padding 1
  • stacking rule에 의해 제약을 받는 4개의 하이퍼파라미터($C_1$, $C_0$ , $L_1$, $L_3$)로 모델 변경 가능

 

InternImage Model

  • Basic block
    • 기본 블록의 설계는 LN, FFN, GELU로 구성하여 ViT에 가깝도록 함
    • core operator는 DCNv3, 샘플링 오프셋 및 변조 스케일은 분리 가능한 컨볼루션(3×3 깊이별 컨볼루션에 이어 선형 투영)
    • post 정규화, plain trasformer 사용

Overall Architecture of InternImage

Stem & downsampling layers

  • 계층적 특징 맵을 얻기 위해 컨볼루션 스탬 및 다운샘플링 레이어를 사용하여 특징 맵의 크기를 다른 스케일로 조정
  • 스탬층: 입력 해상도를 4배로 줄이는 역할(첫 번째 단계 앞에 위치)
    • 컨볼루션 2개, LN 레이어 2개, GELU 1개 레이어로 구성
      • 두 컨볼루션의 커널 크기는 3, 스트라이드는 2, 패딩은 1
      • 첫 번째 컨볼루션의 출력 채널은 두 번째의 절반
  • 다운샘플링 레이어: 스트라이드 2 패딩 1인 3×3 컨볼루션으로 구성, 이후 LN 레이어로 구성
    • 두 단계 사이에 있으며 입력 기능 맵을 2배로 다운샘플링하는 데 사용

Stacking rules

  • 첫 번째 규칙: 채널 번호 $C_1$에 의해 결정되는 마지막 3단계의 채널 번호 생성
  • 첫 번째 단계의 채널 번호,두 번째 규칙은 그룹 번호가 단계의 채널 번호에 해당
  • 다른 단계에서 쌓인 블록의 수에 대해 우리는 적층 패턴을 "AABA"로 단순화
  • 마지막 두 규칙. 이러한 규칙을 사용하면 4개의 하이퍼 매개변수($C_1$, $C_0$ , $L_1$, $L_3$)만 사용하여 InternImage 변형을 정의 가능

InternImage의 필수 하이퍼파라미터

여러 실험 끝 최상의 파라미터: (64, 16, 4, 18)

 

작성중+ 말 다듬을 예정

반응형

댓글