본문 바로가기
ML 관련/이미지 처리 관련

[논문 리뷰] Small Object Detection in Remote Sensing Images with Residual Feature Aggregation-Based Super-Resolution and Object Detector Network

by 탶선 2023. 1. 30.
반응형

GOAL

  • 초고해상도를 기본 모델로 활용
  • 인공위성/항공체의 VHR 영상을 개선한 후 소형 물체 감지(차량 감지) 수행

Abstract

  • 딥러닝 기반의 검출 방법을 이용하여 이미지 해상도 향상을 위한 이미지 초해상도 개념 활용 위성,모든 항공기의 원격탐사 영상에서 작은 물체 검출
  • 검출 성능 향상을 위해 GAN과 RFA(잔차 특징 집계)를 통합 초해상도(SR) 프레임워크 개선
    • 작은 물체에 대한 이미지 초해상도에 대한 이론적 근거 제공
  • 이 방법의 참신함
    1. 연구에 사용되는 최종 객체 감지기와 독립적인 프레임워크 제안
      • 객체 감지를 위해 YOLOv3 -> Faster R-CNN 또는 객체 감지기로 대체
    2. RFA 네트워크: 복잡한 feature를 감지하여 감지 성능을 크게 향상됨
      • RFA 네트워크를 생성기에 사용
    3. 전체 네트워크를 순환 GAN으로 변환
      • 검출 네트워크(RFA, YOLO)를 사용하는 이미지 초해상도 순환 GAN을 SRCGAN-RFA-YOLO라 명명
      • 다른 방법의 검출 정확도와 비교
  • 위성 이미지와 항공 이미지(ISPRS Potsdam, VAID 및 Draper Satellite Image Chronology 데이터 세트사용
  • 공간 해상도 향상을 위한 초해상도 방법 사용
  • 탐지 성능 향상
    • 0.10의 IoU에 대해 0.7867의 AP가 16의 배율에 대해 달성

Introduction

Objective and Research Problem

  • GSD(Ground Sampling Distance)의 제한으로 인해 원격 감지 이미지에서 관심 물체를 감지하는 것, 특히 작은 물체는 어려움
  • 차량과 같은 작은 개체의 경우 몇 개의 픽셀이 전체 개체를 나타냄며, 따라서 식별 및 감지가 어려움
  • 작은 물체 감지 문제를 해결하기 위해 최근에 개발된 딥 러닝 기반 모델(해당 논문은 21년 3월에 써짐)
    • Faster RCNN, one-stage detector, semantic-contextaware network, end-to-end MSCNN 등 위성 이미지에서 객체 감지에 대한 추가 통찰력을 위해 객체 감지 네트워크를 비교
    • Tree-based convolutional neural networks for object classification in segmented satellite images
      • 트리 기반 CNN(VHR 위성 이미지): 물체 감지
      • 출력 레이어: fully connected
      • 단일 레이어: 컨볼루션 및 풀링 레이어 포함
    • Multiscale Convolutional Neural Networks for Geospatial Object Detection in VHR Satellite Images
      • VHR 이미지의 작은 물체에 충분한 attention 적용 위해 EssNet 제안
      • 작은 물체는 학습 과정에서 손실
    • Multi-channel higher-order local autocorrelation for object detection on satellite images
      • 물체 감지 정확도 향상을 위해 multi-spectral features 사용
      • gold course(??), 발전소를 포함한 대형 물체 감지에 이 방법을 사용
      • deconvolution layer 기반의 Deconv R-CNN은 최종 convolutional layer 이후에 Deconv R-CNN for small object detection on remote sensing images. 에서 사용
      • 결과적으로 작은 크기의 객체 feature의 더 나은 위치 파악 가능

Proposed Method

  • 저해상도(LR) 이미지
    • 훈련 데이터 세트에서 적절한 세부 정보를 캡처 필요
  • 고해상도 이미지 생성을 위해 더 많은 잔여 블록이 필요한 residual 학습 기반 방법의 경우
    • 더 높은 스케일링 계수가 필요
  • 따라서 평균 절대 오차(MAE) 또는 평균 제곱 오차(MSE) 기반 기존의 최적화를 사용하여 탐지 작업을 위해 단일 네트워크를 학습하는 것은 복잡한 작업임
  • 제안 방법
    • 초고해상도를 기본 모델로 활용 인공위성/항공체의 VHR 영상 품질 개선 이후 소형 물체 감지
    • 이미지 품질 향상을 위해
      • 잔차 특징 집합이 있는 원격 감지 및 항공 이미지에서 작은 물체 감지를 위한 초해상도 기반 순환 GAN 제안
  • 먼저 생성기, 판별기 및 YOLO의 가중 손실 함수 사용
  • 제안 방법
    • 작은 물체 검출의 최종 작업을 수행하기 위해 검출기가 있는 개선된 이미지 초해상도 네트워크
    • 세 가지 개선 사항을 통합
      • 매우 높은 스케일링 계수에서 향상된 초해상도를 위한 RFA 기반 잔차 블록
      • 객체 감지 네트워크와 독립적인 객체 감지를 위한 프레임워크
      • 향상된 학습 감지 성능을 위한 순환 접근 방식

 

Methodology

  • 세 부분으로 구성된 네트워크를 사용
    • 초기 : 얕은 feature 추출
    • 중간 : feature 추가 추출을 위한 잔차 블록으로 구성
    • 마지막 : 이미지 재구성을 수행

초기($F_0$) 레이어에 의해 생성된 얕은 feature

  • S: 초기 레이어의 특징 추출 함수
  • $F_0$: 추출된 특징

  • 위 그림의 잔차 블록을 사용하여 RFA 기반으로 심층 특징 학습을 위한 잔차 블록으로 전달
  • 트렁크 부분은 48개의 RFA 잔차 블록으로 구성되며 K개의 잔차 블록에 대해 다음과 같이 특징 함수가 관련

  • $M_k$: 입력 $F_{k-1}$ 및 출력 $F_k$를 갖는 k번째 잔차 모듈
  • $F_k$: 재구성 부분은 추출된 특징 

네트워크의 전체 SR 함수

  • $I_{SR}$: 초해상도 이미지
  • R: 아래 식 φ($I_{LR}$, ∂)와 동일한 재구성 함수
  • $I_{RHR}$: 초해상도 함수(ϕ)의 출력
  • 제안된 네트워크는 아래 식과 같이 L1 손실 함수를 사용하여 최적화함

 

Network Improvements

  • 기존 GAN
    • CV 및 패턴 인식에서 generator의 출력을 평가하는 discriminator
    • generator 사용하여 이미지 초해상도 학습에 사용됨

  • 기존 SR-GAN
    • GAN의 generator  네트워크 수정
    • generator의 성능 향상을 위해 RFA 통합된 모델
    • generator 네트워크의 목적은 SR 이미지를 생성
    • 출력된 값을 real/fake 로 평가 하기 위해 discriminator D 전달 후 평가
    • discriminator의 피드백은 generator가 L1 손실 함수 사용(네트워크 매개변수 미세 조정)
      • 사실적인 이미지 생성과 동시에 discriminator 네트워크도 각 반복에서 자체적으로 개선하는 데 사용
  • 개선점: SR-GAN의 변형 형태인 Wasserstein GAN의 형태로, discriminator의 손실 함수에서 가중치 페널티 사용

가중치 페널티 사용하는 손실 함수

 

  • GAN에서 순환 접근 방식을 사용
  • 아래 그림과 같이 첫 번째 generator 출력에서 LR 이미지를 생성하기 위해 다른 GAN을 추가

  • 손실 함수 사용하여 다음과 같이 네트워크 매개변수 조정

손실 함수 적용으로 매개변수 조정

  • 두 GAN 네트워크가 서로의 출력을 평가: 전체 손실 함수를 최소화하도록 작동
  • GenLR에 의해 생성된 LR 이미지(IRLR)는 실제 HR 이미지를 사용하여 생성된 실제 LR 이미지(ILR)와 bicubic 및 blur degradations 사용하여 비교
  • 핵심: 두 개의 저해상도 이미지(IRLR, ILR)가 동일하도록 생성된 HR 이미지와 실제 HR 이미지에 가깝게 하는것

 

detection network

  • 주요 목표: 생성된 HR 이미지가 실제 HR 이미지와 같도록 하며 전체 모델에서 이를 보장하기 위해 YOLOv3 사용
    • YOLOv3 탐지 네트워크는 HR 이미지 학습(순환 GAN 모델에 통합되는 동안 가중치는 고정)
    • 훈련단계: 생성된 HR 이미지를 YOLO로 전달
반응형

댓글