본문 바로가기
ML 관련/이미지 처리 관련

[논문 리뷰] Video Person Re-ID: Fantastic Techniques and Where to Find Them

by 탶선 2023. 3. 20.
반응형

Abstract

  • 재식별은 상업적, 학술적 가치가 있음
  • 기존 solution은 attention기반 모델임제안한 손실 함수는 bag-of-tric에 적용됨
  • 본 논문에서는 attention기반에 top of a temporal attention-based가 추가된 CL loss 활용

Introduction

  • Person Re-IDentification의 목표
    • 똑같은 사람을 다른 영상 속에서 찾는 것
    • 갤러리 셋 안의 똑같은 사람을 쿼리 비디오에서 찾는 것

Methodology

  • Baseline(Base Temporal Attention)
    • Revisiting temporal modeling for video-based person reid
    • 데이터셋 ImageNet을 적용 ResNet-50으로 사전 학습 - 비디오 클립의 각 프레임의 feature 생성
    • attention 모델은 features across frames 가중치 합 계산
  • Bag-of-Tricks
    • Bag of tricks and A strong baseline for deep person reidentification
    • ResNet모델의 성능 향상을 위한 series of trics 적용
    1. Data Augmentation: 데이터 증강은 모델의 일반화 성능을 향상시키는데 사용되는 기술. 회전, 이동, 크기 조정, 확대/축소 등의 변형을 통해 기존 데이터셋을 증강시키는 방법으로 새로운 학습 데이터를 생성
    2. Transfer Learning: 전이학습은 미리 학습된 모델의 일부 또는 전체를 새로운 모델에 재사용하여 훈련하는 기술. 이를 통해 적은 데이터로도 높은 성능
    3. Batch Normalization: 딥러닝 모델의 내부 변화(Internal Covariate Shift)를 줄이고, 모델의 성능을 향상시키는데 사용/ 학습 과정에서 각 미니배치의 입력 데이터를 정규화
    4. Dropout: 모델의 과적합을 방지하고, 일반화 성능을 향상시키는데 사용되는 기술. 학습 과정에서 일부 뉴런을 임의로 비활성화
    5. Learning Rate Schedule: 학습률 스케줄링은 훈련하는 동안 학습률을 조절하는 기술/ 일반적으로 학습이 진행됨에 따라 학습률을 낮춤
  • Attention and CL loss
    • Deep metric learning by online soft mining and class-aware attention
    • Re-ID task 학습을 위한 triplet loss의 대안으로 위 논문에서 제안한 Class-Aware Attention, OSM loss(Online Soft Mining) 제안
    • 본 논문에서는 원래 제안된 분류기 가중치에 비해 분산이 더 크기 때문에 noisy한 프레임을 잘라내기 위해 중심 손실의 중심 벡터를 클래스 레이블 벡터 표현으로 사용하는 CL Centers OSM loss 제안
    • 또한 임의로 패치를 삭제한 프레임에 높은 주의 점수를 부여한 모델에 페널티를 부여
    • 이러한 무작위로 지워진 프레임은 1, 그렇지 않은 경우 0으로 레이블이 지정

반응형

댓글