반응형 [논문 리뷰] InternImage : Exploring Large-Scale Vision Foundation Models with Deformable Convolutions(2022) [논문 리뷰] 최근 대세인 VIT가 아닌 CNN을 활용한 연구로서, object detection, segmentation 부분 SOTA를 달성하였다. Abstract 최근 몇 년간 large-scale vit의 비약적 성장이 이루어짐 CNN기반 large-scale 모델은 여전히 초기상태에 머무름 InternImage라 부르는 새로운 방법 제안(기존 모델들과의 차이점) ViT처럼 매개변수 및 훈련 데이터 증가 최근 CNN의 초점 large dense kernels와 다름 변형 가능한 컨볼루션을 핵심 연산자로 사용 detection, segmentation과 같은 다운스트림 작업에 필요한 큰 effective receptive field를 가짐 input 및 task information에 따라 조정되는 adaptiv.. 2023. 3. 13. 이전 1 다음 반응형