학술논문
Robust Image-to-Image Translation with Transformers / 트랜스포머를 이용한 이미지 변환에 대한 연구
Document Type
Dissertation/ Thesis
Author
Source
Subject
Language
English
Abstract
Recently, image-to-image translation (I2I) has been popularly studied, followed by various kinds of applications, e.g., domain adaptation, colorization, data augmentation and super resolution. While existing works have demonstrated promising results, most of them only consider the translation on an whole image, and do not account for the content-rich complex scenes, e.g., driving scene, which is critical for some downstream tasks.To overcome this limitation, in this thesis, we introduce two I2I methods based on trans- formers. First, we present a novel transformer-based network architecture for instance-aware I2I, called Instance-aware Image-to-Image Translation (InstaFormer). Our transformer-based architecture with well-constructed losses discover global consensus of content features by considering global and local context information through a self-attention module in transformers. By simultaneously considering instance-level features and global-level features with Transformers, we learned an interaction between not only object instance and global image, but also different instances. We also enables multi-domain translation in instance-aware image translation for the first time.Second, we propose a novel I2I network based on transformer, which opens a new paradigm of image translation. We find out that existing I2I has limited scope of the applications considering diverse image-capturing devices, since they often assume pinhole images with narrow field-of-view (FoV) as the input. Therefore, we introduce a image translation network considering panoramic inputs, called Panoramic Image-to-Image translation (Pano-I2I). This is challenging due to 1) the geometric deformation of panoramic images, 2) structural- and style-inconsistency in edges in a synthesized panoramic image, and 3) the absence of a panoramic image dataset with diverse conditions. We propose a panoramic distortion-aware I2I preserving the holistic structure of the panoramic images while consistently translating its global style referenced from a pinhole image. To mitigate the distortion and discontinuity issues in naive 360 panorama translation, we introduce a sphere-based rotation for augmentation and its ensemble, and adopt spherical positional embedding to our transformer encoders. We also design a content encoder and a style encoder to be deformation-aware to deal with a large domain gap between source and target, enabling us to work on diverse conditions of pinhole images.
최근 이미지 변환(I2I)이 활발히 연구되고 있으며, 이는 도메인 적응, 이미지 채색, 데이터 증강 및 고해상도 변환 등 다양한 종류의 응용 분야에서 활용되고 있다. 대부분의 I2I 연구들은 이미지의 전체적인 변환만 고려하고, 주행 영상과 같이 다양한 물체가 있는 복잡한 환경에서의 이미지 변환은 고려하지 않는다는 한계를 가진다. 이러한 한계를 극복하기 위해 본 학위논문에서는 Transformer를 기반으로 한 두 가지 I2I 방법을 소개한다. 먼저 Instance-aware Image-to-Image Translation (InstaFormer)라는 객체 인식 I2I를 위한 새로운 Transformer 기반 네트워크 아키텍처를 제시한다. 손실 함수가 잘 구성된 Transformer 기반 아키텍처는 Transformer의 self-attention 모듈을 통해 글로벌 및 로컬 context 정보를 고려하여 콘텐츠 특징자의 전체적인 consensus를 배운다. Transformer 구조를 사용하여 객체 레벨 특징과 글로벌 레벨 특징을 동시에 고려함으로써 객체 인스턴스와 글로벌 이미지뿐만 아니라 다른 객체 간의 상호 작용을 학습할 수 있다. 또한, 본 방법은 객체 인식 이미지 변환 분야에서 처음으로 다중 도메인 변환을 가능하게 한다. 둘째, 이미지 변환의 새로운 패러다임을 여는 Transformer 기반의 새로운 I2I 네트워크를 제안한다. 기존 I2I는 좁은 FoV가 있는 핀홀 이미지를 입력으로 가정하는 경우가 많기 때문에 응용 가능성이 제한적이다. 따라서 파노라마 입력을 고려한 이미지 변환 네트워크 Panoramic Image-to-Image Translation (Pano-I2I)를 제안한다. 이는 1) 파노라마 이미지의 기하학적 변형, 2) 합성된 파노라마 이미지의 가장자리에서 구조적 및 스타일 불일치, 3) 다양한 컨디션에서 촬영된 파노라마 이미지 데이터셋의 부재로 인해 어렵다. 본 방법론에 서는 핀홀 이미지에서 추출한 글로벌 스타일을 일관되게 변환하면서, 동시에 파노라마 이미 지의 전체적인 구조를 보존하는 파노라마 왜곡 인식 I2I 네트워크를 제안한다. 단순한 360 파노라마 변환에서 발생하는 왜곡과 불연속성 문제를 완화하기 위해 데이터 증강과 앙상블 기법을 도입하고, 이를 위해 구 기반 회전을 적용하고 Transformer 인코더에 spherical 위치 임베딩을 적용한다. 또한, source와 target 사이의 큰 도메인 격차를 처리하기 위해 기하학적 변형을 인식하도록 한 콘텐츠 인코더와 스타일 인코더를 설계하여 다양한 핀홀 이미지 스타일 데이터셋에서 활용될 수 있다. 이 학위논문에서 제안된 InstaFormer, 그리고 Panoramic Image-to-Image Translation은 Transformer 구조를 활용하여 복잡한 주행 영상에 대해서 다양한 종류의 데이터셋에 대해서 유의미한 특징을 추출하는 데에 도움을 주었다. 제안한 모델들에서 생성된 결과는 다양한 정량 평가에서 높은 성능을 거두었으며, 각 방법론들의 강건한 생성 능력을 시각적으로도 증명한다.
최근 이미지 변환(I2I)이 활발히 연구되고 있으며, 이는 도메인 적응, 이미지 채색, 데이터 증강 및 고해상도 변환 등 다양한 종류의 응용 분야에서 활용되고 있다. 대부분의 I2I 연구들은 이미지의 전체적인 변환만 고려하고, 주행 영상과 같이 다양한 물체가 있는 복잡한 환경에서의 이미지 변환은 고려하지 않는다는 한계를 가진다. 이러한 한계를 극복하기 위해 본 학위논문에서는 Transformer를 기반으로 한 두 가지 I2I 방법을 소개한다. 먼저 Instance-aware Image-to-Image Translation (InstaFormer)라는 객체 인식 I2I를 위한 새로운 Transformer 기반 네트워크 아키텍처를 제시한다. 손실 함수가 잘 구성된 Transformer 기반 아키텍처는 Transformer의 self-attention 모듈을 통해 글로벌 및 로컬 context 정보를 고려하여 콘텐츠 특징자의 전체적인 consensus를 배운다. Transformer 구조를 사용하여 객체 레벨 특징과 글로벌 레벨 특징을 동시에 고려함으로써 객체 인스턴스와 글로벌 이미지뿐만 아니라 다른 객체 간의 상호 작용을 학습할 수 있다. 또한, 본 방법은 객체 인식 이미지 변환 분야에서 처음으로 다중 도메인 변환을 가능하게 한다. 둘째, 이미지 변환의 새로운 패러다임을 여는 Transformer 기반의 새로운 I2I 네트워크를 제안한다. 기존 I2I는 좁은 FoV가 있는 핀홀 이미지를 입력으로 가정하는 경우가 많기 때문에 응용 가능성이 제한적이다. 따라서 파노라마 입력을 고려한 이미지 변환 네트워크 Panoramic Image-to-Image Translation (Pano-I2I)를 제안한다. 이는 1) 파노라마 이미지의 기하학적 변형, 2) 합성된 파노라마 이미지의 가장자리에서 구조적 및 스타일 불일치, 3) 다양한 컨디션에서 촬영된 파노라마 이미지 데이터셋의 부재로 인해 어렵다. 본 방법론에 서는 핀홀 이미지에서 추출한 글로벌 스타일을 일관되게 변환하면서, 동시에 파노라마 이미 지의 전체적인 구조를 보존하는 파노라마 왜곡 인식 I2I 네트워크를 제안한다. 단순한 360 파노라마 변환에서 발생하는 왜곡과 불연속성 문제를 완화하기 위해 데이터 증강과 앙상블 기법을 도입하고, 이를 위해 구 기반 회전을 적용하고 Transformer 인코더에 spherical 위치 임베딩을 적용한다. 또한, source와 target 사이의 큰 도메인 격차를 처리하기 위해 기하학적 변형을 인식하도록 한 콘텐츠 인코더와 스타일 인코더를 설계하여 다양한 핀홀 이미지 스타일 데이터셋에서 활용될 수 있다. 이 학위논문에서 제안된 InstaFormer, 그리고 Panoramic Image-to-Image Translation은 Transformer 구조를 활용하여 복잡한 주행 영상에 대해서 다양한 종류의 데이터셋에 대해서 유의미한 특징을 추출하는 데에 도움을 주었다. 제안한 모델들에서 생성된 결과는 다양한 정량 평가에서 높은 성능을 거두었으며, 각 방법론들의 강건한 생성 능력을 시각적으로도 증명한다.