학술논문

Towards Better Design of Student Networks in Knowledge Distillation / 지식 증류를 이용한 학생 네트워크의 설계에 대한 고찰
Document Type
Dissertation/ Thesis
Source
Subject
Knowledge Distillation
Computer Vision
Representation Learning
Language
English
Abstract
Approaches based on deep neural networks (DNN) have achieved remarkable performance across computer vision areas. However, high-performing DNNs have the propensity to grow enormous, with numerous parameters and intricate architecture. Therefore, deploying complex models on mobile devices is one of the major challenges due to the device's limited computational capabilities. Knowledge distillation (KD), which transfers informative knowledge of a large network (teacher) to a small network (student), is frequently used to boost the student's performance. Furthermore, unlike the conventional KD requiring the teacher network, self-knowledge distillation (self-KD) also has been widely studied to enhance the student network without the help of the teacher network. In this thesis, we research KD for various computer vision tasks. We propose two novel designs of student networks for conventional KD and self-KD. Through extensive experiments, we demonstrate that the proposed methods show competitive or better performance than other state-of-the-art KD methods over the various datasets in different tasks without extra computation.
컴퓨터 비전 분야에서 심층 신경망 기반의 접근은 놀라운 성능을 달성하였다. 하지만, 고성능 심층 신경망은 수많은 매개변수와 복잡한 아키텍처로 인하여 눈에 띄게 무거워지는 경향이 있다. 따라서 모바일 장치에 복잡한 모델을 배포하는 것은 장치의 제한된 연산량으로 인한 주요 과제 중 하나이다. 대규모 교사 네트워크의 유익한 지식을 소규모 학생 네트워크로 전달하는 지식 증류는 학생 네트워크의 성능을 높이는 방법으로 자주 사용된다. 더욱이, 교사 네트워크를 필요로 하는 전통적인 지식 증류와 달리, 교사 네트워크 도움 없이 학생 네트워크 스스로 학습하기 위한 자기-지식 증류도 널리 연구되고 있다. 본 논문에서는, 전통적인 지식증류와 자기-지식 증류를 위한 두 가지 새로운 학생 네트워크의 설계를 제안한다. 폭넓은 실험을 통해 제안된 방법이 추가 계산 없이 다양한 문제와 데이터셋에서 다른 방법론보다 뛰어난 성능을 보여준다.