학술논문

Data-Efficient Reinforcement Learning with Self-Supervised Representations
Document Type
Dissertation/ Thesis
Source
Subject
Data Efficiency
Dynamics Modeling
Reinforcement Learning
Self-Supervised Learning
Transformer
Language
English
Abstract
환경과의 제한된 상호작용으로부터 데이터 효율성을 향상시키기 위한 연구는 픽셀 기반 심층 강화학습 (deep reinforcement learning) 분야에서 중요한 문제로써 많은 관심을 받고 있다. 픽셀 기반 고차원 상태에 대한 에이전트 훈련은 수만 개의 상태-행동 쌍을 고려해야 하기 때문에 환경의 요약된 상태를 사용하는 것보다 더 어려운 작업이다. 최근 에이전트가 고차원의 좋은 상태 표현을 학습할 수 있도록 심층 강화학습에 자기 지도 학습 (self-supervised learning) 및 데이터 증강 (data augmentation)이 사용되었다. 이러한 접근 방식들은 심층 강화학습의 데이터 효율성을 향상시키는데 기여하지만, 에이전트를 효율적으로 학습시키기 위해서는 에이전트의 관점을 고려한 학습 방법을 필요로 한다.본 학위 논문에서는 첫 번째로 이미지 기반 환경과의 제한된 상호작용으로부터 심층 강화학습의 데이터 효율성을 향상시키기 위한 자기 지도 학습 방법론을 고려한다. 딥러닝 기술의 발전과 함께 심층 강화학습은 이미지 기반 환경과의 상호작용을 통해 순차적인 의사결정 문제에서 지능형 에이전트를 성공적으로 구축하였다. 그러나, 무제한 상호작용을 통한 학습은 에이전트 학습에 많은 시행착오와 수많은 샘플이 필요하기 때문에 비실용적이며 데이터 비효율적이다. 이 문제에 대한 한 가지 대응은 이미지 기반 환경과의 제한된 상호작용에서 효과적인 상태 표현 학습을 장려하는 연구 분야인 데이터 효율적인 심층 강화학습이다. 이전 방법은 주어진 상호작용에서 좋은 상태 표현을 학습하기 위해 자기 지도 학습 및 데이터 증강을 사용하여 강화학습 에이전트를 훈련함으로써 인간 성능을 효과적으로 능가할 수 있었다. 그러나, 대부분의 기존 방법은 이미지 관찰의 유사성만을 고려하므로 의미적 표현을 포착하기 어렵다. 이러한 문제를 해결하기 위해 데이터 효율적인 심층 강화학습을 위한 시공간 및 행동 기반 대조 표현 (spatio-temporal and action-based contrastive representation, STACoRe) 학습을 제안한다. STACoRe는 적절한 상태 표현을 학습하기 위해 두 가지 대조 학습을 수행한다. 하나는 에이전트의 행동을 의사 레이블로 사용하고 다른 하나는 시공간 정보를 사용한다. 특히, 행동 기반 대조 학습을 수행할 때 안정적인 모델 훈련을 위해 각 환경에 적합한 데이터 증강 기법을 자동으로 선택하는 방법을 제안한다. 제안 방법은 행동 기반 대조 손실 함수와 시공간 대조 손실 함수를 동시에 종단간 (end-to-end) 방식으로 최적화하여 모델을 훈련한다. 이는 심층 강화학습의 데이터 효율성을 향상시킨다. 제안 방법론은 Atari 2600에서 환경 상호작용이 100,000 단계로 제한되는 26개의 벤치마크 게임을 사용하여 평가된다. 실험 결과에서는 제안 방법론이 기존 방법론보다 데이터 효율성이 더 높다는 것을 확인할 수 있다.또한, 에이전트의 개입에 따라 빠르게 진화하는 상태에 대한 적절한 표현을 학습하기 위해 새로운 자기 지도 학습 방법론을 고려한다. 픽셀 기반 심층 강화학습에서 에이전트의 작업이나 환경과의 상호작용으로 인해 변경되는 상태 표현을 학습하는 것은 데이터 효율성을 향상시키는데 중요한 과제이다. 최근 데이터 효율적인 심층 강화학습 연구에서는 심층 강화학습을 자기 지도 학습 및 데이터 증강과 통합하여 주어진 상호작용에서 상태 표현을 학습하였다. 그러나, 일부 방법에서는 진화하는 상태 표현을 명시적으로 포착하거나 적절한 보상 신호에 대한 데이터 증강을 선택하는데 어려움이 있다. 본 학위 논문의 목표는 에이전트의 개입 및 환경과의 상호작용에 따라 변화하는 고유한 역학을 명시적으로 학습하는 것이다. 따라서, 마스킹 증강과 더 적은 하이퍼파라미터를 사용하여 변화하는 상태에서 에이전트가 제어할 수 있는 표현을 학습하는 마스킹 및 역동역학 모델링 (masked and inverse dynamics modeling, MIND)을 제안한다. 제안 방법론은 상관관계가 높은 연속 프레임의 시공간 정보를 포착하는 변환기 (transformer) 아키텍처를 활용하는 자기 지도 다중 작업 학습 (self-supervised multi-task learning)으로 구성된다. MIND는 자기 지도 다중 작업 학습을 수행하기 위해 마스크 모델링과 역동역학 모델링이라는 두 가지 작업을 사용한다. 마스크 모델링은 상태 제어에 필요한 정적인 시각적 표현을 학습하고, 역동역학 모델링은 에이전트 개입을 통해 빠르게 진화하는 상태 표현을 학습한다. 역동역학 모델링을 마스크 모델링의 보완 구성 요소로 통합함으로써 제안된 방법은 진화하는 상태 표현을 효과적으로 학습한다. MIND는 상호작용이 제한된 이산적이고 연속적인 제어 환경을 사용하여 평가된다. MIND는 벤치마크 전체에서 이전 방법론보다 성능이 뛰어나고 데이터 효율성을 크게 향상시킨다.본 학위 논문에서는 픽셀 기반 환경에서 제한된 상호작용으로 심층 강화학습의 데이터 효율성을 향상시키기 위해 적절한 상태 표현을 학습하는 접근 방식을 다룬다. 제안 방법론의 중요한 특징들을 강조하고 향후 연구 방향에 대해 논의하며 결론을 내린다.
Improving data efficiency from limited interactions with the environment has become an important challenge in pixel-based deep reinforcement learning (DRL). Training an agent on pixel-based high-dimensional states is a more challenging task than using the summarized states of the environment because tens of thousands of state-action pairs must be considered. Recently, self-supervised learning (SSL) methods and data augmentation techniques have been used in DRL to enable agents to learn high-dimensional, good state representations. These approaches help improve the data efficiency of DRL; however, to learn the agent efficiently, learning methods that consider the agent's perspective are required.In this dissertation, I primarily consider an SSL method to improve the data efficiency of DRL from limited interactions with an image-based environment. With the development of deep learning technology, DRL has been used to build intelligent agents in sequential decision-making problems through interaction with image-based environments. However, learning from unlimited interaction is impractical and data inefficient because training an agent requires many trial and error and numerous samples. One response to this problem is data-efficient DRL, which encourages learning effective state representations in limited interactions with image-based environments. Previous methods could effectively surpass human performance by training a DRL agent using SSL and data augmentation to learn good state representations from a given interaction. However, most existing methods only consider the similarity of image observations; thus, it is difficult for such methods to capture semantic representations. To address these challenges, I propose spatio-temporal and action-based contrastive representation (STACoRe) learning for data-efficient DRL. STACoRe performs two contrastive learning to learn proper state representations. One uses the agent’s actions as pseudo labels, and the other uses spatio-temporal information. In particular, when performing action-based contrastive learning, I propose a method that automatically selects data augmentation techniques suitable for each environment for stable model training. I train the model by simultaneously optimizing an action-based contrastive loss function and spatio-temporal contrastive loss functions in an end-to-end manner. This leads to improving data efficiency for DRL. I use 26 games from the Atari 2600 benchmark whose environment interactions are limited to only 100k steps. The experimental results confirm that the proposed method is more data efficient than existing methods.In addition, I consider an SSL method to learn appropriate representations for rapidly evolving states depending on the intervention of the agent. In pixel-based DRL, learning the representations of states that change because of an agent’s action or interaction with the environment poses a critical challenge in terms of improving data efficiency. Recent data-efficient DRL studies have integrated DRL with SSL and data augmentation to learn state representations from given interactions. However, some methods have difficulties explicitly capturing the evolving state representations or selecting data augmentations for appropriate reward signals. My goal is to explicitly learn the inherent dynamics that change with an agent’s intervention and interaction with the environment. I propose masked and inverse dynamics modeling (MIND), which uses masking augmentation and fewer hyperparameters to learn agent-controllable representations in changing states. The proposed method is comprised of a self-supervised multi-task learning that leverages a transformer architecture, which captures the spatio-temporal information underlying in the highly correlated consecutive frames. MIND uses two tasks to perform self-supervised multi-task learning: masked modeling and inverse dynamics modeling. Masked modeling learns the static visual representation required for control in the state, and inverse dynamics modeling learns the rapidly evolving state representation with agent intervention. By integrating inverse dynamics modeling as a complementary component to masked modeling, the proposed method effectively learns evolving state representations. I evaluate MIND by using discrete and continuous control environments with limited interactions. MIND outperforms previous methods across benchmarks and significantly improves data efficiency.Overall, the proposed methods in this dissertation demonstrate the approaches to learn appropriate state representations to improve the data efficiency of DRL with limited interactions in the pixel-based environment. I conclude by highlighting the important aspects of the methods and discussing on future study directions.