
모바일 로봇 보행자 회피 환경에서 강화학습을 위한 보상체계 설계 및 구현 / Design and Implementation of a ReinforcementLearning-Based Reward System for PedestrianAvoidance in Mobile Robots
Document Type
Dissertation/ Thesis
모바일 로봇
보행자 회피
심층 강화학습
Advancements in artificial intelligence technology have led to thewidespread utilization of mobile robots across various industrialsectors. This expansion extends to diverse applications, includingunmanned delivery robots, even in outdoor settings. The emergenceof deep reinforcement learning, a combination of reinforcementlearning and deep learning, has garnered attention, prompting researchto replace collision avoidance technology in autonomous mobile robotswith deep reinforcement learning. However, the simulationenvironment in previous studies primarily focused on simulationenvironment where the goal is achieved by avoiding pedestrians,which differs from real-world outdoor environments featuring roadsand sidewalks. Consequently, in this paper, we implemented asimulation environment using Unity and ML-Agents, where the agentavoids encroaching on the road and navigates pedestrians to reachthe specified goal. Moreover, an apt reward function essential forreinforcement learning was designed. We learned using ProximalPolicy Optimization(PPO), one of the reinforcement learningalgorithms, through the simulation environment implemented in thispaper and the designed reward function. We conducted experimentsby modifying some reward functions that did not meet thetermination conditions in the optimal reward function system.Through learning performance graphs and evaluation metrics, weanalyzed the impact of each reward function on the learning process.Based on the results, we propose an optimal reward function systemthat includes Target, Walker, Danger Zone, Speed, Drive Way, andClose. The impact of the reward functions used in the experimentswas observed in the following order: Danger Zone, Speed, Drive Way,Close.
최근 인공지능 기술의 발전으로 모바일 로봇은 다양한 산업 분야에서활용되고 있고 실외에서도 무인 배달 로봇 등 더 다양한 용도로 확장되고 있다. 강화학습과 딥러닝의 결합으로 심층 강화학습이 주목받게 되면서 자율주행 모바일 로봇의 충돌회피 기술을 심층 강화학습으로 대체하는 연구가 진행되고 있다. 그런데 기존 연구의 시뮬레이션 환경은 보행자를 회피하여 목표에 도달하는 환경이지만 도로와 인도가 있는 실제 실외 환경과 차이가 있다. 따라서 본 연구에서는 유니티와 ML-Agents를사용하여 도로와 인도가 있는 실세계와 유사한 실제 실외 환경에서 도로를 침범하지 않고 인도 위의 보행자를 회피하여 목표를 찾아가는 시뮬레이션 환경을 구현하였다. 그리고 강화학습을 적용하기 위한 적절한 보상체계를 설계하였다. 로봇이 인도에서 보행자를 피해 목표까지 가도록 학습하기 위해 강화학습 알고리즘 중 하나인 PPO를 사용하였다. 본 연구에서는 보상 함수 체계를 변경해 가며 시뮬레이션 환경에서 강화학습을진행하였고 각 실험에서의 학습 성능 그래프와 평가지표를 통해 각 보상함수가 모바일 로봇의 학습에 미치는 영향을 분석하였다. 그리고 다양한실험을 통해 모바일 로봇이 출발지로부터 목적지까지 도달하기 위한 최적의 강화학습 보상 체계를 도출하였다.