학술논문

Simple and Efficient Data Augmentation Strategies for Enhancing Cloze Test Performance in TOEIC / 토익에서 클로즈 테스트 성능 향상을 위한 간단하고 효율적인 데이터 증강 방안
Document Type
Dissertation/ Thesis
Source
Subject
Deep Learning
Natural Language Processing
Machine Reading Comprehension
Data Augmentation
Language
English
Abstract
최근 자연어를 이해하고 답을 추론하는 연구들이 활발하게 진행되고 있다. 대표적으로 기계 독해 연구가 존재하며, 이와 관련된 데이터셋 또한 여러 가지가 공개되어 있다. 그러나 과거에서부터 현재까지 사람의 영어 능력 평가를 위해 널리 사용되고 있는 토익에 대해서는 공식적으로 공개된 데이터셋이 거의 존재하지 않으며, 이에 대한 연구 또한 활발히 진행되고 있지 않다. 본 논문에서는 토익에 대한 딥러닝 연구의 어려움이 데이터 부족 문제 때문이라고 판단하여, 자원이 부족한 환경에서 모델을 개선하기 위해 다양한 데이터 증강 방법들을 제안한다. 제안하는 방법들로는 WordNet을 통해 얻은 유의어 및 반의어 정보를 기반으로 굉장히 간단하면서도 효율적으로 실제 토익 문제와 유사하게 데이터를 증강하는 방법과, 토익의 어휘 문제 유형과 문법 문제 유형의 특징을 고려하여 실제 토익 문제와 유사하게 데이터를 증강하는 방법이 있다. 또한, 제안한 각 방법론에 대한 실험과 데이터 양에 따른 실험을 통해 토익에서 문장 내에서의 단어 간 관계성 파악과 의미적, 문법적 이해의 중요성을 확인하였다. 본 연구를 통해 토익의 데이터 부족 문제를 해결하고, 딥러닝 모델이 사람 수준의 우수한 성능을 얻을 수 있도록 한다.
Recent studies have attempted to understand natural language and infer answers. Machine reading comprehension is one of the representatives, and several related datasets have been opened. However, there are few official open datasets for the Test of English for International Communication (TOEIC), which is widely used for evaluating people's English proficiency, and research for further advancement is not being actively conducted. This paper considers that the difficulty of deep learning research for TOEIC stems from the data scarcity problem, and thus proposes various data augmentation methods to enhance the model in a low resource environment. The methods proposed include utilizing WordNet to obtain synonyms and antonyms for the purpose of augmenting data in a manner that is both simple and efficient, closely replicating original TOEIC problems. Additionally, by considering the characteristics of TOEIC's semantic and grammar problem types, data is augmented to similarly mirror original TOEIC problems. In this paper, through experiments on the proposed methodologies and additional experiments based on the amount of data, it has been verified the importance of discerning the relationships between words and the critical need for semantic and grammatical understanding within sentences in TOEIC. This research is aimed at addressing the issue of data scarcity for TOEIC and enabling deep learning models to achieve performance at a human level of excellence.