학술논문

단일 문자 기반 OCR을 위한 학습데이터 자동 생성 / Automatic training data generation for character-based OCR
Document Type
Dissertation/ Thesis
Source
Subject
동 데이터 생성
큰 문자세트
OCR
객체 감지
YOLO
라벨링
Language
English
Abstract
디지털 정보 처리 기술이 지속적으로 발전함에 따라 광학 문자 인식(OCR)은 텍스트 분석 및 정보 추출의 핵심 기술이 되었다. 그러나 큰 문자세트 언어 문서 OCR에는 여전히 여러 가지 어려움이 있으며, 특히 학습 데이터가 제한되어 있는 경우가 있다. 또한 대부분의 공개 데이터 세트(open dataset)는 글자가 아닌 단어단위로 라벨링이 되어있어, 수식인식과 같이 객체인식 방법을 이용하는 경우 글자 단위의 데이터세트의 생성이 필요하다. 객체 인식을 기반으로 하는 텍스트 OCR 인식에서는 모델의 성능을 향상시키기 위해 충분하고 다양한 라벨링과 폰트 스타일이 필요하다. 본 논문에서는 큰 문자세트 언어 문서 OCR에 대한 자동 학습 데이터 생성 시스템을 제안한다. 이 방법은 이미지 생성 및 데이터 향상 기술을 활용하여 학습 데이터를 자동으로 생성하고 라벨링을 하기 때문에 수작업에 의한 라벨링 없이 필요한 학습데이터를 만들 수 있다.일련의 종합적인 실험을 통해 한국어와 중국어 문자 처리에서 제안한 방법의 효율성을 검증하고, OCR 시스템의 성능 향상에 있어 자동 학습 데이터 생성이 효과적임을 보였다. 또한 YOLO와 같은 기존 객체 감지 기법을 활용하여 생성된 데이터를 이용한 OCR 시스템이 좋은 인식성능을 보임을 확인 하였다.
As digital information processing technology continues to evolve, Optical Character Recognition (OCR) has become a key technology for text analysis and information extraction. However, OCR of documents in languages with large character sets still presents various challenges, particularly when training data is limited. Furthermore, most open datasets are labeled at the word level rather than the character level, necessitating the generation of character-level datasets for applications like formula recognition that use object detection methods. Text OCR recognition based on object detection requires abundant and diverse labeling, as well as a variety of font styles, to enhance the model's performance. This thesis proposes an automated training data generation system for OCR of large character set language documents. Utilizing image generation and data enhancement techniques, this method allows for the automatic creation and labeling of training data, eliminating the need for manual labeling.Through a series of comprehensive experiments, the efficiency of the proposed method has been validated in processing Korean and Chinese characters, demonstrating that automated training data generation is effective in enhancing the performance of OCR systems. Additionally, it has been confirmed that OCR systems using data generated through this method and employing existing object detection techniques, such as YOLO, achieve excellent recognition performance.