
다중 비자동회귀 디코더 기반 한국어 형태소 분석 / Korean Morphological Analysis based on Multi Non-autoregressive Decoders
Document Type
Dissertation/ Thesis
비자동회귀 한국어 형태소 분석기
다중 비자동회귀 디코더
디코더 크로스 어텐션
한국어 형태소 분석
한국어 형태소 분석이란 주어진 문장을 형태소 원형으로 복원하고 각 형태소에 맞는 품사 태그를 부착하는 태스크다. 자연어처리에서, 형태소 분석은 다른 태스크들의 기초이므로 빠르고 정확한 분석결과가 요구된다. 기존의 한국어 형태소 분석은 인코더-자동회귀 디코더 구조를 활용하여 좋은 분석 결과를 생성하지만, 생성 속도가 느리다는 단점이 있다. 빠른 생성 속도를 위해 인코더-비자동회귀 디코더 구조를 활용할 경우, 토큰 반복 문제가 발생한다. 토큰 반복 문제란 같은 토큰을 반복하여 생성하는 문제이다. 본 논문은 인코더-다중 비자동회귀 디코더 구조로 형태소 분석 결과를 생성하여 토큰 반복 문제를 완화하는 방법을 제안한다. 다중 디코더는 형태소 시퀀스와 품사 태그 시퀀스를 각각 생성하여 토큰 반복을 완화한다. 또한 디코더 크로스 어텐션을 적용하여 각 디코더에 남아 있는 토큰 반복 문제를 완화한다. 실험 결과, 제안 방법은 자동회귀 디코더보다 형태소 단위 F1 0.15, 어절 단위 0.25 상승한 효과를 보임과 동시에 14.76배 빠르다.
Korean morphological analysis is a task of recovering original morpheme form and attaching a POS tag to a morpheme. In natural language processing, morphological analysis requires fast and accurate analysis results as it is fundamental for other tasks. Recent Korean morphological analysis based on encoder-autoregressive decoder shows accurate results but has drawback that its generation speed is slow. When using encoder-non-autoregressive decoder for fast generation speed, token repetition problem occurs. Token repetition problem is a phenomenon of generating the same token repeatedly. This paper proposes alleviating token repetition in Korean morphological analysis based on multi non-autoregressive decoders. Multi decoders alleviate token repetition problem by generating morpheme sequence and POS tag sequence respectively. Decoder cross attention also alleviates token repetition in each decoders. In the experiment, the proposed method shows increase in morpheme F1 0.15, word segment accuracy 0.25 compared to the autoregressive decoder.