학술논문

자원부족 환경에 적합한 BIT 개체명 표기법
A BIT Named Entity Format Suitable for Low Resource Environments
Document Type
Article
Source
정보과학회논문지, 48(3), pp.293-301 Mar, 2021
Subject
컴퓨터학
Language
한국어
ISSN
2383-6296
2383-630X
Abstract
Named entity recognition (NER) seeks to locate and classify named entities into predefined categories such as person names, organization, location, and others. Most name entities consist of more than one word and so the multitude of annotated corpora for NER are encoded by the BIO (short for Beginning, Inside, and Outside) format: A “B-” prefix before a tag indicates that the tag is the beginning of a named entity, and an “I-” prefix before a tag indicates that the tag is inside the named entity. An “O” tag indicates that a word belongs to no named entity. In this format, words with “O” tags in the corpora amount to more than about 90% of the words and thus, can cause two problems: the high perplexity of words with “O” tags and imbalance learning. In this paper, we propose a novel format to represent the NER corpus called the BIT format, which uses “T (short for POS Tags)” tags in place of “O” tags. Experiments have shown that the BIT format outperforms the BIO format when the meaning projection of the word representation is unreliable, namely, when word embedding is trained through a relatively small number of words.
개체명 인식이란 주어진 문서에서 개체명의 범위를 찾고 개체명을 분류하는 것이다. 많은 개체명은 하나 이상의 단어로 구성되므로 대부분의 개체명 학습말뭉치는 BIO 표기법으로 표현된다. BIO 표기법은 개체명이 시작되는 단어의 표지에 “B-”를 붙이고, 개체명에 포함된 그 외의 단어의 표지에는 “I-”를 붙이며, 개체명과 개체명 사이의 모든 단어의 표지를 “O”로 간주하는 방법이다. 이 방법은 약 90% 이상의 단어가 “O” 표지를 가지므로 “O” 표지에 대한 혼잡도가 높아지는 문제와 불균형학습 문제가 야기된다. 본 논문에서는 BIO 표기법 대신에 BIT 표기법을 제안한다. BIT 표기법이란 BIO 표기법에서 “O” 표지를 “T” 표지로 변환하는 방법이며 본 논문에서 “T” 표지는 품사 표지를 나타낸다. 실험을 통해서 단어 표상의 의미 투영도가 높지 않을 경우, 즉 상대적으로 적은 양의 학습자료로 단어 표상을 학습했을 경우에는 BIT 표기법이 BIO 표기법보다 좋은 성능을 보였다.