학술논문

Oblikovanje korjenovatelja za hrvatski jezik
Document Type
Electronic Resource
Author
Source
Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje; ISSN 1331-6745 (Print); ISSN 1849-0379 (Online); Volume 41; Issue 2
Subject
korjenovanje temeljeno na pravilima; računalna lingvistika; obrada prirodnoga jezika; hrvatski jezik
rule-based stemming; computational linguistics; natural language processing; Croatian language
text
info:eu-repo/semantics/article
info:eu-repo/semantics/publishedVersion
Language
Abstract
U radu je prikazana izrada dvaju korjenovateljā za hrvatski jezik (k2 i k3) koji upotrebljavaju tvorbene nastavke imenica, pridjeva i glagola kako bi odredili osnove pojavnica. Pretpostavku da će navedeni korjenovatelji postići bolje rezultate od drugih sličnih korjenovatelja za hrvatski jezik provjerili smo usporedbom njihovih preciznosti, odziva i F1-mjera s istim vrijednostima početnoga korjenovatelja (k1). U tu svrhu upotrijebljen je ručno provjereni korpus od 9775 pojavnica s određenim lemama i morfosintaktičkim oznakama. U radu su također obrađeni problemi povezani s nazivljem koje se upotrebljava u području korjenovanja.
The paper presents two conservative Croatian language stemmers, k2 and k3. These stemmers are based on the k1 stemmer, an aggressive Croatian language stemmer presented by Nikola Ljubešić in a 2007 paper. By introducing an expanded set of rules that use derivational morphemes of nouns, verbs, and adjectives to determine the stems of words, we hoped to create a more efficient stemmer. In order to test whether the k2 and k3 stemmers were more efficient than the k1 stemmer, we calculated their precision, recall, and F1-score using a 9775 token corpus, and compared the results with the precision, recall, and F1-score of the k1 stemmer.