Sõnaliik kui rakenduslik ja lingvistiline probleem: sõnaliikide märgendamine vana kirjakeele korpuses

Külli Habicht, Pille Penjam, Külli Prillop

Abstract


Artikkel käsitleb sõnade liigitamisega seotud probleeme, lähtudes eesti vana kirjakeele korpuse poolautomaatse märgendamise pikaajalisest praktikast. Tutvustatakse kasutusel olevat märgendussüsteemi ning põhilisi raskusi selle tegelikul rakendamisel. Universaalsed probleemid on seotud sõnaliikide piirialadega, kuhu kuuluvate sõnade liigi määratlemine saab toimuda vaid üksuse funktsiooni arvestades ja konteksti põhjal. Spetsiifilisemad probleemid on seotud vana kirjakeele tekstide eripäraga – tõlkelisuse ja sellega seotud võõrmõjude, arhailisuse ning välja kujunemata grammatikatraditsiooniga. Sõnaliikide piirialade, eriti adverbide üle otsustamine on välja toonud huvitavaid leksikaliseerumis- ja grammatiseerumisjuhtumeid, mis avavad kirjakeele leksikaalsete üksuste varasemaid arenguetappe. Funktsiooni alusel otsustamine võimaldab arvestada konteksti ning üksuste universaalse taaskasutatavuse seaduspärasust (üks ja sama üksus on ökonoomiaprintsiibile vastavalt kasutusel eri funktsioonides). Artikkel tutvustab korpuse kasutaja jaoks paljude probleemsete sõnaliigiotsustuste tagamaid ja toob esile just vana kirjakeele spetsiifikaga seotud keerukaid juhtumeid.

http://dx.doi.org/10.5128/ERYa7.02


Keywords


morfosüntaktiline märgendamine; korpuslingvistika; vana kirjakeel; eesti keel

Full Text:

PDF


DOI: http://dx.doi.org/10.5128/ERYa7.02

Refbacks

  • There are currently no refbacks.


Copyright (c) 2012 Külli Habicht, Pille Penjam, Külli Prillop

Creative Commons License
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.

ISSN 1736-2563 (print)
ISSN 2228-0677 (online)
DOI 10.5128/ERYa.1736-2563