Skip to main content

Tækni í þágu orðabókargerðar

Tæknin hefur gert það að verkum á tiltölulega stuttum tíma að orðabækur og orðasöfn af öllum gerðum eru aðgengileg á netinu. Raunar kýs dæmigerður nútímanotandi stafrænar orðabækur fram yfir prentaðar (Kosem o.fl. 2019). Samfara þessu aukast kröfurnar um að orðabækur og -söfn séu uppfærð jafnt og þétt en áður gat liðið langur tími milli prentaðra útgáfna.

 

Orðabókargerð er tímafrek og það er vinnan við að uppfæra orðabækur og orðasöfn líka. Því er mikilvægt að reyna að nýta nýja tækni þar sem hægt er. Liður í því er að nota svokölluð orðtökutól sem geta hjálpað til við að fylla í gloppur með því að finna orð sem ekki eru í viðkomandi orðabók eða -safni. ALEXÍA er einmitt þannig tól en það var unnið innan máltækniáætlunar á Stofnun Árna Magnússonar í íslenskum fræðum af Atla Jasonarsyni og Steinunni Rut Friðriksdóttur.

Orðtökutólið býður upp á að gerður sé samanburður á orðaforða mismunandi gagnasafna eða málheilda. Þannig má finna orð í tilteknu gagnasafni sem ekki eru í samanburðarsafninu, t.d. orðabók eða orðasafni, en gætu engu að síður átt heima þar. Þannig er tólið hannað með það í huga að einfalda viðhald og stækkun á orðabókum og orðasöfnum. Þegar niðurstöðurnar úr samanburðinum eru skoðaðar getur orðtökutólið flokkað orð eftir tíðni þeirra og sýnt í hvaða samhengi þau koma fyrir. Það auðveldar þeim sem vinna með gögnin að meta hversu mikið orðin eru notuð og hvernig. Tólið getur einnig útilokað ýmis orð, t.d. orðmyndir með innsláttar- og ljóstlestrarvillum, erlend orð, vefslóðir og sérnöfn.

Í orðtökutólinu er boðið sérstaklega upp á að bera orðaforða Risamálheildarinnar saman við annaðhvort orðaforðann í Beygingarlýsingu íslensks nútímamáls eða Íslenskri nútímamálsorðabók. Tólið takmarkast þó ekki við þessi gagnasöfn því að notandinn getur sjálfur skilgreint inntaksgögnin og borið þau saman við hvaða textamálheild sem er. 

Fróðlegt verður að fylgjast með hversu vel þessi nýja tækni kemur til með að nýtast við gerð og stækkun ýmiss konar orðabóka og orðasafna. ALEXÍA er aðgengileg á CLARIN en leiðbeiningamyndband um notkun orðtökutólsins er að finna á YouTube.

Einar Freyr Sigurðsson

 

Þetta er hluti af greinaröð um máltækniverkefni innan Stofnunar Árna Magnússonar í íslenskum fræðum.

← Grein 1: Íslensk tunga á tækniöld

Grein 3: Verkfæri til að greina þingmál →