Þau eru mýmörg, máltæknitólin sem hafa verið þróuð og gefin út fyrir íslensku síðustu árin. Með þessum tólum er búið að ná utan um flest grunnverkefni máltækninnar fyrir íslensku og það með góðum árangri, þökk sé ötulum ríkisstuðningi og dugnaði fagfólks. Yfirlit um þessi tól er hægt að sjá á vefsíðu landshóps Íslands í CLARIN-ERIC innviðaverkefninu. Sá vandi getur hins vegar orðið, að þó svo að tiltekið máltæknitól sé til er ekki sjálfsagt að hver sem er geti notað það: Tækni- eða forritunarþekking upp að ákveðnu marki er nánast alltaf undirstaða þess að geta nýtt sér tólin.
Nýjum málvinnsluvef Árnastofnunar er ætlað að bæta úr þessu. Vefurinn er vettvangur þar sem tiltekin máltæknitól eru gerð aðgengileg almennum notendum, bæði með notendaviðmóti og svokölluðum forritaskilum. Hér að neðan er grundvöllur vefsins rakinn og gerð grein fyrir því sem á honum er að finna.
Gerðir máltæknitóla
Oft eru viðfangsefni máltækninnar flokkuð í tvo hópa. Sumum verkefnum og tæknilausnum má lýsa sem 'einföldum' og nýtast þau sem grundvöllur annarra tóla. Þessi grundvallartól eru oft kölluð stoðtól.
Dæmi um slík einföld stoðtól eru:
- Tókun (einnig: tilreiðing) – Sjálfstæðar eindir texta (tókar, t.d. orð, greinarmerki o.s.frv.) eru skildar í sundur.
- Mörkun – Tókar innan texta eru merktir á tiltekinn hátt, t.d. eftir málfræðilegum upplýsingum: orðflokki, kyni, tölu og falli.
- Lemmun – Uppflettimynd (lemma) lesmálsorða texta er fundin, oft út frá mörkuðum texta.
- Þáttun – Setningafræðileg formgerð texta er greind á sjálfvirkan hátt, einnig oft út frá mörkuðum texta.
Ekki er óalgengt að í textavinnsluverkefnum þar sem notast er við máltækni sé texti fyrst tókaður, síðan markaður og loks þáttaður.
Aðrar máltæknilausnir eru síðan taldar 'flóknar'. Nokkur dæmi um slíkt eru vélþýðingar, sjálfvirkar málfarsleiðréttingar, nafnakennsl (e. named entity recognition), lyndisgreining (e. sentiment analysis), að ógleymdum risamállíkönum (ChatGPT o.fl.) sem margir hafa komist í kynni við síðustu misseri.
Þessi tvígreining sem hér er lýst nær ekki yfir allar aðstæður innan máltækninnar en hún er gagnleg í hversdagslegu samhengi, ekki síst þegar spurningin er: Hvaða tólum væri gott að hafa auðveldan aðgang að?
Hverjir nýta sér máltækni?
Þó svo að beinast liggi við (frá sjónarhorni hugbúnaðarsérfræðingsins) að þróun í máltækni geti af sér meiri máltækni, má ekki gleyma að viðfangsefnið, íslenskan, kemur við sögu víða í samfélaginu. Þetta þýðir að hver sá sem vinnur með tungumálið, hvort sem viðfangsefnið er texti eða talmál, hefur mögulega not fyrir máltækniafurðir. Gott dæmi um slíkt er Beygingarlýsing íslensks nútímamáls (BÍN) sem hefur margsannað notagildi sitt á fleiri en einum vettvangi. Annað og nýrra dæmi á sama sviði er m.is þar sem vélþýðing á íslensku er aðgengileg, ásamt orðabókum Árnastofnunar.
Ágæt dæmi um stoðtól sem eiga erindi við marga en fáir notfæra sér eru svokölluð mörkunartól. Sem fyrr segir fjallar mörkun um það að merkja orð í texta. Í íslensku er algengast að orð sé markað með málfræðilegum upplýsingum: Mark orðs gæti innihaldið upplýsingar um kyn, tölu, fall o.s.frv. Mörkun er grundvöllur markaðra málheilda (sbr. Risamálheildin o.fl.) og hafa mörg mörkunartól (einnig: markarar) verið þróuð fyrir íslensku gegnum tíðina.
Í tilfelli íslensku, þar sem flest mörkunarkerfi byggja á málfræðilegum upplýsingum orða, geta lausnir á afmarkaðri verkefnum falist í úttaki mörkunartóls. Dæmi um þetta er orðflokkagreining, þ.e. það að greina hvert orð í texta í tiltekinn orðflokk og jafnvel telja hlutföll hvers orðflokks. Handvirk orðflokkagreining hefur verið notuð af kennurum við að meta skrif nemenda sinna og er t.a.m. eitt af viðfangsefnum talmeinafræðinga í mati á tali skjólstæðinga sinna. Sömuleiðis er þetta mikilvæg greiningaraðferð í málfræðirannsóknum á íslensku utan beinnar aðkomu máltækni. Þetta þýðir að í þessum tilteknu dæmum myndi sjálfvirk mörkun í orðflokkagreiningu vera mjög nytsamleg.
Það er hins vegar ekki hluti af almennri kunnáttu kennara, talmeinafræðinga og rannsakenda í hugvísindum að geta þróað, sótt, keyrt eða meðhöndlað forrit sem ætluð eru notendum í hugbúnaðargeiranum, en þó er slíkt raunin með flest nýútgefin máltæknitól. Þetta þýðir að þeir sem hefðu not af sjálfvirkri mörkun texta neyðast til að nota handvirkar aðferðir, sem getur bæði verið tímafrekt og óhagkvæmt. Því er ástæða til þess að skoða hvort hægt sé að gera mörkunartól aðgengileg þeim sem gætu þurft á þeim að halda, óháð tækniþekkingu. Segja má hið sama um fleiri gerðir tóla.
Málvinnsluvefur Árnastofnunar
Málvinnsluvefur Árnastofnunar var upprunalega settur á laggirnar árið 2018 og þá fyrst og fremst til þess að gera mörkunartólið ABLTagger aðgengilegt. Fleiri tólum var síðar bætt við en skipulagið var lítið og viðhaldið einnig. Vefurinn hefur legið niðri undanfarin misseri en hefur nú verið endurvakinn og tækifærið nýtt til að endurhugsa hlutverk og umfang málvinnsluvefsins til frambúðar.
Árnastofnun er í sérstakri stöðu þegar kemur að máltækniþróun fyrir íslensku. Fjölmargir aðilar, fyrirtæki og stofnanir, vinna að þróun máltæknilausna á landsvísu en formlegar skyldur gagnvart tungumálinu eru hvað mestar hjá Árnastofnun. Auk þess hefur á stofnuninni orðið til mikil sérþekking í máltækni síðastliðinn áratug. Starfsmenn stofnunarinnar sem vinna beint eða óbeint í máltækni eru allmargir og hafa ýmis máltæknitól verið þróuð innanhúss með tilheyrandi sérkunnáttu. Jafnframt heldur stofnunin úti fjölda öflugra vefsvæða. Auk fyrrnefndu vefjanna BÍN og m.is, má nefna ISLEX, Málheildavefinn og Íðorðabankann, svo fátt eitt sé nefnt. Það er því ljóst að Árnastofnun er vel til þess fallin að halda úti slíkum málvinnsluvef.
Hvað innihald málvinnsluvefsins varðar er mikilvægast að tólin veiti að mestu áreiðanlegar niðurstöður. Þetta þýðir bæði að forðast skuli gömul tól og úreltar útgáfur en einnig að þar sé pláss fyrir tól sem ekki hafa verið þróuð hjá Árnastofnun. Tólin sem eru valin á málvinnsluvefinn geta því verið af ýmsum uppruna en eiga það sameiginlegt að vera í opnum aðgangi.
Umræðan hér að framan undirstrikar að máltæknitól geta verið óaðgengileg sumum þeim sem hefðu mögulega not fyrir þau vegna þess að þau krefjast vissrar tækniþekkingar. Málvinnsluvefur ætti að ráða einhverja bót á þessu. Jafnframt getur slíkur vefur verið nytsamlegur þeim sem hafa tilhlýðilega tækniþekkingu. Þetta sést best þegar vefsvæðinu fylgja svokölluð forritaskil (e. API). Forritaskil gera virkni vefsvæðisins aðgengilega forritum þar sem hægt er að kalla á tiltekinn endapunkt (e. end point) á vefslóð svæðisins eftir stöðluðum leiðum. Þetta þýðir að notandi sem hefði áður þurft að sækja tiltekið tól og setja það upp í sinni eigin tölvu getur eftir þörfum (og ef umrætt tól er í boði á vefsvæðinu) sent gögn til tólsins gegnum Internetið. Fyrirhöfnin verður því minni og þar með þægindin meiri.
Með þessi atriði í huga eru eftirfarandi tól tiltæk á nýjum málvinnsluvef Árnastofnunar:
- Tókun – Tokenizer frá Miðeind ehf.
- Mörkun – ABLTagger 3.0 (POS) frá Háskólanum í Reykjavík.
- Lemmun – Nefnir frá Jóni Friðriki Daðasyni o.fl.
- Orðskipting – Skiptir frá Kristjáni Rúnarssyni.
- Auk þessara tóla eru lýsigögn um forritaskil, byggð á OpenAPI staðlinum.
Málvinnsluvefurinn gerir þar með fjölmörg máltæknitól aðgengileg almenningi, með fyrirvara um virka þróun og reglulegar breytingar, og ætti að gagnast mörgum þeim sem fást við íslenska tungu í ýmsu samhengi.
Síðast breytt 29. október 2024