Skip to main content

Pistlar

Vélþýðingar og þýðingarvélar fyrir íslensku fyrr og nú

Undanfarið hafa orðið miklar framfarir í vélþýðingartækni og nú er svo komið að vélþýðingar geta gagnast mörgum sem vilja þýða texta á ýmsum sviðum úr íslensku á önnur mál eða úr öðrum málum á íslensku. Þetta á ekki síst við um ferðamenn eða þá sem vilja átta sig á efni vefsíðna á tungumálum sem þeir tala ekki, en líka um þýðendur sem geta í sumum tilvikum notað tæknina sér til aðstoðar í störfum sínum. Vélþýðingar eru þó ekki nýjar af nálinni. Um 70 ár eru síðan fyrstu vélþýðingarkerfin voru skrifuð og um 45 ár síðan fyrstu skrefin voru tekin að smíði vélþýðingarkerfa fyrir íslensku.

Blaðagrein um stefán Briem. Titill greinar: Rr að koma íslensku inn í alþjóðlegt þýðingakerfi. við hlið er mynd af stefán.
Viðtal við Stefán Briem í Morgunblaðinu árið 1989.
Tímarit.is

Stefán Briem eðlisfræðingur var fyrstur Íslendinga til að fást við rannsóknir á möguleikum þess að þýða ritað mál milli tungumála (Stefán Briem 1988). Hann hófst handa árið 1981 og sinnti vinnunni um áratugaskeið. Eins og tíðkaðist þá byggði hann kerfi sitt á sérsniðnum reglum og orðasafni sem hann kom sér upp á stafrænu formi. Slík kerfi virka þannig að þau taka inn setningu á upprunamáli, t.d. esperanto eins og í fyrsta kerfi Stefáns, greina setninguna svo í orð, fletta upp í orðasafni til að finna viðeigandi þýðingu á markmálinu, íslensku í kerfi Stefáns, og beita svo reglum til að mynda íslenska setningu tilbúna til birtingar.

Stefán sá fyrst fyrir sér að nota esperanto sem millimál til að þýða á milli íslensku og annarra tungumála. Síðar sneri hann af þeirri braut og hófst handa við að þróa kerfi sem þýddu beint úr ensku á íslensku og gerði slíkt kerfi aðgengilegt á netinu 1. janúar 2001. Í grein í Tölvumálum sama ár segir hann að þrátt fyrir að það væri alls ekki fullkomið, gæti kerfi á borð við það sem hann smíðaði í sumum tilvikum gagnast sem hjálpartæki við þýðingar nytjatexta (Stefán Briem 2001). Fréttir af þýðingarvél úr smiðju Stefáns birtust svo aftur í fjölmiðlum nokkrum árum síðar þegar hann opnaði vefsetrið tungutorg.is. Tungutorg opnaði í mars 2008 og þar var boðið upp á þýðingarvélar sem þýddu úr esperanto á íslensku, í báðar áttir á milli ensku og íslensku og úr íslensku yfir á dönsku (Fréttablaðið, 28. mars 2008).

Glerbygging sést og vísar myndavél upp á við. Merki google fyrir miðju á byggingu.
Árið 2009 var íslensku bætt inn í Google Translate.
Adarsh Chauhan / Unsplash

Um ári eftir að Stefán setti Tungutorg í loftið urðu þau tíðindi að íslenska varð eitt þeirra tungumála sem hægt var að vinna með í Google Translate sem þá var orðið vinsælasta þýðingarkerfið á netinu. Um svipað leyti unnu Martha Dís Brandt, Hrafn Loftsson og samstarfsmenn þeirra við Háskólann í Reykjavík að hönnun reglubyggðs vélþýðingarkerfis úr íslensku á ensku (Martha Dís Brandt o.fl. 2011) sem var grundvallað á Apertium, opnu kerfi sem hefur verið vinsælt fyrir tungumál sem búa við það að lítið er til af gögnum á stafrænu formi sem nýtast við þróun vélþýðingarkerfa. Eftir að frumútgáfa af því kerfi var gerð fer ekki miklum sögum af vinnu við þróun vélþýðingarkerfa á Íslandi næstu árin. Það var ekki fyrr en í tengslum við máltækniáætlun fyrir íslensku, sem stjórnvöld settu á laggirnar og var rekin á árunum 2019–2023, að aftur var hafist handa við þróun þýðingarvéla á Íslandi. Nú var nýjustu aðferðum beitt, svokölluðum tauganetum, sem gátu framkallað mun læsilegri texta en eldri kerfi höfðu gert, hvort sem það voru reglubyggðar þýðingarvélar eða kerfi sem byggðu á tölfræðilegum aðferðum, en þau höfðu íslenskir fræðimenn í máltækni raunar lítið fengist við.

Vélþýðingarkerfi sem byggja á tauganetum eru frábrugðin eldri kerfum þar sem ekki þarf að skilgreina neinar reglur eða smíða orðasöfn. Á hinn bóginn þarf að mata þau á mjög stóru safni samhliða setninga. Samhliða setningar eru pör setninga á tveimur tungumálum, þar sem önnur setningin er þýðing á hinni. Á Árnastofnun var búið til safn slíkra setninga og gert aðgengilegt árið 2019. Setningasafnið, eða samhliða málheildin, byggði að miklu leyti á þýðingum á reglugerðum og tilskipunum tengdum EES-samningnum. Það réðist af því að bæði upprunalegi textinn og íslensku þýðingarnar eru tiltækar og öllum aðgengilegar á netinu. Máltæknifyrirtækið Miðeind nýtti meðal annars þessi gögn til að smíða vélþýðingarlíkön sem byggðu á tauganetum og gerði þau aðgengileg á vefsetrinu vélþýðing.is.

Annað sem haft hefur mikil áhrif á vélþýðingar fyrir íslensku undanfarin ár er að íslenska var eitt viðfangsmála WMT-ráðstefnunnar árið 2021, en WMT ráðstefnan er vélþýðingarráðstefna sem haldin er ár hvert og er sú stærsta á þessu sviði í heiminum. Í tengslum við hana er haldin keppni þar sem nokkur tungumál eru valin og rannsóknarhópar og fyrirtæki alls staðar að úr heiminum keppast við að smíða bestu þýðingarkerfin fyrir þau. Í tengslum við keppnina eru gefin út gögn sem notuð eru til að meta getu þýðingarkerfa sem vinna með tungumálin. Mæligögnin sem voru búin til 2021 hafa síðan verið notuð af fjölmörgum rannsóknarhópum víða um heim og orðið til þess að víða hafa verið gerðar tilraunir með vélþýðingar bæði á íslensku og úr íslensku. Íslenska var svo aftur valin í keppnina árið 2024. Þá varð risamállíkanið Claude hlutskarpast og stóð sig best í þýðingum úr ensku á íslensku. Kerfi sem þróað var á Árnastofnun náði fjórða sæti af tuttugu og skaut bæði Google Translate og GPT-4 ref fyrir rass (Kocmi o.fl. 2024).

Helstu niðurstöður keppninnar í fyrra, og þar með staða tækninnar í dag, eru að framtíð vélþýðinga virðist liggja í stórum mállíkönum. Vel þekkt dæmi um slík líkön eru Claude, ChatGPT og DeepSeek en heilmikil gróska er í þróun og útgáfu opinna líkana sem hægt er að þjálfa og fínstilla til að þýða texta á milli tveggja eða fleiri tungumála. Sú aðferðafræði er um þessar mundir að valda enn einni byltingunni í vélþýðingatækni. Þegar hún er notuð til að þjálfa þýðingarvélar þarf ekki nema tiltölulega fáar samhliða setningar. Á hinn bóginn þarf mun meira af einmála textum á þeim tungumálum sem kerfið á að vinna með, en slíkir textar eru jafnan aðgengilegri og margfalt fleiri en tvímála textar.

Einn stærsti kostur stórra mállíkana er að hægt er að framkalla með þeim texta á máli sem virðist mun eðlilegra en hægt var með eldri kerfum. Það getur verið afar hjálplegt ýmsum, en þó skal hafa í huga að þýðingarvélar eru ennþá bara það, vélar. Þær hugsa ekki, heldur framkalla texta með því að beita flóknum líkindareikningi og mynsturgreiningu. Ýmsar skekkjur og bjagar eru því innbyggð í kerfin, nokkurs konar fordómar sem koma úr þeim textum sem þau hafa verið mötuð á. Þær geta því enn gert mistök, og gera þau, þó minna sé um það en áður. Því gildir enn sem fyrr að taka beri úttaki þýðingarvéla með gagnrýnum hug og að varhugavert er að nota þýðingarvélar á sviðum þar sem mikið er í húfi, t.d. við að þýða texta sem tengjast heilbrigðismálum, lagalegum álitaefnum eða á öðrum sviðum þar sem lykilatriði er að rétt merking og óbjöguð komist til skila á milli tungumála.

Birt þann 12. mars 2025
Síðast breytt 13. mars 2025
Heimildir

Stefán Briem. 1988. Vélrænar tungumálaþýðingar, rannsóknarskýrsla. Höfundur sá um útgáfuna. Reykjavík.
Stefán Briem. 2001. Vélrænar tungumálaþýðingar í ljósi reynslunnar. Tölvumál – 4. tölublað. 2001.
Fréttablaðið. 2008. Ókeypis þýðingarvél sem skilur íslensku. 28. mars.
Martha Dís Brandt o.fl. 2011. Apertium-IceNLP: A rule-based Icelandic to English machine translation system. Í Proceedings of the 15th Annual Conference of the European
Association for Machine Translation. European Association for Machine Translation.
Tom Kocmi o.fl. 2024. Findings of the WMT24 General Machine Translation Shared Task: The LLM Era Is Here but MT Is Not Solved Yet. Í Proceedings of the Ninth Conference on Machine Translation. Association for Computational Linguistics.