Þriðjudaginn 25. apríl varði Steinþór Steingrímsson, verkefnisstjóri í upplýsingatækni á Stofnun Árna Magnússonar í íslenskum fræðum, doktorsritgerð sína við Háskólann í Reykjavík. Titill ritgerðarinnar er „Effectively Compiling Parallel Corpora for Machine Translation in Resource-Scarce Conditions".
Í ritgerðinni er fjallað um hvernig best er að setja saman þjálfunargögn fyrir þýðingarvélar þannig að hægt sé að nýta sem allra mest af því sem gagnast við þjálfun þýðingarvéla en fjarlægja það sem gæti dregið úr gæðum vélanna, með sérstöku tilliti til tungumála þar sem gagnamagn er takmarkað.
Áreiðanleg þjálfunargögn eru lykillinn að því að þýðingarvélar, hugbúnaður sem þýðir á milli tungumála, myndi setningar sem eru í senn læsilegar og koma merkingu rétt til skila í þýðingum. Villur í gögnum sem notuð eru í þjálfunarferlinu geta haft skaðleg áhrif á virkni þýðingarvéla og dregið úr gæðum þýðinga sem vélarnar skila. Þessar villur í gögnunum geta komið til vegna þess að setningar eru ekki paraðar rétt saman, þetta geta verið þýðingarvillur, stafsetningarvillur eða aðrir minni eða meiri háttar meinbugir á textanum. Þess vegna eru slík gögn hreinsuð með ýmsum aðferðum áður en þjálfunarferlið hefst. Í því ferli er þeim setningapörum hent sem sjálfvirkar aðferðir meta svo að vafi leiki á að séu í lagi. En þegar skortur er á þjálfunargögnum tekst þýðingarvélunum hins vegar ekki mjög vel að „læra“ réttar þýðingar eða hvernig mynda á setningar á markmálinu. Flest tungumál búa við skort á gögnum sem geta nýst í þessum tilgangi og því er mikilvægt að nýta gögnin sem best.
Bornar eru saman aðferðir til að para saman setningar á mismunandi tungumálum og til að hreinsa burt, laga og endurnýta setningapör sem nýtast ekki til þjálfunar þýðingarvéla eða eru jafnvel skaðleg í óbreyttri mynd. Þá er einnig sýnt fram á að vel hreinsuð gagnasöfn auki gæði þýðingarvéla, flýti fyrir þjálfun þeirra og geri það mögulegt að smíða minni þýðingarlíkön sem draga úr orkuþörf og mögulegri mengun sem hlotist getur af notkun þungra mállíkana.
Aðalleiðbeinandi var Hrafn Loftsson, dósent við Háskólann í Reykjavík. Meðleiðbeinandi var Andy Way, prófessor við Dublin City University.