Skip to main content

News

Hildur Jónsdóttir vinnur að meistaraverkefni í máltækni um íslenska venslamálfræði og venslatrjábanka

Í meistaraverkefninu er tilraun gerð til að nota norskan þáttara við að þátta íslenskan texta með aflexíkalíseruðu mállíkani (e. delexicalized model). Í aflexíkalíseruðu mállíkani er búið að fjarlægja orðmyndir og uppflettimyndir úr líkaninu, eftir standa upplýsingar um orðflokk og beygingu, vensl og tegund vensla. Þessum líkönum er því hægt að beita á ólík tungumál og geta nýst vel á skyldum málum. Trjábankar eru textasöfn sem innihalda setningarfræðilega greiningu. Þeir eru lykillinn að því að þjálfa þáttara en íslenskur þáttari gæti stutt við þróun á fjölbreyttum máltækniverkefnum t.d. leiðréttingarforriti, vélrænum þýðingum, upplýsingaútdráttum, talgervingu og talgreiningu. Fyrstu tilraunir hafa gefið góða raun. Þáttunin byggir á venslamálfræði sem hefur notið mikilla vinsælda í máltækni m.a. vegna þess að algrím fyrir venslaþáttara þykja einföld og hröð.

Í febrúar síðastliðnum hlaut verkefnið á Árnastofnun, UniTree, styrk úr Markáætlun í tungu og tækni til að varpa íslenska liðgerðartrjábankanum IcePaHC í venslatrjábanka. Jafnframt verður trjábankinn stækkaður um 100.000 orð úr nútímaíslensku. Nýi venslatrjábankinn verður hluti af alþjóðlegu verkefni, Universal Dependencies (UD), sem inniheldur meira en 100 trjábanka á yfir 70 tungumálum og eru allir byggðir á samræmdu greiningarskema. Þetta gjörbreytir rannsóknum og máltæknivinnu sem er þvermálleg (e. cross-lingual studies). Vonast er til þess að með þátttöku í UD eigi íslenska möguleika á að vera með í alþjóðlegum rannsóknum og þróun í máltækni. Einar Freyr Sigurðsson rannsóknarlektor við Árnastofnun er verkefnisstjóri UniTree og leiðbeinandi meistaraverkefnisins er Anton Karl Ingason lektor við HÍ.

Hildur Jónsdóttir er með BA gráðu í latínu og íslensku frá Háskóla Íslands og hefur unnið í gæðamálum í hugbúnaðargerð síðan 2005. Hún á fjölskyldu, er í björgunarsveit og spilar á selló.