Skip to main content

Fréttir

Leiðrétting á ljóslesnum textum 2. nóvember. Fyrirlesarar: Kristín Bjarnadóttir og Jón Friðrik Daðason

Annar fyrirlestur Máltækniseturs á þessum vetri verður haldinn í stofu 201 í Árnagarði þriðjudaginn 2. nóvember kl. 12:00-13:00. Fyrirlesarar eru Kristín Bjarnadóttir rannsóknarlektor og Jón Friðrik Daðason tölvunarfræðinemi og nefnist erindi þeirra „Leiðrétting á ljóslesnum textum“.

Á orðfræðisviði Stofnunar Árna Magnússonar í íslenskum fræðum er nú unnið að því að koma upp safni af íslenskum blaða- og nytjatextum frá síðari hluta 19. aldar til upphafs 20. aldar (hér kallað ÍBN 19s-20f). Safnið er ætlað til rannsókna á málfari þessa tíma. Textarnir eru frá Landsbókasafni-Háskólabókasafni, af timarit.is.

Verkefnið Leiðrétting á ljóslesnum textum hófst í vor, sem hluti af átaki Vinnumálastofnunar, 856 störf. Markmið verkefnisins er að þróa aðferðir og hugbúnað til leiðréttingar á textunum í ÍBN 19s-20f. Þeir hafa verið myndaðir og ljóslesnir með ágætum árangri en eigi að síður er mikið af ýmiss konar villum í textaskránum. Samkvæmt athugun í sumar eru villur í um 20% af orðunum og þessar villur takmarka notagildi textanna verulega, bæði til málfræðirannsókna, textaleitar og textameðferðar yfirleitt.

Tilgangurinn með verkefninu er að koma upp búnaði sem gerir vélrænar leiðréttingar mögulegar. Þessi leiðréttingarbúnaður og aðferðir eru hinn beini afrakstur verkefnisins og þáttur í því að koma upp safninu ÍBN 19s-20f. Sami búnaður getur síðan nýst beint fyrir aðra 19. aldar texta, jafnvel fyrir tímaritasafnið í heild. Með lítilli aðlögun ættu sömu aðferðir einnig að duga fyrir enn eldri texta. Tilvist slíks búnaðar myndi gera skönnun á eldri textum fýsilegri kost en áður, t.d. við endurútgáfu á gömlum verkum.

Samkvæmt fyrstu niðurstöðum úr prófun á litlu úrtaki er hægt að leiðrétta allt að 66% af villum í ljóslesnum textum í ÍBN 19s-20f.