Meistarafyrirlestur í tölvunarfræði
Vélræn leiðrétting á íslenskum ljóslesnum texta
Jón F. Daðason
miðvikudaginn 16. maí kl. 16:00 í stofu 158 í VR-II
Útdráttur
Efni þessa verkefnis er leiðrétting á ljóslesnum (e. optical character recognized, OCR) íslenskum texta. Tvær aðferðir til að leiðrétta ljóslestrarvillur í íslenskum texta eru þróaðar og síðan metnar á villum í ljóslestrarverkefni sem Alþingi stendur að. Fyrri aðferðin byggir á líkani fyrir leiðréttingu á stafsetningarvillum sem orsakast af truflunum í samskiptarásum (e. noisy channel spelling correction). Hún er notuð til að leiðrétta ósamhengisháðar villur, þ.e. villur þar sem ljóslestur á orði misheppnast þannig að orð breytist í annað orð sem ekki er til í íslensku. Með þessari aðferð reynist unnt að leiðrétta 92,9% af slíkum villum þegar aðferðinni er beitt á safn ljóslesinna þingræðna úr Alþingisverkefninu (samtals 47 milljón lesmálsorð frá árunum 1959-1988). Seinni aðferðin notar vélrænan Winnow flokkara og er beitt á samhengisháðar villur, þ.e. orð þar sem ljóslestur hefur mistekist þannig að orð breytist í annað orð sem þó er til í íslensku. Winnow flokkari getur leiðrétt slíkar ljóslestrarvillur með því að finna orð sem falla ekki að því samhengi sem þau koma fyrir í og stinga upp á öðrum orðum í staðinn sem eru líklegri til að vera rétt. Með þeirri aðferð tekst að lagfæra 78,4% af öllum samhengisháðum villum í þessu sama textasafni. Þegar báðum aðferðunum er beitt á þetta safn reynist unnt að lagfæra 92,0% af öllum villum.
Leiðbeinendur: Sven Þ. Sigurðsson, prófessor við Iðnaðarverkfræði-, vélaverkfræði- og tölvunarfræðideild H.Í, og Kristín Bjarnadóttir, rannsóknarlektor við Stofnun Árna Magnússonar í íslenskum fræðum.
Prófdómari: Hrafn Loftsson, dósent við Tölvunarfræðideild Háskólans í Reykjavík.