Skip to main content

Fréttir

Setningafræðilega greindur textabanki

Undanfarið hefur verið unnið að IcePaHC (Icelandic Parsed Historical Corpus), setningafræðilega greindum textabanka frá öllum öldum íslenskrar ritaldar. Þessu verki er nú lokið - búið er að greina eina milljón orða, u.þ.b. 100 þúsund frá hverri öld. Þar með er þetta orðið einn stærsti banki sinnar tegundar í heiminum. Bankinn verður hjálpartæki við rannsóknir á íslensku máli og þróun þess. Greiningarskemað er sniðið að því skema sem er notað í sögulegum enskum textabönkum (Penn Parsed Corpora of Historical English, www.ling.upenn.edu/hist-corpora) sem auðveldar margs konar forvitnilegan samanburð við þróun enskunnar, auk þess sem unnið er að greiningu fleiri tungumála með hliðstæðu skema.

Bankinn hefur verið unninn fyrir styrki frá Rannsóknasjóði, National Science Foundation í Bandaríkjunum, og Rannsóknasjóði Háskóla Íslands. Hann er gefinn út með LGPL-leyfi (lesser generalized public license) sem táknar að hann er öllum opinn og aðgengilegur til hvers konar nota, án greiðslu. Hægt verður að sækja hann í heild, ásamt viðeigandi leitarhugbúnaði, á

Athugið að lokaútgáfan er ekki enn komin inn.

Í tilefni verkloka við smíði textabankans verður útgáfuhátíð hans haldin miðvikudaginn 24. ágúst kl. 16:00 í stofu 201 í Árnagarði. Þar munu höfundar bankans, Joel Wallenberg, Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur Rögnvaldsson, segja frá vinnunni við gerð bankans og sýna dæmi um gagnsemi hans. Kynningin er öllum opin.