Skip to main content

Röskun verður á þjónustu Árnastofnunar næstu mánuði. Sjá nánar.

Textasöfn

Textasöfn
Risamálheildin
Risamálheildin er safn með um 1.250 milljónum orða sem inniheldur fréttir, alþingisræður, dóma, lög og reglugerðir, bloggfærslur og greinar af netinu, texta Wikipediu og Vísindavefsins og útgefnar bækur.
Íslenskt textasafn
Í Íslensku textasafni eru gamlir og nýir textar af ýmsum toga sem skiptast á milli 30 efnisflokka, samtals um 60 milljónir lesmálsorða. Textasafnið er mikilvægt hjálpargagn þeim sem fást við rannsóknir sem varða íslenskt mál, sagnfræði o.fl.
Mörkuð íslensk málheild
Safn með um 25 milljónum orða af fjölbreyttum textum sem eru geymdir í stöðluðu sniði í rafrænu formi. Orð í textunum eru greind málfræðilega og hverjum texta fylgja bókfræðilegar upplýsingar um verkið sem textinn er úr. Málheildin er ætluð fyrir málrannsóknir og til notkunar í máltækniverkefnum. Hér er tengill á leitarsíðu en í gegnum www.málföng.is má sækja textana til notkunar í máltækniverkefnum.
Orðstöðulyklar
Orðstöðulykill er skrá yfir orðmyndir sem koma fyrir í tilteknum texta eða textum, ásamt upplýsingum um nánasta samhengi þeirra. Gerðir hafa verið slíkir orðstöðulyklar fyrir nokkra texta og textaflokkar úr textasafninu. Þetta eru einkum gamlir textar sem ekki eru háðir höfundarétti eða textar sem leyfi hefur fengist til að nota í þessu samhengi.