Skip to main content

Pistlar

Úr tali yfir í texta: um sjálfvirkar uppskriftir þjóðfræðisafns Árnastofnunar

Þjóðfræðisafn Árnastofnunar geymir yfir 2000 klukkustundir af ýmiss konar þjóðfræðiefni. Efnið samanstendur meðal annars af frásögnum af lífi fólks og þjóðháttum snemma á síðustu öld, sögnum og ævintýrum, söng, þulum, rímum og hljóðfæraleik. Stór hluti efnisins var hljóðritaður á árunum 1960 til 1980 af Hallfreði Erni Eiríkssyni, Helgu Jóhannsdóttur og Jóni Samsonarsyni. Þau ferðuðust um landið og töluðu við fólk − mikið til eldra fólk − og spurðu þau spjörunum úr. Þannig safnaðist upp gríðarmikið efni, en í þjóðfræðisafninu má líka finna eldra efni héðan og þaðan og voru elstu upptökurnar teknar upp á vaxhólka á árunum 1903−1912. Auk efnis sem hljóðritað var á Íslandi er í safninu einnig varðveitt efni úr Vesturheimi. Í safninu er að finna yfir 2500 heimildarmenn sem margir eru fæddir seint á 19. öld og þess má til gamans geta að elsti viðmælandinn var fæddur 1827. 

Hrúga af kassettum, spólum, geisladiskum, floppy-diskum o.fl.
Hljóðrit á ýmsum miðlum.
Rósa Þorsteinsdóttir

Miðlun hljóðrita í takt við tímann 

Safnið hefur í gegnum tíðina færst á milli ýmiss konar miðla eftir því sem tækninni hefur fleygt fram. Þannig var árið 1984 byrjað að færa efnið yfir á vandaðri segulbönd og um tíu árum síðar var byrjað að skrá safnið í tölvu og nokkrum árum seinna var hafist handa við að flytja hljóðritanir yfir á stafrænt form. Nú má leita í þjóðfræðisafninu og hlusta á upptökurnar á vefnum Ísmús.

Á þessu ári (2023) lauk síðan enn einum áfanga og hefur efnið í raun verið flutt yfir á enn einn miðilinn. Í gegnum Miðstöð stafrænna hugvísinda og lista fékkst styrkur úr Innviðasjóði Rannís til að þjálfa talgreini sem gæti flutt hið talaða mál hljóðritanna yfir í texta sem hægt er að leita í og lesa. Verkefnið var unnið að hluta til hjá Árnastofnun en meirihluti vinnunnar var í höndum máltæknifyrirtækisins Tíró sem meðal annars hefur áður þróað talgreini fyrir Alþingi. 

Aldur hljóðrita var áskorun 

Upptökur þjóðfræðisafnsins voru ákveðin áskorun fyrir talgreininn sem fram að þessu hafði að mestu verið þjálfaður á mun yngri upptökum og miðaður við málfar nær okkur í tíma heldur en finna má í þjóðfræðisafninu. Einnig er mikilvægt að hafa í huga að viðmælendur þjóðfræðisafnsins eru langoftast eldra fólk. Fleiri þættir spila líka inn í því að í viðtölunum eru stundum fleiri en einn viðmælandi, hljóðgæði eru stundum léleg og umhverfishljóð eru gjarnan að trufla, svo sem umgangur annars fólks, klukknahringingar, að ógleymdum sveitarsímum sem hringja. 

Þjálfun talgreinisins fólst í því að mata hann á gögnum sem hjálpa honum að „skilja“ upptökurnar og breyta töluðu máli í texta. Þessi þjálfun fólst í því að taka um 140 klukkustundir af uppskriftum sem til voru og tengja saman hljóð og texta með því að merkja hvert orð í textanum með tímasetningunni þar sem það kemur fyrir í hljóðinu. Eftir nokkrar umferðir af þjálfun, prófunum og leiðréttingum, ásamt því að fleiri gögn voru notuð til að styðja við þjálfunina, kom að því að endanleg niðurstaða fékkst og talgreinirinn hófst handa við að greina allar upptökurnar, rúmlega 2000 klukkustundir af efni. 

Gerbylting í aðgengi að þjóðfræðisafninu 

Haustið 2023 voru sjálfvirku uppskriftirnar gerðar aðgengilegar á vefnum Ísmús þar sem hægt er að leita í þeim og lesa þær um leið og hlustað er á upptökurnar. Eins og búist var við frá upphafi eru þær ekki fullkomnar en niðurstaðan er þó talsvert betri en vonir stóðu til. Bestu niðurstöðurnar fengust úr upptökum af frásögnum en þar sem um söng eða kveðskap er að ræða eru niðurstöðurnar verri þó að þær séu furðu góðar í sumum tilfellum. Þrátt fyrir ýmsar villur er um að ræða gerbyltingu í aðgengi að þjóðfræðisafninu. Þjóðfræðirannsóknir þar sem leitað er gagna í hljóðritunum hafa fram að þessu krafist þess að hlustað sé á þær upptökur sem rannsakendur telja að innihaldi efni sem kemur að notum. Nú verður ekki lengur þörf á því þar sem leita má í viðtölunum sjálfum og lesa textann. 

Dæmi um sjálfvirkar uppskriftir 

Hér má sjá dæmi um uppskrift af stuttu kvæði sem flutt er af Sólrúnu Helgu Guðjónsdóttur (1899−1985), tekið upp árið 1970. Kvæðið ber yfirskriftina „Á undan þér ef umlandi gengur“ en talgreinirinn telur það reyndar vera „Á undan þér ef um landið ég geng“ sem er þó ekki svo fjarri lagi.

00:02 Á undan þér ef um landið ég geng ekki muntu lifa þá lengur drottinn mun þig draga til sinna dauðinn mun á flestöllum vinna 
00:18 Á undan þér ef um landið ég geng ekki muntu lifa þá lengur drottinn þig draga til sinna dauðinn mun á flestöllum vinna 
00:33 lærði aldrei neitt saman myndir hressilega 
00:36 nei það held ég ekki


Hér er svo dæmi um uppskrift af frásögn um Úlfsvatn á Vörðufjalli þar sem fiskur á aldrei að hafa þrifist og þar nær talgreinirinn öllu nokkuð réttu, þar á meðal örnefnum.

00:01 en ég hef verið nokkurs staðar vatnaskrattar eins og ull 
00:06 loðsilungur eða eitthvað slíkt loðsilung og 
00:11 nei það var nú sagt að það hefði nú kannski 
00:14 orðið í Vörðufjalli 
00:17 vatninu á Vörðufelli Úlfsvatni 
00:20 fyrir ófriði á milli tveggja kerlinga hefði orðið óætur silungurinn 
00:26 það er enginn fiskur í vatninu 
00:29 og munnmæli eru um það að það er aldrei að það verði aldrei veiði þar en hafði verið veiði áður og það er nú svo skrýtið það hefði verið látið í það silungur núna í mörg ár 
00:45 fyrst var það látið líklega svona 
00:50 nítján hundruð og tíu til fimmtán þá og láta hana átti hann nokkrar bleikjur úr 
00:58 Apavatni og þegar ég var stráklingur þá sá ég dauðann smásilung við landið þar síðan hefur verið látið éta klak 
01:09 seiði bleiku seiði 
01:12 tvisvar eða þrisvar sinnum það hafi verið borið við að lækjarsilungur 
01:18 svo var fyrir nokkrum árum lagt í þetta net og átti að vita hvort það væri fiskur og það varð ekki vart við neitt svo þetta er dálítið kyndugt 
01:26 en ég trúi því ekki að það sé ekki silungur í eitthvað 
Birt þann 9. október 2023
Síðast breytt 24. október 2023