Digitointiurakkaa riittää

Kansalliskirjasto tallentaa Mikkelissä yli kaksi miljoonaa sivua vuodessa

Suomessa on käynnissä iso digitalisointiurakka. Kansalliskokoelma siirtyy paperilta ja mikrofilmiltä biteiksi Mikkelissä, missä Kansalliskirjasto digitoi aineistoja reilun kahden miljoonan sivun vuositahdilla.

– Tällä hetkellä meneillään olevat isot tuotannot ovat kirineet tahtia. Olemme saaneet täydentävää rahoitusta mm. kaikkien ruotsinkielisten lehtien digitointiin sekä Helsingin Sanomien ja Ilta-Sanomien digitointiin vuoteen 1979 saakka, sanoo Kansalliskirjaston palvelujohtaja Johanna Lilja.

Palvelujohtaja Johanna Lilja, Kansalliskirjasto

Kansalliskirjasto digitoi pääasiassa suomalaisista julkaisuista koostuvaa kansalliskokoelmaa sekä lisäksi joitakin uniikkeja ulkomaisia aineistoja. Kansalliskokoelman aineiston tarkkaa nimekemäärää ei tiedetä, koska osa siihen kuuluvista kokoelmista on luetteloimatonta, esimerkiksi pienpainatteet, jotka on vain järjestetty koteloihin. 

– Tästä syystä on mahdotonta antaa digitoidulle aineistolle tarkkaa prosenttiosuutta. Karkea arvaus on, että kansalliskokoelmasta on digitoitu 3–5 prosenttia.

Kansainvälinen vertailukin on Liljan mukaan vaikeaa. Maissa, joissa on suppeampi julkaisutuotanto tai runsaasti varoja, on voitu digitoida kansalliset kokoelmat varsin kattavasti, mutta monissa muissa maissa sanomalehtidigitoinnissa mennään aika samaa tahtia tai hitaammin kuin Suomessa. Tällä hetkellä on digitoitu kaikki sanomalehdet 1940-luvulle sekä vuodesta 2017 nykypäivään. Kirjoista työn alla on juuri Ruotsin ajan kokoelmaa eli vuosia 1488–1809.  Digitoinnin kohteet määritellään digitointiohjelmassa https://urn.fi/URN:ISBN:978-951-51-6993-8.

Kansalliskirjaston Mikkelin toimipisteen rooli digitoinnissa on aivan keskeinen. Helsingissä digitoidaan vain asiakastilauksia eikä Kansalliskirjasto käytä ulkoistettuja palveluja. 

Mikkelin toimipisteessä on tällä hetkellä 37 henkilöä, joista kaikki eivät ole digitoijia. Joukossa on konservaattoreita, tietojärjestelmäasiantuntijoita, digitaalisten ihmistieteiden tutkimusprojekteja koordinoivia ja yksi residenssitutkija.

– Toistaiseksi Mikkeliin on löytynyt erinomaisia työntekijöitä ja tietysti toivomme, että löytyy jatkossakin. Olemme myös osallistuneet Xamk:in digitoijakoulutuksiin kouluttajina ja harjoittelun ohjaajina. 

Tänä ja ensi vuonna Mikkelin toimipiste keskittyy meneillään oleviin suuriin lehtihankkeisiin ja Ruotsin ajan kirjallisuuden digitointiprojektiin. 

– Uusia hankkeita alamme pohjustaa ensi vuonna. Jos toiminta laajenee paljon, nousee tietysti esiin kysymyksiä tilojen ja laitekannan riittävyydestä, Lilja toteaa.

Digitoituja sanomalehtiä käytetään runsaasti tieteellisessä tutkimuksessa sekä perinteisesti lukemalla että uusin menetelmin, joita ovat muun muassa tiedonlouhinta ja koneoppiminen.

Tänä vuonna alkanut suuri kansallinen FIN-CLARIAH -hanke rakentaa yhteistä alustaa, johon voidaan viedä moninaisia aineistoja analysoitavaksi. Mukana kehittelyssä on useita yliopistoja, tieteen tietotekniikkapalveluita tuottava CSC ja Kansalliskirjasto. 

– Datana uuteen palveluun toimitetaan tässä vaiheessa tekijänoikeudesta vapaa aineisto. Tekijänoikeuden asettamiin rajoituksiin joudumme etsimään ratkaisuja jatkossakin. Parhaillaan odotamme kuitenkin, millaisen tekijänoikeuslain eduskunta piakkoin säätää, sanoo Lilja.

Digitoija Marja-Leena Kokkonen, Kansalliskirjasto

Digitointiin liittyvä koneellinen tekstintunnistus on Kansalliskirjaston tietojärjestelmäasiantuntija Juha Rautiaisen mukaan kehittynyt kaiken aikaa.

Kansalliskirjaston mikkeliläisiä asiantuntijoita oli mukana tutkimusprojektissa, jossa käsin kirjoitetun tekstin tunnistamiseen kehitettyä tekniikkaa sovitettiin painettujen aineistojen tekstintunnistukseen soveltuvaksi.

– Projektin päätyttyä Mikkelissä on tarkkailtu tekstintunnistuksen laatua. Koneoppimismalleja on tarvittaessa säädetty paremmin kyseiselle aineistolle sopivaksi ja lehtiä on sen jälkeen käsitelty uudelleen, Rautiainen sanoo.

Uudistuneen tekniikan myötä Kansalliskirjastossa on päätetty teettää nykytekniikalla uusi tekstintunnistus vanhimmille digitoiduille sanomalehdille, joissa käytetty fraktuura on ollut aiemmin varsin virhealtis tunnistettava.

Uudelleen tunnistetut 1900-luvun alun ja sitä vanhemmat lehdet ovat jo pääosin käytettävissä digi.kansalliskirjasto.fi:ssä.

Juttu: Tapio Honkamaa
Kuva: Kansalliskirjaston arkisto
Kuva: Ulla Jurvanen