Muuttaako koneluenta käsinkirjoitettujen aineistojen tutkimusta? 1


Kansallisarkistossa järjestettiin 26.6.2019 käsinkirjoitetun tekstin koneluentaan keskittynyt Reading and Enrichment of Archival Documents (READ) -hankkeen päätösseminaari. Hanke on Euroopan Unionin rahoittama (Horizon 2020) konsortio ja se on ollut käynnissä tammikuusta 2016 ja päättyy nyt kesäkuun lopussa. Hanketta on johdettu Innsbruckin yliopistosta. Suomesta hankkeessa on ollut mukana Kansallisarkisto.

Seminaarissa esiteltiin aamupäivällä hankkeessa kehitettyä Transkribus-sovellusta, josta myöhemmin lisää. Iltapäivän esitelmöitsijät Svenska Litteratursällskapet i Finlandista (SLS), Amsterdamin kaupungin arkistosta sekä Kansallisarkistosta kertoivat kokemuksiaan sovelluksen käytöstä erilaisten arkistomateriaalien kanssa. Päivän lopuksi eri alojen asiantuntijoista koostettu paneeli keskusteli yleisesti Transkribuksesta sekä arkistojen ja arkistoaineistojen digitalisoitumisesta.

Yksi READ-hankkeen merkittävimmistä tuloksista on Transkribus-sovellus, joka lukee käsinkirjoitettua tekstiä ja mahdollistaa monenlaisen työskentelyn käsinkirjoitettujen dokumenttien kanssa. Ohjelman avulla voi esimerkiksi opetella lukemaan eri aikakausien käsialoja, mutta tutkijoille ja muille historiallisten käsinkirjoitettujen aineistojen kanssa aikaansa viettäville Transkribus tarjoaa mahdollisuuden uudenlaiseen työskentelyyn lähteiden parissa.

Transkribuksen yhteydessä on käytetty kuvituksena Albrect Dürerin luomaa wolpertinger-olentoa eli jänistä, jolla on siivet ja sarvet. Kuva: Wikimedia Commons

Transkribus-sovelluksen voi ladata ilmaiseksi ja sovelluksen internetsivuilta löytyvät selkeät ohjeet ohjelman käytöstä. Sovelluksen käyttäjällä tulee olla hallussaan tutkittava materiaali kuvina. Kuvat ladataan ohjelmaan ja tämän jälkeen Transkribus koulutetaan tunnistamaan kyseisille dokumenteille ominaiset tekstialueet ja lukemaan kyseistä käsialaa eli luodaan malli, jota sovellus käyttää tekstiä lukiessaan.

Ohjelmaa tulee kouluttaa vähintään noin sadan sivun verran lukemaan tiettyä käsialaa. Luotua mallia voidaan soveltaa muuhun samankaltaiseen ja samalta ajalta olevaan aineistoon ja eri malleja voidaan Transkribuksessa myös yhdistää. Tällaisia malleja on jo luotu erilaisiin aineistoihin keskiaikaisista dokumenteista 1900-luvun materiaaleihin. Parhaan mahdollisen tuloksen saamiseksi, kannattaa kuitenkin edelleen luoda oma malli sille aineistolle, jonka kanssa työskentelee ellei aineisto muistuta läheisesti jotain jo ohjelmaan vietyä aineistoa.

Yksi tällainen luotu malli on tehty suomalaisten 1800-luvun tuomiokirjojen ilmoitusasioista ja sitä voidaan käyttää myös laajemmin 1800-luvun tuomiokirjamateriaaliin. Tulokset tämän mallin käytöstä ovat olleet erinomaisia ja mallin tekemien virheiden määrä on vähäinen. Seminaarissa tuotiinkin esiin, että Transkribusta on onnistuttu kehittämään kahden viime vuoden aikana niin, että ohjelman lukutulos on parantunut huomattavasti. Joskin useat osallistuvat muistuttivat, ettei ole tarkoituskaan pyrkiä virheettömään suoritukseen.

Transkribus mahdollistaa tekstimassan muuttamisen käsinkirjoitetusta koneymmärrettävään muotoon (analogisesta aineistosta aidosti digitaaliseksi) sekä muun muassa avainsanahaun sovellukseen ladattuihin aineistoihin. Esimerkiksi 1800-luvun tuomiokirjamateriaaliin voidaan tehdä hakuja henkilön ja paikannimillä tai esimerkiksi rikosnimikkeillä. Tuomiokirjatutkijana nämä mahdollisuudet tuntuvat suorastaan häkellyttävän hienoilta.  Kansallisarkiston tavoitteena on, että 1800-luvun tuomiokirjamateriaalit tulisivat yleisön käyttöön syksyn 2019 aikana.

Vanhempien aikojen ja erityisesti 1600-luvun kaupunkihistoriaan keskittyvänä tutkijana, toivoisin todella, että Kansallisarkistossa käynnistettäisiin vastaava projekti myös 1600- ja 1700-lukujen tuomiokirjamateriaaleille, jotka muodostavat yhden merkittävimmistä lähderyhmistämme kyseisiltä vuosisadoilta. Tuomiokirjatutkimusta 1600-luvun osalta toki helpottaa jo pitkään käytössä ollut ja digitoitu Tuomiokirjakortisto eli Tuokko, mutta Tuokko koskee vain osaa Suomen alueella toimineista tuomioistuimista eikä se sisällä lainkaan kaupunkeja. Kaupunkien osalta tuomiokirjoista tietoa etsittäessä tulee kirjoja edelleen selata sivu sivulta löytääkseen tarvitsemansa informaation. Toki useimmissa kaupunkien tuomioistuinten tuomiokirjoissa on henkilöhakemisto, mutta se ei helpota tutkimusta juurikaan.

Uuden ajan alun tuomiokirjamateriaalien vieminen Transkribukseen mahdollistaisi tutkimuksen teon näillä aineistoilla entistä monipuolisemmin ja tekisi tuomiokirjamateriaalista lähestyttävämmän lähderyhmän opiskelijoille, tutkijoille ja sukututkijoille. Valitettavasti suureksi kysymykseksi nousee tässäkin raha. Kansallisarkistossa aineistoista ja niiden digitoinnista vastaava johtaja Istvan Kecskemeti totesikin paneelikeskustelussa, että Kansallisarkisto tarvitsee lisää rahoitusta, jotta asiakirjoja saadaan digitoitua ja näin laajemmin tutkijoiden ja muiden arkistonkäyttäjien käyttöön.

Günther Mühlberger Inssbruckin yliopistosta kertomassa READ COOP -yrityksestä Transkribus-seminaarissa. Kuva: Mari Välimäki

Nyt kun READ-hankkeen EU-rahoitus on päättymässä, on perustettu yritys nimeltä READ-COOP, jolla Transkribus-sovelluksen tulevaisuus turvataan. Kansallisarkisto on mukana yhtenä perustajajäsenenä uudessa kansainvälisessä yrityksessä. Tarkoitus on, että tulevaisuudessakin yksityiset henkilöt voisivat käyttää Transkribusta ilmaiseksi, mutta suurille toimijoille kuten arkistoille on tulossa maksu laajojen aineistojen siirtämisestä Transkribukseen. Tässäkin on siis kyse rahasta. Todella toivon, että Kansallisarkisto saa Kecskemetin peräänkuuluttamaa rahoitusta, jotta käsinkirjoitettujen aineistojen käytettävyys laajenisi, monipuolistuisi ja paranisi tulevaisuudessa.

Tähän suuntaan ollaan jo toki menossa, kun Kansallisarkistossa READ-hankkeen kautta saatuja konkreettisia tuloksia jatkotyöstetään ja saatetaan yleisön käyttöön Opetus- ja kulttuuriministeriön rahoittamassa Making a Modern Archive -hankkeessa. Toivottavasti tämä on vasta alkua ja tulevaisuudessa näemme myös laajojen vanhempien aikojen aineistokokonaisuuksien tulevan koneluettuna yleisön käyttöön.

 

Mari Välimäki
Kirjoittaja on Suomen historian tohtorikoulutettava

JAA ARTIKKELI: Facebooktwittergoogle_pluspinterestlinkedin

Jätä kommentti

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *

Ajatus aiheesta “Muuttaako koneluenta käsinkirjoitettujen aineistojen tutkimusta?