“Kanainväliset emoankanpidätykset” vai sittenkin kansainväliset ennakonpidätykset? Menneiden vuosikymmenten pölyhiukkaset ja kahvitahrat lainvalmisteluaineiston tutkijan haasteina

Kun vanhat lainvalmistelupaperit muutetaan digitaalisiksi, tutkijaa vuoroin naurattaa ja itkettää. Viimeisen vuoden ajan projektitutkija, diplomi-insinööri ja oikeustieteilijä Marjaana Sjölund on paneutunut vanhojen hallituksen esitysten sähköistämiseen tutkijayhteisön ja suuren yleisön käyttöön.

Työ liittyy vuonna 2023 alkaneeseen LAWPOL-hankkeeseemme, jossa yhdistämme kaksi kotimaisen oikeuden ja politiikan tutkimuksen kannalta merkittävää työkalua. Turun yliopistossa kehitetty Lakitutka läpivalaisee lainvalmistelua tuomalla kaikkien saataville lainvalmisteluun liittyvät julkiset asiakirjat ja jättimäinen FINPARL-aineistokorpus kattaa kaiken eduskuntapuheen vuodesta 1907 alkaen. Lähivuosien aikana työryhmämme laajentaa poliittisten ja lainvalmisteluun liittyvien asiakirjojen saatavuutta aivan uudelle tasolle uudella tutkimusinfrastruktuurillaan.

Digitointi tuo paperiset lainvalmisteluasiakirjat verkkoon

Ensi vaiheessa pyrimme tuomaan uuteen työkaluumme lainvalmisteluaineistoa vuodesta 1975 alkaen. Kyse ei ole siis arkeologian tapaan ikivanhoista pergamenteista, joiden käsinkirjoitettuja kaunokoukeroita olisi tarpeen tulkita. Yllättäviä haasteita tulee vastaan silti myös lähihistoriallisten asiakirjojen tuomisessa nettiin tutkimusyhteisön – ja suuren yleisön – käyttöön.

Paperilla olevan asiakirjan siirtäminen arkistojen kätköistä kaikkien vapaasti luettavaksi ja helposti haettavaksi tekstiksi LAWPOL-palveluun ei ole aivan suoraviivaista. Asiakirjat tulee luonnollisesti ensin paikallistaa oikeasta arkistorakennuksesta, siellä olevasta hyllystä ja hyllyllä odottavasta mapista. Sen jälkeen jokainen paperi tulee kuvata, näistä syntyneet kuvatiedostot muuntaa merkkijonoiksi ja merkkijonot tulkita ja jakaa asiakirjoittain koneluettaviksi kokonaisuuksiksi. Lopuksi asiakirjoista tulee poimia niin kutsuttuja metatietoja, kuten diaarinumeroita, otsikoita ja päivämääriä. Vasta sen jälkeen on aineisto valmis tutkimusinfrastruktuurin tietokantaan.

Virheenkorjausta tarvitaan, mutta usein se saa aikaan uusia virheitä

Paperiasiakirjojen kuvaamisen ja merkkijonoiksi muuntamisen lopputuloksena on joskus paremmin ja joskus huonommin alkuperäistä asiakirjaa vastaava tekstiaineisto, sillä hyväkään tekstintunnistusohjelma ei kykene tunnistamaan täysin virheittä suhruista, kahvitahraista tai pölyhiukkasten täplittämää tekstiä. Digitoinnissa syntyneitä lukemattomia pieniä ja suuria virheitä voidaan paikata myöhemmin automaattisella virheenkorjauksella. Kuten jokainen kännyköiden virheenkorjaustoimintoa käyttänyt tietää, on automaatti kuitenkin kaukana erehtymättömästä. Kaikkien virheiden korjaaminen käsin on kuitenkin aineiston laajuuden vuoksi lähes mahdotonta, joten virheenkorjausautomaatin käyttö on välttämätöntä.

HE 153/1978 vp digitoituna. Lähde: Eduskunnan avoin data

Eräs automaattisen virheenkorjauksen ongelma on se, että automaatti ”korjaa” virheellisiä ilmaisuja sanoilla, jotka eivät sovi lainkaan asiayhteyteen. Eräästäkin hallituksen esityksen tekstistä ilmiselvästi virheen sisältäneen merkkijonon ”kan~ainvälisestä” tilalle virheenkorjausautomaattimme tarjosi maataloushenkisesti sanaa ”kanainvälisestä”. Toisessa hallituksen esityksessä sana ”ennakonpidätys” oli virheellisesti tallentunut muotoon ”enoakanpidätys”, jonka automaatti korjasi upeasti edelleen eläinteemaan liittyen sanaksi ”emoankanpidätys”. Virheellisten sanojen oikean tekstiasun keksiminen vaatii hoksottimia – sekä lauseyhteyden tunnistamista. Virheenkorjausalgoritmia tulee siksi käyttää varovasti ja mieluummin jättää virheitä korjaamatta kuin ylikorjata sanoja aivan tuntemattomiin muotoihin.

Toinen virheenkorjaukseen liittyvä haaste on kokonaan puuttuva informaatio. Tietoa ei voi nyhjäistä ihan tyhjästä, ei edes koneoppivilla menetelmillä. Hallituksen esityksen otsikossa tekstirimpsu ”H~tuks~ ~··~·~·-.~~ale §:nf .. fyÖf1tekijäin ~ 4 c f~lt ja vlkion: elil«!labr ~·a; f:n muuttamiåestd” on täysin mahdoton sen paremmin ihmis- kuin koneaivojenkaan korjattavaksi. Oikean otsikon keksiminen vaatii asiayhteyden eli asiakirjan muun – toivottavasti virheettömämmän – tekstin lukemista.

LAWPOL-hankkeessa hyödynnetään monitieteistä lähestymistapaa

Edellä mainitut esimerkit ovat toki hupaisia, mutta kertovat niistä haasteista, joita aineiston saataville tekemiseen liittyy. Liian paljon virheitä sisältävistä aineistoista ei nimittäin ole hyötyä sen paremmin tutkijoille kuin suurelle yleisöllekään. Tutkijaa, joka hakee ennakonpidätyksiin liittyviä hallituksen esityksiä, on vaikea ohjata aiemmin mainitun hallituksen esityksen pariin, koska se liittyy olevinaan ankkojen rikoskontrolliin. Lainvalmistelusta kiinnostunut käyttäjä ei tunnista kummallisista kiekuroista koostuvasta otsikosta, mitä lakia on muutettu.

Haasteet on tehty kuitenkin ratkottaviksi! LAWPOL-hankkeessa ei oikeustieteen tutkija pärjää pelkällä oikeustieteellä ja perinteisillä metodeilla, vaan hyödynnämme niin historiantutkimuksen osaamista kuin modernia kieliteknologiaa tekoälyineen päivineen. Teemme töitä sen eteen, että niin politiikan kuin oikeudenkin tutkijat pääsevät jatkossa helposti käsiksi lainvalmistelun ja politiikan asiakirjoihin. Tavoitteenamme on, että aiemmin paljon ihmistyötä vaatinutta asiakirjojen etsimisen ja digitoinnin vaihetta ei enää tarvita, vaan dokumenttien sisältöä pystyy analysoimaan helpoilla hauilla ja vähillä klikkauksilla. Hankkeen tuloksia on suunniteltu julkaistavan jo vuoden 2024 kuluessa.

Marjaana Sjölund

Kirjoittaja työskentelee projektitutkijana Turun yliopistossa LAWPOL-hankkeessa.

  1. Tekstissä esitetty mystinen tekstirimpsu korjattuna menee näin: ”Hallituksen esitys Eduskunnalle laeiksi kansaneläkelain 22 c §:n, työntekijäin eläkelain 4 c §:n ja valtion eläkelain 9 a §:n muuttamisesta” – lupaan tarjota lounaan sille, joka tunnisti merkkijonon oikein.

LAWPOL-konsortio on saanut Suomen Akatemialta FIRI2022: Paikalliset tutkimusinfrastruktuurit -rahoituksen vuosille 2023-2025 päätösnumeroilla 352827, 353569 ja 352828. Rahoitus on osa EU:n elpymisvälinerahoitusta.

Pääkuvan kuvitus: Anniina Laitakari

Categories: Tutkimus

Vastaa

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *