Eduskunnan täysistuntosali ylähäältä kuvattuna.

LAWPOL-hanke rakentaa uusia tapoja hyödyntää politiikkadokumentteja tutkimuksessa ja yhteiskunnassa

Kimmo Elon kasvokuva.

 

 

 

 

 

Kimmo Elo
Eduskuntatutkimuksen keskuksen erikoistutkija
LAWPOL-hankkeen varajohtaja

Turun yliopiston eduskuntatutkimuksen keskus sai yhdessä Turun yliopiston oikeustieteellisen tiedekunnan ja Åbo Akademin oikeustieteiden kanssa Suomen Akatemialta ison tutkimusinfrastruktuurirahoituksen (FIRI-rahoitus) vuosille 2023-2025.

”Research infrastructure for the intersection of law and politics” eli lyhyesti LAWPOL on aidosti monitieteinen hanke, jonka tavoitteena on parantaa poliittiseen päätöksentekoon liittyvien keskeisten aineistojen kuten parlamenttikeskustelujen, lainsäädäntödokumenttien sekä poliittisten ohjelmadokumenttien löydettävyyttä sekä hyödyntämistä tutkimuskäytössä.

Kyse ei kuitenkaan ole vain aineistojen ”poolaamisesta” eli kokoamisesta yhteen paikkaan. Huomattavasti tärkeämpää on kaksi muuta tavoitetta:

  • Ensimmäisenä on varmistaa aineistojen pitkäaikainen ylläpito ja kumuloituva päivittyminen sekä helppo löydettävyys. LAWPOL-hankkeelle keskeisiä aineistoja syntyy jatkuvasti ja infrastruktuurin kautta näistä aineistoista on käytettävissä aina ajantasaisimmat versiot. Näin ei pelkästään paranneta edellytyksiä yhteiskunnallisesti merkittävien ja kiinnostavien aineistojen tutkimukselle, vaan myös tuetaan kansalaisten tiedonsaantia edesauttamalla päätöksentekoon liittyvän informaation saavutettavuutta.
  • Toiseksi LAWPOL-hanke haluaa edistää laskennallisten ihmistieteiden asemaa ja tunnettuutta laajasti yhteiskuntaa tutkivien tieteiden piirissä. Näihin kuuluvat hankkeen ydintieteenalojen, yhteiskunta- ja oikeustieteiden ohella myös humanistiset tieteet. Vaikka kaikki LAWPOL-hankkeen aineistot tarjotaan myös perinteistä lähiluentaa – siis aineiston yksityiskohtaista läpikäyntiä ja analysointia tutkijan itsensä toimesta – soveltaville tutkijoille, LAWPOL-hankkeen varsinainen ”pihvi” ovat ihmistieteille räätälöidyt digitaaliset työkalut, joiden avulla suurta aineistomassaa on mahdollista tutkia soveltamalla eksploratiivisen data-analyysin metodiikkaa, tavoitteena löytää uusia näkökulmia sekä aineistoihin esimerkiksi näitä yhdistelemällä tai vaikkapa testaamalla hypoteeseja aiempaa laajempien tai aiemmin käyttämättömien aineistojen avulla.

* * *

LAWPOL-hanke on itsessään elävä todiste tieteenalojen välisen yhteistyön voimasta sekä siitä, miten tärkeätä on ajatella omaa tutkimusta myös elikaarinäkökulmasta.

LAWPOL-hanke rakentuu kahden, aikanaan erillisinä käynnistyneiden hankkeiden kosortiona.

  • Yhtäältä, lainsäädäntöön ja lakien valmisteluun liittyvä osahanke perustuu professori Anne Alvesalo-Kuusen tutkimusryhmän Lakitutka-hankkeesen, joka ”kokoaa yhteen lainvalmistelun eri vaiheisiin liittyvät julkiset asiakirjat” ja jonka kautta jokainen kiinnostunut voi ”tutkia lakihankkeiden etenemistä hallituksen esitysten, annettujen lausuntojen, mietintöjen ja eduskuntakeskusteluiden kautta” (ks. tarkemmin lakitutka.fi).
  • Eduskuntatutkimuksen keskuksen politiikkapuhetta tutkiva osahanke puolestaan rakentuu ”Semanttiset parlamentit”-konsortiohankkeen jatkona, jossa konsortiohankkeessa muodostettiin yhteistyössä Aalto-yliopiston Semanttisen laskennan tutkimusryhmän ja Helsingin yliopiston HELDIG-tutkimuskeskuksen kanssa eduskunnan täysistuntopuheenvuorot vuodesta 1907 lähtien koneluettavassa muodossa ja laajasti rikastettuna tarjoava FinParl-aineistokorpus.

Muutama vuosi sitten aloimme Anne Alvesalo-Kuusen kanssa pohtia synergiakysymyksiä etenkin parlamenttipuheaineistojen osalta. Lakitutkahan mahdollistaa myös lakiesityksiin liittyvien täysistuntopuheenvuorojen tarkastelu, mikä tarjosi luonnollisen pohjan miettiä Lakitutkan ja oman konsortiohankkeeni yhteistyötä laajemminkin. Aika nopeasti muodostui perusajatus parlamentaariseen päätöksentekoon liittyvästä kokonaisuudesta, joka avaisi uudella tavalla mahdollisuuksia juuri koko parlamentaarisen ekosysteemimme tutkimukselle.

Kuten tutkimustyössä niin usein käy, tästä alun varsin maailmoja syleilevästä ideasta konkretisoitui rahoitushakujen myötä konkreettinen, koherentti hanke, joka samalla muodostaa myös omien tutkimustemme elinkaaren seuraavan vaiheen, niiden parhaita puolia yhdistäen.

Vaikka LAWPOL on ensisijaisesti yhteiskunta- ja oikeustieteellinen hanke, sen taustalta löytyy myös hedelmällinen yhteistyö tietokonelingvistiikan kanssa. Veronika Laippalan ja Filip Ginterin luotsaama TurkuNLP-tutkimusryhmä on alusta lähtien ollut tärkeä yhteistyökumppani ja LAWPOL-hanke limittyykin osoittain myös käynnissä olevan CLARIAH-FI-infrastruktuurihankkeen kanssa. Tämä valtakunnallinen infrastruktuurihanke rakentaa suurille digitaalisille tutkimusaineistoille ja niiden tietokoneavusteiselle tutkimukselle räätälöityä infrastruktuuria. Tällä osa-alueella oma kiinnostukseni politiikkapuheen tietokoneavusteisen tutkimuksen osalta hyötyy valtavasti yhteistyöstä TurkuNLP-ryhmän kanssa, kun kehitämme yhdessä työkaluja politiikkapuheen tutkimukselle juuri ihmistieteiden näkökulmasta.

Tavoitteemme on, että kehitettävät työkalut mahdollistavat politiikkapuheen analysoinnin pitkien yhteiskunnallisten kehityskaarten kontekstissa siten, että tutkija voi pitkien kehitystrendien tasolta zoomata sisään ja ulos joko trendistä sen takana oleviin yksittäisiin politiikkateksteihin tai toisinpäin, yksittäisistä aikalaisteksteistä ulos, jolloin tekstit asettuvat osaksi laajempaa kehityskaarta.

* * *

Vaikka LAWPOL-hanke on vasta alkuvaiheessa, se on jo nyt poikinut kiinnostavia ja innostavia spin-off-projekteja. Nostan tässä esille juuri TurkuNLP:n kanssa toteutettavan poliittisten tekstien ideologisen taustan automaattiseen tunnistamiseen liittyvän projektin. Tavoitteena on kehittää neuroverkkopohjainen algoritmi, joka kykenisi luokittelemaan poliittisia tekstejä niiden ideologisen position mukaan. Aineistona on käytetty FinParl-parlamenttipuheaineistoa, jonka avulla konetta on opetettu erottelemaan eri puolueita niiden käyttämän kielen perusteella. Jos algoritmi saadaan riittävällä luotettavuudella tunnistamaan erilaisiin politiikkateksteihin sisältyviä kielellisiä elementtejä, jotka heijastelevat puhujan tai kirjoittajan ideologisia positioita, kyseessä on yksi merkittävä askel strukturoimattomien tekstien luokittelun tutkimuksessa.

Politiikan tutkijan näkökulmasta aihepiirin tutkimus juuri tietokonelingvistiikan keinoin on kiehtovaa ja haastavaa etenkin siksi, että poliittinen puhunta on – professori Kari Palosen terminologiaa käyttääkseni – sekä temporaalista ja kontingenttia, siis sekä puhehetken tarjoamia pelitiloja ja satunnaisuutta hyödyntävää että puheen kontekstin syviä rakenteita ja ominaisuuksia esiin tuovaa. Ensimmäiset heijastelevat sitä, miten asioita kehystetään juuri puheen aikahetkellä, kun taas jälkimmäiset heijastelevat politiikan valtasuhteita ja ideologisia jakolinjoja. Juuri jälkimmäisten tavoittaminen on algoritmin kehitystyön tavoite: jos puheesta niin sanotusta siivotaan puhehetken tuottama kohina, jäljelle jää oletuksemme mukaan sellaisia kielellisiä konstruktioita, jotka määrittelevät erilaisten aatteellisten, ideologisten tai puoluepoliittisten kenttien rajoja.

Sinäkin voit tämän blogin lukijana tukea suoraan tätä politiikkapuheen tunnistamiseen liittyvää kehitystyötämme. Olemme avanneet politiikkapuhetestin (https://www.utu.fi/politiikkapuhetesti), jossa sinulle arvotaan viisi eduskunnassa 2010-luvulla pidettyä puheenvuoroa ja tehtäväsi on arvioida, mitä puoluetta puhuja edustaa. Pyydämme myös kopioimaan puheenvuorosta niitä kohtia, joihin arviosi perustat. Kyselyn kautta kerättyä dataa käytetään algoritmin opettamisen tukena erityisesti niiden tekstien kohdalla, joissa kone on päätynyt väärään lopputulokseen, mutta ihminen oikeaan. Näin koneelle voidaan antaa lisävihjeitä siitä, millaisia asioita tekstistä tulisi havainnoida puoluetyypillisen puheen osalta.

Politiikan tutkimuksen näkökulmasta kyse ei kuitenkaan ole primaaristi aputyökalusta suurten aineistojen luokitteluun. Ihmisten kyky tunnistaa tekstien poliittisuutta on oma, merkittävä tutkimusalueensa, joka kytkeytyy kysymyksiin ihmisten kansalaispätevyydestä, poliittisesta tietämyksestä ja kyvystä seurata ja ymmärtää yhteiskunnassa käytäviä keskusteluja.

Useimmat meistä käyttävät ajankohtaisia asioita seuratessaan erilaisia oikoteitä (engl. shortcuts, cues), jotka auttavat liittämään usein fragmentaarista informaatiota johonkin laajempaan asiaan. Voidaan ajatella, että poliittinen puhe on täynnä erilaisia oikoteitä, jotka kertovat esimerkiksi puhujan aatteellisesta positiosta tai jopa laajemmasta yhteiskuntakäsityksestä. Jos näitä oikoteitä ei tunnista tai ne kytketään väärin konteksteihin, vastaanottajalle voi syntyä täysin väärä kuva puheena olevasta asiasta tai sen esittäjästä.

Vaikka tätä projektia on takana vasta joitakin kuukausia, jo nyt näyttää ilmeiseltä, että kone ja ihminen lukevat politiikkatekstejä hyvin eri tavoin, vaikka toki myös samankaltaisuutta näiden väliltä löytyykin. Yksi kiinnostava ero politiikkapuhetestin vastauksissa on jo nyt havaittavissa suhteessa algoritmin tuloksiin: vaikka ihmiset eivät aivan hirveän hyvin pysty yhdistämään puhetta absoluuttisesti oikeaan puolueeseen, vastaajat näyttäisivät tunnistavan puhuntaa oikeisto-vasemmisto-dikotomiassa varsin hyvin. Eli jos tietyn puheenvuoron on pitänyt sosialidemokraatteja edustava kansanedustaja, kyselyn vastauksissa valtaosa kytköksistä on tehty sosiaalidemokraattien ohella vasemmistoliittoon tai vihreisiin. Vastaavasti kokoomuksen puheenvuoroja kytketään kokoomuksen ohella voittopuolisesti perussuomalaisiin tai keskustaan, selvästi vähemmän esimerkiksi sosiaalidemokraatteihin.

* * *

Toivon, että mahdollisimman moni ottaisi haasteen vastaan ja kävisi vastaamassa kyselyymme. Mitä enemmän saamme vastauksia, sitä luotettavammin pystymme kerättyä aineistoa hyödyntämään.

Eikä kyse ole pelkästä algoritmin kehitystyön tukemisesta; koska vastaajia pyydetään kyselyn lopussa vastaamaan muutamiin taustakysymyksiin, kerättyä aineistoa tullaan käyttämään myös ihmisten poliittisuuden ja poliittisen kompetenssin tutkimuksen kannalta tärkeiden kysymysten tutkimukseen. Eli LAWPOL-hankkeessa me teemme juuri sitä, mitä yhteiskuntatiede parhaimmillaan on: lisäämme tietoa yhteiskunnallisista ilmiöistä ja niihin liittyvistä tekijöistä. Politiikka lienee näistä yksi keskeisimmistä, joten jokainen askel kohti ymmärrystä politiikan taustalla vaikuttavista tekijöistä on askel kohti parempaa ymmärrystä koko yhteiskunnasta.

Mutta tällä kaikella on – kuten hyvällä ja laadukkaalla tutkimuksella tuleekin olla – paljon laajempia implikaatioita.

Haluan lopuksi nostaa esille yhden asian, jotka toivottavasti valaisevat LAWPOL-hankkeen kokoaan laajempaa merkitystä ja vaikutusta. Tämän päivän maailmassa datan määrä on valtava ja sen määrä tulee kasvamaan eksponentiaalisesti lähitulevaisuudessa. Data, joka tässä ymmärretään laajasti kaikkena sinä informaationa, jota ihminen toiminnallaan tuottaa, on myös yksi keskeinen raaka-aine, jonka varaan huomisen yhteiskunta rakentuu.

Jo tänään on selvää, että vaikka valtava datamäärä on luonut edellytykset ihmiskunnan hyvinvoinnin kasvulle ja demokratisoitumiselle, kolikon toinen puoli on data käyttäminen yhteiskunnan tai sen osien vahingoittamiseen, myös poliittisten tarkoitusperien, kuten demokratian rapauttamisen, motivoimana. Osaltaan tätä mahdollistaa niin kutsuttu se, ei mitenkään vähäinen datasokeiden tai -osattomien ryhmä, jolla ei syystä tai toisesta ole edellytyksiä hyödyntää, ymmärtää tai tunnistaa datan käyttämisen vaikutuksia tai seurauksia. Yksi todellinen uhkakuva on niin kutsuttu deep fake -teknologia, jonka avulla voidaan luoda esimerkiksi aidolta vaikuttavia disinformaatio- tai huijausvideoita – yksi tunnetuimmista esimerkeistä on Barack Obamaan liittyvä deep fake -video.

LAWPOL-hanke ei luonnollisestikaan voi estää disinformaatiota, mutta tarjotessaan luotettavaa, tutkittua ja varmistettua tietoa laajasti yhteiskunnan käyttöön, hanke osaltaan vahvistaa kansalaisten tiedollista resilienssiä. Mutta samalla hankkeen omat tutkimusprojektit – edellä kuvattu poliittisen puheen ideologisuuden tunnistamistyökalu yhtenä esimerkkinä – tarjoavat työkaluja havainnoida poliittisuutta, politisointia ja politikointia myös silloin, kun nämä pyritään häivyttämään ja piilottamaan. Oma tärkeä osansa on myös hankkeen kautta täydentyvällä kuvalla ihmisten poliittisesta kognitiosta eli kyvystä havainnoida ja prosessoida poliittisia asiakysymyksiä.

Jos sinulla, lukijani, heräsi tätä blogia lukiessasi ajatuksia, mitä toivoisit LAWPOL-hankkeen tekevät tai tuottavan, kerro meille ideasi! Tieteen yksi tärkeä funktio on palvella ympäröivää yhteiskuntaa eli ideasi voi liittyä tutkimukseen tai sen ihan tavallisen kansalaisen tiedontarpeisiin. Ideat voit lähettää sähköpostitse osoitteella kimmo.elo@utu.fi. Kiitos!

Kimmo Elo on Turun yliopiston eduskuntatutkimuksen keskuksen Eurooppa-tutkimuksen erikoistutkija, jonka tutkimusintressit kohdistuvat eurooppalaisen politiikan ohella laskennallisiin ihmistieteisiin. Elo on eduskuntatutkimuksen keskuksen LAWPOL-osahankkeesn vastuullinen johtaja sekä LAWPOL-hankkeen varajohtaja