Tekoäly akateemisessa tutkimuksessa – uhkakuvista mahdollisuuksiin

11.3.2024 Jonne Ritari ja Kalle-Antti Suominen

Reippaat edistysaskeleet generatiivisen tekoälyn tuomisessa kaikkien käytettäväksi mullistavat myös yliopistomaailman käytäntöjä. Tekoälyn mahdollisuudet tutkimustyössä ovat moninaiset ja kehittyvät nopeasti.

Työkalujen käyttöön liittyy kuitenkin eettisiä ja oikeudellisia seikkoja, jotka käyttäjien tulee huomioida. Turun yliopistossa on jo aiemmin linjattu tekoälyn käytöstä koulutuksessa, mutta nyt on tehty linjaus myös tutkimuksen osalta.

Miten turvata omat oikeudet ja olla loukkaamatta muiden oikeuksia? Tämä on yksi keskeisistä asioista, joita linjauksella halutaan nostaa käyttäjien tietoisuuteen ja mietittäväksi. Ensihuumassa on mahdollista rynnätä syöttämään tekoälyohjelmaan tietoa, mutta tätä voi joutua jälkikäteen katumaan. Valitettavasti monet tekoälysovellukset muistuttavat internetiä siinä, että kaikkea ei voi peruuttaa. Syötetyt tiedot päätyvät osaksi tekoälyn koulutusta ja saattavat putkahtaa esiin yllättävissä ja hankalissa yhteyksissä. Ongelmat eivät rajoitu vain tietoon tai teksteihin, sillä puhe ja erilaiset kuvat ja videot ovat yhtä lailla uusien tekoälyn sovellusten kohdemateriaalia. Vastaavasti tekoäly pystyy tuottamaan myös puhetta, kuvia ja videoita.

Siinä näkijä missä tekijä?

Tieteellisen julkaisutoiminnan piirissä on käyty paljon keskustelua tekoälyn roolista. Jos sitä on hyödynnetty merkittävästi aineiston käsittelyssä tai artikkelin kirjoittamisessa, niin pitääkö tekoäly nostaa yhdeksi tieteellisen julkaisun tekijäksi? Tiedekustantajat ovat linjanneet lähes yksinomaan, että tekoäly ei voi olla kirjattuna tekijäjoukkoon, mutta sen hyödyntämisestä on hyvä mainita menetelmäkuvauksessa tai kiitoksissa.

Viime vuosina olemme kehittäneet ja edistäneet tieteen avoimuutta niin julkaisujen, datan kuin menetelmien suhteen. Nyt joudumme pohtimaan avoimesti saatavaksi laitetun materiaalin käyttöä tekoälyn kouluttamisessa. Missä menee vaikkapa CC BY 4.0 -lisenssin raja? Sehän antaa luvan hyödyntää lisenssin alla julkaistua materiaalia varsin monimuotoisesti, kunhan alkuperäinen lähde kerrotaan ja myös kirjataan mahdolliset muokkaukset tähän materiaaliin. Tekoälyn koulutuksessa materiaali katoaa ikään kuin mustaan aukkoon ja yhteys tekijöihin katkeaa. Olemmeko valmiita hyväksymään tämän?

Palatkaamme tekoälyn tuotoksiin. Millainen lisenssi sitten pätee niihin? CC-lisenssikäsitteiden laatijaorganisaatio Creative Commons suosittelee, että mikäli tekoälyn rooli on suuri, tuloksiin ei tulisi liittää tekijänoikeutta (lisenssi CC0). Todennäköistä taitaa olla, että kaikkea lähinnä internetistä löytyvää materiaalia hyödynnetään surutta ja tekijänoikeuksia kunnioitetaan yhtä vähän kuin tälläkin hetkellä internetissä yleensä.

Monet toimijat ovat pyrkineet suojaamaan materiaaliaan automatisoidulta tiedon keräämiseltä CAPTCHA-testeillä, niin tekstillä kuin kuvilla, mutta tekoäly on jo käytännössä kivunnut tämänkin esteen yli. Kryptografiassa koodintekijät ja koodinmurtajat käyvät jatkuvaa kamppailua, ja sama pätee erilaisiin tunnistautumisen menetelmiin. Tämä vertautuu kuuluisaan Turingin testiin, jolla pyritään tunnistamaan kysymyksillä keinotekoinen toimija (eli käänteinen CAPTCHA-testi). Näihin syvällisiin kysymyksiin emme ehkä tässä kirjoituksessa etene syvemmin.

Haasteista mahdollisuuksiin

Vaikka tekoälyn käyttö tuo helposti mukanaan niin oikeudellisia kuin eettisiä haasteita, sen käyttö etenee vääjäämättömästi yhteiskunnassamme – hyödyt kuitenkin ylittävät mahdolliset ongelmat. Yliopiston linjauksessakin tunnistetaan mahdollisina käyttökohteina tutkimustyössä datan analysointi ja ennustaminen, tietokantojen hallinta ja tiedon louhinta, mallinnus, kielentunnistus ja -käsittely, tekstianalyysi, kuvantunnistus ja -käsittely, simulaatiot ja niiden mallinnus, sekä automaatio ja optimointi. Esimerkiksi erilaisten äänitteiden tai käsinkirjoitetun materiaalin litteroinnin työkalut kehittyvät nopeasti. Yliopiston omaa litterointityökalun prototyyppiä on jo kehitelty ja hiljaisesti julkaistukin. Yhdessä digipalveluiden kanssa on mahdollista laatia monia omaan yliopistoomme sopivia paikallisia tekoälypalveluita.

Turun yliopisto on myös edelläkävijä kielimallien kehittämisessä, etenkin yhteistyössä Silo AI:n kanssa. Äskettäin julkistettiin eurooppalainen kielimalli nimeltään Poro, ja jo aiemmin TurkuNLP-ryhmä on kehittänyt suomenkielisen kielimallin. Tällainen työ edellyttää erittäin tehokasta laskentakapasiteettia, ja onneksi tutkijoillamme on CSC:n kautta mahdollisuus käyttää Kajaanissa sijaitsevaa eurooppalaista Lumi-supertietokonetta.

Tekoäly saattaa tuoda myös merkittävän paradigman muutoksen. Esimerkiksi perinteinen sääennusteiden tekeminen luottaa ilmakehän ilmiöiden dynamiikkaa kuvaavien yhtälöiden ratkaisemiseen, kun alkuehdoiksi syötetään havaintodataa. Laskenta on työlästä ja vaatii supertietokoneita. Nyt vaihtoehtona on kouluttaa tekoäly historiallisella tiedolla ja tuottaa sitten sääennusteita huomattavasti helpommin. Tämä on jo todellisuutta. Siten mallintaminen ei enää edellytä monimutkaisten syy-seuraus-suhteiden selvittämistä vaan ainoastaan riittävästi dataa aiemmasta toiminnasta.

Tekoälyavusteinen tutkimus

On hyvä pohtia, missä määrin generatiiviset tekoälyt luovat varsinaisesti uutta tietoa tai toisaalta antavat vain keskimääräisiä vastauksia niille syötetyn laajan datan perusteella. Vastaavasti voidaan kysyä, missä määrin ihmisälyn tuottama tieto liittyy samaan problematiikkaan. Tekoäly voi tuoda paljonkin apua tutkimuksessa etenkin työläisiin vaiheisiin, mutta lienee viisainta jättää varsinaiset oivallukset, tulokset ja tieteen sisältöjen edistäminen ihmisälylle. Kuten alussa todettua, tekoäly harppoo eteenpäin ja näihinkin arvioihin saatamme joutua palaamaan ennemmin kuin myöhemmin. Tosiasia kuitenkin on, että tekoäly on tullut osaksi modernin yhteiskunnan arkea ja sen matkaan kannattaa lähteä kriittisin mielin, kuten aikoinaan vaikkapa tietokoneiden tai internetin arkipäiväistyttyä.

Jonne Ritari

Kirjoittaja työskentelee kehittämisasiantuntijana Turun yliopiston tutkimuksen toimialalla.

Kalle-Antti Suominen

Kirjoittaja on Turun yliopiston tutkimuksesta ja tutkimusedellytysten kehittämisestä vastaava vararehtori.

Kuvituskuva: Photo by Cash Macanaya on Unsplash