Kohti kielellisesti monimuotoista tekoälyä

31.8.2021 Jenna Kanerva, Jemina Kilpeläinen, Hanna-Mari Kupari, Jenna Saarni & Valtteri Skantsi

Kielet ovat rikkaita ja monimuotoisia. Monesti samalle sanalle on olemassa useampikin vastine, joista kielenkäyttäjä voi valita mielestään kuvaavimman. Puhuja voi esimerkiksi sanavalinnoillaan vaikuttaa siihen, kuinka haluaa viestinsä ymmärrettävän. Kuitenkin lukija on lopulta se, joka tulkitsee.

Vaikka monissa perinteisissä kielen analysointitehtävissä edistyneet tekoälysovellukset ovat saavuttamassa jopa ihmistasoista suorituskykyä, syvällisessä kielen ymmärtämisessä ihminen on edelleen korvaamaton. Viimeaikainen edistys tekoälykehityksessä antaa oivan mahdollisuuden keskittyä yhä enemmän erilaisiin kielen ymmärtämisen tehtäviin, joissa haasteeksi nousee nimenomaan analysoitavan kielen monimuotoisuus ja vaihtelevuus.

Mikäli haluamme perehtyä aiheeseen verrattain pienten kansalliskieltemme, suomen ja ruotsin osalta, on meidän tehtävä se itse kansainvälisen tutkijayhteisön keskittyessä lähinnä maailman valtakieliin. Suomen voidaankin katsoa olevan tässä asiassa edelläkävijämaa.

Parafraasit uusi aluevaltaus

Parafraasit ovat tekoälyn kannalta erityisen vaikeita, sillä ne vaativat runsaasti taustatietoa. Parafraasihankkeessa koottiin laaja ja ainutlaatuinen, yli 100 000 esimerkin annotoitu suomen kielen parafraasikorpus, jonka tarkoituksena on koota yhteen kielellisesti rikasta ja monimuotoista dataa tekoälyn kouluttamista varten. Korpus koottiin tarkastelemalla erilaisia tekstejä aina Suomi24-palstan keskusteluista ja elokuvien tekstityksistä uutisiin ja opiskelijoiden lahjoittamiin tenttivastauksiin.

Käsitteenä parafraasi tarkoittaa tekstin tai sen osan uudelleenmuotoilua merkitystä muuttamatta:

Työskentelee kuin ahkera mehiläinen.
Ahertaa kuin muurahainen.

Parafraasi voi myös selittää tai selventää tekstiä. Tutkimusaineistojen käytettävyyttä parannetaan usein lisäämällä erilaista metatietoa, kuten esimerkiksi kieliopillisia merkintöjä kuvaamaan paremmin vaikkapa tiettyä sanaa, lausetta tai kokonaista tekstiä. Tätä prosessia kutsutaan annotoinniksi. Parafraasihankkeessa annotointi käsitti nimenomaan erilaisten tilanteiden tunnistamista, joissa hyvin monimuotoista kieltä käytetään ilmaisemaan yhdenmukaista merkitystä. Toisaalta tärkeää oli myös kielenkäytön hienojakoisten merkityserojen tunnistaminen.

Kielen parafraasit aiheuttavat luonnollisen kielen käsittelyssä eli NLP:ssä (Natural Language Processing) mielenkiintoisia haasteita, joiden ratkaisemista yritetään helpottaa keräämällä suuri määrä annotoitua parafraasiaineistoa. Luonnollisen kielen käsittely on tekoälyn osa-alue, jossa sovelletaan erilaisia tilastotieteen ja koneoppimisen tekniikoita ymmärtämään ja analysoimaan haluttua kieltä. Koneoppiminen on puolestaan tekoälyn haara, jossa järjestelmä oppii annetuista esimerkeistä parantaen suoritustaan kokemuksen karttuessa.

Tekoälyä hyödyntävistä sovelluksista valtaosa pohjautuu koneoppimiseen. Kielen luonnollinen variaatio ja sen monimuotoisuus olisi tärkeää säilyttää myös tekoälytutkimuksessa kehittämällä aineistoja myös pienille kielille ja sisällyttämällä aineistoihin koko kielenkäytön laaja skaala. Hankkeessamme nämä nousivat halutulla tavalla esiin yhtäältä projektityöntekijöiden, toisaalta kootun aineiston avulla.

Taustan ja henkilökohtaisen kielenkäytön vaikutus työhön

Ihmisellä on keskeinen rooli tavoiteltaessa kielellisesti monimuotoista tekoälyä. Parafraasien annotointi vaati paljon yleissivistystä sekä tietoa monenlaisista aiheista. Korpuksen kokosi joukko eritaustaisia annotointityöntekijöitä, joita kaikkia yhdisti kiinnostus kieliin.

Kuten alussa mainitsimme, lukija on aina se, joka tulkitsee tekstiä. Kun eri paikkakunnilta kotoisin olevat projektilaiset monenlaisine taustoineen kokoontuivat yhteen tarkkuutta vaativan annotointitehtävän äärelle, jokainen tulkitsi aineistoa henkilökohtaisen kielenkäyttönsä kautta. Esimerkiksi annotoija, joka ei juurikaan käytä kirosanoja, ei välttämättä näe merkittävää eroa sellaisten parafraasien välillä, joissa toisessa esiintyy voimakas kirosana ja toisessa tämän lievempi vastine.

Jokaisen kielenkäyttö muotoutuu kotipaikkakunnan ja murrealueen lisäksi kaikesta ympäröivästä, kuten vaikkapa opintojen pääaineesta, lähipiiristä, sosiaalisista verkostoista, median käytöstä ja harrastuksista. Hankkeen työntekijät olivat pääaineenaan opiskelleet esimerkiksi ranskaa, englantia tai latinaa, jolloin heillä oli tietysti kielen osaamisen lisäksi paljon tietoa kyseisistä kulttuureista ylipäätään. Myös erilaiset harrastukset toivat arvokkaan lisän annotoimiseen, sillä osaamista löytyi runsaasti esimerkiksi eri urheilulajien, musiikin, historian, politiikan sekä tv- ja podcast-ohjelmien saralta.

Suomen kartta johon on merkitty useita paikkakuntia harmaalla kehällä — Annotointityöntekijöiden kotipaikkakunnat (Kuvitus: Valtteri Skantsi)

Jottei käytettävä opetusdata rakentuisi vain yhdenlaisten tekstien varaan, aineistoon otettiin tarkoituksella mukaan kielenkäytöltään erilaisia tekstejä. Esimerkiksi annotoitavien uutisten kieli oli usein yleiskielen sääntöjen mukaista, kun taas elokuvien tekstitykset ja keskustelupalstat olivat kieleltään paljon värittyneempiä ja puhekielisiä. Tämä toi myös valmiiseen korpukseen kaivattua variaatiota, mikä heijastelee osuvasti jokapäiväistä kielenkäyttöä, johon sekoittuu juuri puhe- ja yleiskieltä. Toisaalta projektiin osallistuvien moninaiset lähtökohdat, toisaalta kootun aineiston monipuolisuus auttoivat saavuttamaan tavoitteen koota laaja korpus, joka sisältää runsaasti kielellistä vaihtelua ja tekoälylle monimutkaisia rakenteita.

Piirroskuvassa uppava laiva ja rotta laiturilla. Laivan kyljessä teksti "SS. UPPO" — ”Keitä olet värvännyt luuseritiimiisi?””
”Minkä rotan olet palkannut S.S Uppoavaan Laivaan?” (Kuvitus: Hanna-Mari Kupari)

Haasteena kielen sävyerot

Korpusta koottaessa kielen monimuotoisuutta oli tarpeen merkitä erilaisin keinoin. Annotointiskeema koostui useista merkinnöistä, missä esimerkiksi kielellisiä sävyeroja merkittiin s–merkinnällä tapauksissa, joissa parafraasiparien merkitys on sama, mutta ne eroavat sävyltään. Sitä käytettiin vaikkapa kirosanojen kohdalla. Samoin tehtiin myös sellaisissa tapauksissa, joissa toinen pareista oli selvästi puhekielinen, kun taas toinen muodollinen. Sävyero saattaa lisäksi sisältää vaihtelua kohteliaisuuden, epävarmuuden ja lausuntojen vahvuudessa. Tämän prosessin ansiosta tekoälyn koulutuksessa voidaan huomioida kielen sävyerot, mikä lisää entisestään sen käyttömahdollisuuksia.

Jotta myös toinen kansalliskielemme olisi edustettuna korpuksessa, osana hanketta annotoitiin pieni demoaineisto ruotsinkielistä dataa. Aineistoon päätyi vähän yli tuhat parafraasiparia. Eräs vaikeimmista päätöksistä oli luoda linjaus sen suhteen, ovatko lyhentyneet määrittäjät ja pronominit (esim. muoto nån eli ‘jotakin’) tarpeeksi puhekielisiä, että niihin tulisi laittaa juuri sävyeroa osoittava merkintä.

Alla on esimerkki s:n suhteen kiistanalaisesta tapauksesta ruotsin kielen aineistossa. Sanakirjan mukaan nån nähdään puhekielisenä, joten tämä puoltaisi sen merkitsemistä:

Tarvitsetteko te vielä jtn? (Behöver ni nåt mer?)
Tarvitsetko jotain muuta? (Något annat du behöver?)

Elokuvien tekstityksissä ja etenkin arkiviestinnässä yllämainitut ovat kuitenkin hyvin vakiintuneita ja löytäneet tiensä jo monenlaiseen kirjalliseen viestintään. Samassa virkkeessä esiintyy myös teitittelyä, mikä käy ilmi ainoastaan esimerkin saadessa käännösvastineen. Tällaiset olivat varsin hankalia arvioitavia, sillä teitittely on käytännössä katsoen kadonnut ruotsin kielestä. Tässä juuri piilee luonnollisen kielen tutkimuksen isoin haaste sekä antoisin varanto – aineisto ei taivu ennalta määriteltyjen sääntöjen ja lokeroiden luokkiin.

Tuloksena kielellisesti rikas parafraasikokoelma

Vaikka uusimmat tekoälymenetelmät eivät välttämättä enää vaadi käsin annotoituja esimerkkejä, ne tarvitsevat kuitenkin valtavan määrän tekstiä, jonka perusteella niillä on mahdollisuus ymmärtää, kuinka kieli toimii. Tekoälysovellusten kehitys pohjautuukin pitkälti datan saatavuuteen.

Vaikka valtaosa algoritmikehityksestä julkaistaan vapaasti kaikkien käytettäväksi, ei pelkkä algoritmi itsessään riitä, vaan sen rinnalle täytyy löytää sopivaa koulutusdataa. Saatavilla oleva aineisto, erityisesti sen kieli ja kielellinen sisältö, määrittelevätkin suuresti, millaisia sovelluksia eri kieliryhmille on mahdollista kehittää.

Jotta tekoälysovellukset eivät rajoittuisi ainoastaan maailman valtakieliin, dataa täytyy olla saatavilla myös pienimmille kielille, kuten suomelle ja ruotsille. Myös kielellinen monimuotoisuus ja kielten rikkaus tulee ottaa huomioon tarjoamalla tekoälylle mahdollisuuden oppia yleiskielen rinnalle esimerkiksi murteellista ja puhekielistä sisältöä vastaamaan eri käyttötarpeisiin.

Kielellinen rikkaus on tärkeä osa kommunikaatiota sekä vuorovaikutusta, joten monimuotoista ja vaihtelevaa kieltä tulisi vaalia myös tekoälyn aikakaudella.

Kirjoitus pohjautuu Filip Ginterin hankkeeseen Textual Paraphrase Dataset for Deep Language Modelling, jonka rahoitti European Language Grid. Kirjoittajien lisäksi hankkeessa työskentelivät Li-Hsin Chang, Aurora Piirto, Iiro Rastas, Maija Sevón ja Otto Tarkka. TurkuNLP-tutkimusryhmän kotisivut: https://turkunlp.org, lisätietoa hankkeesta: https://turkunlp.org/paraphrase.html ja https://twitter.com/TurkuNLP.

Jenna Kanerva
Kirjoittaja on kieliteknologian väitöskirjatutkija, joka tutkii koneoppimismenetelmien soveltamista suomen kielen analysointiin.

Jemina Kilpeläinen
Kirjoittaja on fonetiikan väitöskirjatutkija. Väitöskirjassaan hän tutkii auditiivisten ja visuaalisten oppimismenetelmien suhdetta eri taustaisilla oppijoilla.

Hanna-Mari Kupari
Kirjoittaja on digitaalisen kielentutkimuksen väitöskirjatutkija, joka käyttää määrällisiä menetelmiä keskiajan latinan aineistoissaan. @kuparimari Twitterissä.

Jenna Saarni
Kirjoittaja on digitaalisen kielentutkimuksen väitöskirjatutkija. Tutkimuksessaan hän tarkastelee koronapandemiaan keskittyvää kriisiajan viestintää digitaalisissa ympäristöissä. @jensaay Twitterissä.

Valtteri Skantsi
Kirjoittaja on UniOGS-tutkijakoulun väitöskirjatutkija TurkuNLP-kieliteknologiryhmässä, väitöskirjan aiheena Fennistinen kieliteknologia – aineistot, menetelmät ja mahdollisuudet. @valskantsi Twitterissä.

Lähteet:

Hoffman, L. (8.11.2018). Niandet är artigt eller nedlåtande – olika servicesvenska i Sverige och Finland. Svenska Yle. https://svenska.yle.fi/artikel/2018/11/08/niandet-ar-artigt-eller-nedlatande-olika-servicesvenska-i-sverige-och-finland

Urwäder, J. (18.11.2018). Professor i nordiska språk om att nia och dua: det finns inget rätt eller fel – men historiskt har niande en gång betytt att man haft en lägre social status. Svenska Yle. https://svenska.yle.fi/artikel/2018/11/18/professor-i-nordiska-sprak-om-att-nia-och-dua-det-finns-inget-ratt-eller-fel-men