{"id":4025,"date":"2024-08-27T11:41:29","date_gmt":"2024-08-27T11:41:29","guid":{"rendered":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/?p=4025"},"modified":"2024-08-27T11:41:33","modified_gmt":"2024-08-27T11:41:33","slug":"oppimatka-digitaalisten-ihmistieteiden-hackathoniin","status":"publish","type":"post","link":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/2024\/08\/27\/oppimatka-digitaalisten-ihmistieteiden-hackathoniin\/","title":{"rendered":"Oppimatka digitaalisten ihmistieteiden hackathoniin"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1004\" height=\"627\" src=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image.png\" alt=\"\" class=\"wp-image-4026\" srcset=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image.png 1004w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-300x187.png 300w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-768x480.png 768w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-676x422.png 676w\" sizes=\"auto, (max-width: 1004px) 100vw, 1004px\" \/><figcaption class=\"wp-element-caption\">Kuva: Anna Jarske-Fransas <a href=\"https:\/\/www.helsinki.fi\/assets\/drupal\/styles\/16_10_s_2x\/s3\/media-image\/hssh_hackathong_uutinen.jpg.webp?itok=mPAtfWFD\">https:\/\/www.helsinki.fi\/assets\/drupal\/styles\/16_10_s_2x\/s3\/media-image\/hssh_hackathong_uutinen.jpg.webp?itok=mPAtfWFD<\/a><br>Annotointity\u00f6skentely\u00e4 Helsingiss\u00e4. Tekstin kirjoittaja istuu taaimmaisena kahvin kanssa.<\/figcaption><\/figure>\n\n\n\n<p>Olen Turun yliopistossa ensimm\u00e4isen vuoden kulttuurihistorian maisteriopiskelija, ja olen opiskellut nyt vuoden verran sivuaineena digitaalista kielentutkimusta ja ohjelmointia. Osallistuin t\u00e4n\u00e4 kev\u00e4\u00e4n\u00e4 2024 Helsingin digitaalisten ihmistieteiden hackathoniin. Kiinnostukseni digitaalisia ihmistieteit\u00e4 ja tietokoneavusteisten menetelmien soveltamisesta on per\u00e4isin jo historian kandiopintojeni ajoiltani. K\u00e4yt\u00e4nn\u00f6ss\u00e4 digitaalisten ihmistieteiden kohdalla \u201dasiasta innostunut\u201d lienee sopiva ilmaus kuvastamaan taitojani puhuttaessa Computer-Science- osaamistani. Olinkin todella positiivisesti yll\u00e4ttynyt p\u00e4\u00e4sty\u00e4ni hackathoniin ja viel\u00e4 haluamaani tutkimusryhm\u00e4\u00e4n, jonka tutkimusdata oli tapahtuman sponsorin Clarinin Euroopan eri maiden parlamenttien puheista koostuva <em>ParlaMint-<\/em>datasetti<a href=\"#_ftn1\" id=\"_ftnref1\">[1]<\/a>. Vaikka muutkin hackathonin t\u00e4m\u00e4n kev\u00e4\u00e4n teemat<a href=\"#_ftn2\" id=\"_ftnref2\">[2]<\/a>&nbsp; olivat eritt\u00e4in kiinnostavia, laajan datasetin k\u00e4ytt\u00e4minen l\u00e4hdeaineistona ja transformer- teko\u00e4lymallin hy\u00f6dynt\u00e4minen k\u00e4yt\u00e4nn\u00f6n tutkimusty\u00f6ss\u00e4 oli minulle mieleinen aihepiiri ja omien opintojeni kannalta kaikkein hy\u00f6dyllisint\u00e4 oppimateriaalia.&nbsp;<\/p>\n\n\n\n<p>Kulttuurihistorian opinnoissa omat kiinnostuksen kohteeni ovat liittyneet koulun ja koulutuksen historiaan. Oma mielenkiintoni digitaalisten ihmistieteiden mahdollisuuksista niin tutkimusmetodien kuin digitaalisten aineistojen kohdalla ja laitoksemme opintotarjonta ovat ohjanneet minut my\u00f6s maisteriopinnoissa Kansalliskirjaston digitoitujen sanomalehtiaineistojen \u00e4\u00e4relle (Sanoma- ja aikakausilehdist\u00f6n tutkimus- kurssi, sek\u00e4 digitaalisen historian ty\u00f6paja-kurssi). Koska tietokoneavusteisten menetelmien soveltaminen esimerkiksi suomenkieliseen materiaaliin vaatii k\u00e4yt\u00e4nn\u00f6n ohjelmointitaitoja, oma maisterivaiheen ensimm\u00e4inen vuosi kului suurelta osin digitaalisen kielentutkimuksen sivuainekokonaisuuden parissa ty\u00f6skennellen. N\u00e4m\u00e4 opinnot sis\u00e4lt\u00e4v\u00e4t muun muassa ohjelmoinnin perusteita, erilaisiin digitaalisen tekstidatan k\u00e4sittelyyn suunnattujen ohjelmakirjastojen opettelua sek\u00e4 teko\u00e4lyn alkeisiin perehtymist\u00e4.<\/p>\n\n\n\n<p>Ilmoitin hakemuksessa, ett\u00e4 toimisin mielell\u00e4ni hybriditeht\u00e4viss\u00e4, mutta ensimm\u00e4isen tapaamisen perusteella olin varma siit\u00e4, ett\u00e4 saisin todenn\u00e4k\u00f6isesti toimia humanistin roolissa. Ryhm\u00e4ss\u00e4mme oli useita kovatasoisia tietotekniikan osaajia ja heti alusta l\u00e4htien tutkimusaineiston k\u00e4sittelyyn ehdotettiin ohjaamattoman koneoppimisen menetelmi\u00e4, kuten edell\u00e4 mainittuja transformers-malleja. Vaikka minulla on takana vuoden verran tietotekniikan opintoja esimerkiksi Python-ohjelmoinnissa, digitaalisen kielentutkimuksen opinnoissa ja teko\u00e4lyn perusteissa, oli selv\u00e4\u00e4, ett\u00e4 esimerkiksi teko\u00e4lymallien arkkitehtuurin suunnittelussa oma osaamiseni ei olisi paljolti hy\u00f6dyksi.<\/p>\n\n\n\n<p>Valmistauduin itse tapaamiseen lukemalla ryhm\u00e4nvet\u00e4jien suosittelemaa kirjallisuutta siit\u00e4, miten monella eri tavalla termi demokratia voidaan m\u00e4\u00e4ritell\u00e4. Pyrin my\u00f6s tutustumaan digitaalisten ihmistieteiden kirjallisuuteen, etenkin Jo Guldin <em>The dangerious art of text mining <\/em>oli omasta mielest\u00e4ni eritt\u00e4in hy\u00f6dyllist\u00e4 luettavaa. Koska politiikka ei ole ollut itselleni l\u00e4heinen aihe opintojeni aikana, k\u00e4ytin my\u00f6s paljon aikaa tutkiakseni poliittisen retoriikan merkityksi\u00e4.<\/p>\n\n\n\n<p>Ryhm\u00e4mme ideoi et\u00e4tapaamisessa ennen hackathonia ja ensimm\u00e4isin\u00e4 varsinaisina kontaktip\u00e4ivin\u00e4 tutkimuskysymyksiksi \u201dmiten demokratiaa k\u00e4ytet\u00e4\u00e4n argumenttina\u201d ja \u201dmiten puhujan ominaispiirteet (esim. sukupuoli ja ik\u00e4) vaikuttavat puheiden tunteisiin\u201d. K\u00e4yt\u00e4nn\u00f6ss\u00e4 t\u00e4m\u00e4 tarkoitti kahden luokittelevan teko\u00e4lymallin harjoittamista: Argumenttiluokittelija k\u00e4ytt\u00e4isi k\u00e4sin annotoituja datasetist\u00e4 tekstilouhittuja lauseita, joiden hakemiseen hy\u00f6dynnettiin Clarinin NoSketch-engine korpusty\u00f6kalua<a href=\"#_ftn1\" id=\"_ftnref1\">[3]<\/a>. Tunnemalli taas olisi ohjaamattoman koneoppimisen projekti.&nbsp;<\/p>\n\n\n\n<p>Jakauduimme kahteen ty\u00f6ryhm\u00e4\u00e4n tutkimuskysymysten toteuttamiseen vaadittavien taitojen perusteella. Toinen suunnitteli tunnemallia ja toinen ty\u00f6sti argumenttiluokittelijaa. Tunnemalli sis\u00e4lsi monimutkaisen teknisen toteutuksen laajan kielimallin valmistelussa ja itse harjoitusdatakorpuksen esik\u00e4sittelyss\u00e4, joten koin koko projektin kannalta hy\u00f6dyllisemm\u00e4ksi argumenttien parissa ty\u00f6skentelyn. Valitsimme kolme p\u00e4\u00e4asiallista parlamenttiaineistoa: Ukrainan, Ison-Britannian ja Slovenian. Ehdotin aluksi Suomea mukaan, mutta k\u00e4ytt\u00e4m\u00e4mme ParlaMint-datasetin Suomen aineisto hyl\u00e4ttiin suppean kokonsa takia. Suurin osa hackathonin ensimm\u00e4isist\u00e4 p\u00e4ivist\u00e4 kului siis annotointiteht\u00e4viss\u00e4, ja omalla kohdallani Deep Translate -sivustoon tutustuessa Slovenian parlamenttiaineistoa selvitt\u00e4ess\u00e4.<\/p>\n\n\n\n<p>Teimme annotointity\u00f6t\u00e4 pareissa k\u00e4ym\u00e4ll\u00e4 l\u00e4pi lauseita, joissa demokratia-sanan oikealla ja vasemmalla puolella oli sata kirjainta. P\u00e4\u00e4sin tekem\u00e4\u00e4n yhteisty\u00f6t\u00e4 tutkijatohtori, historioitsija Marko Milo\u0161evitsin kanssa. T\u00e4m\u00e4 ty\u00f6skentely tuntui musertavan vaikealta, Marko joutui \u00e4idinkielen\u00e4\u00e4n Sloveniaa puhuvana selitt\u00e4m\u00e4\u00e4n minulle useita kohtia ja kest\u00e4m\u00e4\u00e4n hidasta pakerrustani. T\u00e4st\u00e4 huolimatta opin mielest\u00e4ni todella paljon annotointity\u00f6skentelyst\u00e4. Lopullinen luokittelutarkkuutemme oli yll\u00e4tt\u00e4v\u00e4n tarkka, noin 70 prosenttia my\u00f6s vertailtaessa kaikkien ryhm\u00e4ss\u00e4 ty\u00f6skennelleiden tarkkuutta kesken\u00e4\u00e4n. Annotointity\u00f6 kesti l\u00e4hes viikon verran ja oli hyvin intensiivist\u00e4 koko ryhm\u00e4llemme. Omalla kohdallani k\u00e4ytin my\u00f6s vapaa-aikaani Slovenian l\u00e4hihistorian opiskeluun, sill\u00e4 etenkin \u201dvipuvarsi\u201d-luokan kohdalla maan poliittisen kulttuurin ymm\u00e4rt\u00e4minen helpotti luokittelua.<\/p>\n\n\n\n<p>Malliksemme valikoitui XLM-R<a href=\"#_ftn1\" id=\"_ftnref1\">[4]<\/a>, jonka kyky hy\u00f6dynt\u00e4\u00e4 useita eri kieli\u00e4 oli juuri sopiva luokitteluteht\u00e4v\u00e4\u00e4mme. Harjoitimme omien annotointien, sek\u00e4 niiden avulla GPT:n avustuksella tuotettujen esimerkkilauseiden avulla mallin tunnistamaan korpuksesta edell\u00e4 mainittuja demokratiaan liittyvien lauseiden luokituksia. Malli oppikin tunnistamaan yll\u00e4tt\u00e4v\u00e4n hyvin eri luokkia<ins>,<\/ins> ja suuremmalla harjoitusdatasetill\u00e4 olisi ollut mahdollista saavuttaa huomattavasti parempia tuloksia, sill\u00e4 se ehti k\u00e4yd\u00e4 harjoitusvaiheessa kaiken datan jatkuvasti paranevalla tarkkuudella:<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1004\" height=\"528\" src=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-1.png\" alt=\"\" class=\"wp-image-4027\" srcset=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-1.png 1004w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-1-300x158.png 300w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-1-768x404.png 768w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-1-676x356.png 676w\" sizes=\"auto, (max-width: 1004px) 100vw, 1004px\" \/><figcaption class=\"wp-element-caption\"><em>X- akselilla siis \u201daskeleet\u201d, l\u00e4pik\u00e4yty data ja y- akselilla oppimisen laatu, eli mit\u00e4 pienempi arvo, sit\u00e4 paremmin malli on oppinut tunnistamaan luokitukset&nbsp;<\/em><\/figcaption><\/figure>\n\n\n\n<p>Pystyimme siis k\u00e4ytt\u00e4m\u00e4\u00e4n malliamme eri demokratiadiskurssien luokitteluun. Tulosten tultua aloimme k\u00e4yt\u00e4nn\u00f6ss\u00e4 analysoimaan, mit\u00e4 erilaiset luokittelut tarkoittivat. Olimme suunnitelleet my\u00f6s toisen tunteita luokittelevan mallin, josta jouduttiin kuitenkin luopumaan alhaisen oppimisasteen takia ja tutkimusdatan k\u00e4sittely tehtiin kokonaan argumenttiluokittelua hy\u00f6dynt\u00e4en. Koska aikaa oli v\u00e4h\u00e4n, p\u00e4\u00e4dyimme tarkastelemaan dataamme l\u00e4hinn\u00e4 \u201det\u00e4\u00e4lt\u00e4\u201d, eli esimerkiksi aihemallinnuksella (\u201dTopic modeling\u201d) ja miten luokitukset jakautuivat aikav\u00e4lill\u00e4. T\u00e4m\u00e4 tarkoitti omalla kohdallani syv\u00e4\u00e4n p\u00e4\u00e4tyyn hypp\u00e4\u00e4mist\u00e4, eli paneutumista luokiteltujen csv-tiedostojen visualisointiin. <\/p>\n\n\n\n<p>Torstain p\u00e4\u00e4tteeksi vaihdoimme sijaintimme yliopiston taukohuoneeseen viimeistell\u00e4ksemme posterimme. Olen varma, ett\u00e4 kaikki verenkierto kasvoistani loppui hetkeksi kokonaan, kun dosentti Jani Marjanen k\u00e4ski minut tuottamaan edell\u00e4 mainitun pinotun kaavion \u201dsteamgraphin\u201d ajallisesta datastamme. Sain apua ryhm\u00e4mme tietotekniikan eksperteilt\u00e4 ja sain tehty\u00e4 useita alakirjastoja hy\u00f6dynt\u00e4v\u00e4n koodinp\u00e4tk\u00e4n, jossa x-akseli kuvastaa kulunutta aikaa, ja y-akselilla n\u00e4kyy \u201dpinottuna\u201d eri argumenttiluokitusten esiintyminen.&nbsp;&nbsp;<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1004\" height=\"546\" src=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-2.png\" alt=\"\" class=\"wp-image-4028\" srcset=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-2.png 1004w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-2-300x163.png 300w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-2-768x418.png 768w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-2-676x368.png 676w\" sizes=\"auto, (max-width: 1004px) 100vw, 1004px\" \/><figcaption class=\"wp-element-caption\"><em>Esimerkkin\u00e4 Ukrainan parlamentin argumenttiluokituksien jakautuminen<\/em> steamgraph- kaaviona<\/figcaption><\/figure>\n\n\n\n<p>Sain onneksi apua ryhm\u00e4mme tietotekniikan eksperteilt\u00e4 teht\u00e4v\u00e4n toteutukseen. Datan j\u00e4rjest\u00e4minen ajallisesti onnistui minulta viel\u00e4 kohtalaisesti, mutta visualisointi ei olisi ollut mahdollista ilman opastusta.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"511\" src=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-4-1024x511.png\" alt=\"\" class=\"wp-image-4030\" srcset=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-4-1024x511.png 1024w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-4-300x150.png 300w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-4-768x383.png 768w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-4-676x337.png 676w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-4.png 1101w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\"><em>Ensimm\u00e4isen rivin funktion tekemiseen sain apua Tuukka Puonnilta, syv\u00e4t kiitokseni!<\/em><\/figcaption><\/figure>\n\n\n\n<p>Voin siis l\u00e4mpim\u00e4sti suositella hackathonia digitaalisista ihmistieteist\u00e4 kiinnostuneille opiskelijoille, sill\u00e4 k\u00e4yt\u00e4nn\u00f6n tutkimusty\u00f6 eri menetelmien parissa selkeytti ainakin omalla kohdalla ajatuksen siit\u00e4, millaista tietoa humanisti voi saada irti esimerkiksi edell\u00e4 mainitusta datasetin muodossa olevasta aineistosta, mink\u00e4laisia taitoja t\u00e4h\u00e4n prosessiin tarvitaan ja miten humanisti voi parhaiten ottaa osaa useita eri tieteenaloja yhdist\u00e4viin projekteihin. Annotointi on mielest\u00e4ni t\u00e4st\u00e4 hyv\u00e4 esimerkki: Henkil\u00f6kohtaisesti koen, ett\u00e4 luokitteluty\u00f6n edistyminen johtui kokonaisvaltaisesta kehityksest\u00e4 koko tutkimusprosessin aikana. Annotoinnin oppiminen oli kokonaisuus, joka edellytti luokkien m\u00e4\u00e4ritelmien jatkuvaa tarkentamista, kommunikointia eri annotaattorien v\u00e4lill\u00e4 ja aikaa \u201dviritt\u00e4yty\u00e4\u201d eri maiden parlamenttien retoriikkaan ja kulttuureihin. Vaikka k\u00e4ytimme Ukrainan ja Slovenian parlamenttien lauseiden k\u00e4\u00e4nt\u00e4miseen Deep Translate<em> &#8211;<\/em>sivustoa, k\u00e4vimme keskustelua my\u00f6s ryhm\u00e4mme sis\u00e4ll\u00e4 k\u00e4\u00e4nn\u00f6sten tarkkuudesta ja kulttuurisesta kontekstista, jolloin \u00e4idinkielen\u00e4\u00e4n ukrainaa ja sloveniaa puhuvat Artur Voit-Antal ja Marko olivat todella t\u00e4rke\u00e4ss\u00e4 roolissa.<\/p>\n\n\n\n<p>Toinen todella t\u00e4rke\u00e4 oppi liittyy ohjelmointitaitoihin. Ajatellen nyt j\u00e4lkeenp\u00e4in, miten k\u00e4ytin suuren osan viime lukuvuodesta digitaalisen kielentutkimuksen opintoihin, joiden parissa p\u00e4\u00e4sin \u201dvierailemaan\u201d my\u00f6s tietojenk\u00e4sittelytieteiden ja teko\u00e4lyn perusteiden parissa, voin todeta, ett\u00e4 kyseiset opinnot antoivat melko hyv\u00e4t valmiudet hackathoniin, mutta niiden lis\u00e4ksi syventyminen datatieteisiin olisi voinut olla hy\u00f6dyksi. Kun pohdin ohjelmointitaitoja vaativia teht\u00e4vi\u00e4ni hackathonin aikana, on kuitenkin painotettava, ett\u00e4 tuotin lopulta m\u00e4\u00e4r\u00e4llisesti hyvin v\u00e4h\u00e4n koodia. Lopulta visualisoinnit eiv\u00e4t vaatineet juurikaan ohjelmoinnin perusteiden taitoja, vaan tiettyj\u00e4 apukirjastoja (esim. Pandas ja Matplotlib) ja datarakenteiden (esim. csv ja tsv) tuntemista. K\u00e4sitt\u00e4\u00e4kseni t\u00e4m\u00e4n kaltainen osaaminen historian ja tietojenk\u00e4sittelytieteiden rajamailla on yleens\u00e4 hoidettu yhteisty\u00f6ss\u00e4 eri tutkimusalojen v\u00e4lill\u00e4 sen sijaan, ett\u00e4 yksitt\u00e4inen asiantuntija toteuttaisi kaiken aineiston keruusta koodin tuottamiseen ja tulosten analyysiin visualisointeineen. Vaikka yliopistojen tarjoamat ohjelmointikurssit on mielest\u00e4ni laadukkaita ja hy\u00f6dyllisi\u00e4 taustaopinnoista riippumatta, kattavan monialaisuuden saavuttaminen digitaalisena ihmistieteilij\u00e4n\u00e4 on ainakin omien kokemuksien perusteella parhaiten saavutettavissa k\u00e4yt\u00e4nn\u00f6n tutkimusprosessin, esimerkiksi hackathonin kaltaisten mahdollisuuksien aikana.<\/p>\n\n\n\n<p>Pohdin my\u00f6s, millainen kokonaisuus tietokoneavusteisuudesta kiinnostuneelle ihmistieteiden opiskelijalle olisi mahdollisimman sujuvasti omaksuttavissa ja tarpeeksi k\u00e4yt\u00e4nn\u00f6nl\u00e4heinen. Ohjelmoinnin perusteet johdattavat hyvin tietojenk\u00e4sittelytieteiden perusteisiin, mutta omissa toiveissani datatieteist\u00e4 olisi my\u00f6s saatavilla samankaltainen toteutus, kuten <em>Tilastotieteen peruskurssi soveltajille<\/em>, jossa k\u00e4yt\u00e4isiin l\u00e4pi esimerkiksi korpustyyppisten aineistojen tilastollista mallintamista ja analyysia k\u00e4yt\u00e4nn\u00f6n esimerkkien, kuten vaikka Pythonin Pandas<ins> <\/ins>-kirjaston avulla. Turun yliopiston digitaalisen historian ty\u00f6pajakurssi johdattaa k\u00e4yt\u00e4nn\u00f6nl\u00e4heisesti Galen digitaalisessa ymp\u00e4rist\u00f6ss\u00e4<a href=\"#_ftn1\" id=\"_ftnref1\">[5]<\/a> eri analyysien, esimerkiksi aihemallinnuksen ja sentimenttianalyysin periaatteisiin helppok\u00e4ytt\u00f6isill\u00e4 ty\u00f6kaluilla. Edell\u00e4 mainittu oma toivekurssini olisikin jatkoa ty\u00f6pajalle, mutta painotus olisi k\u00e4yt\u00e4nn\u00f6n ohjelmoinnissa, eik\u00e4 niink\u00e4\u00e4n aputy\u00f6kalujen k\u00e4yt\u00f6ss\u00e4. Ty\u00f6kalujen rajat tulevat vastaan etenkin useita eri kieli\u00e4 sis\u00e4lt\u00e4vien datasettien kohdalla, sill\u00e4 suuri osa valmiista ohjelmista on suunniteltu englanninkielist\u00e4 dataa varten ja omien kokemuksien perusteella t\u00e4llaisten sovelluksien muokkaaminen esimerkiksi kielen osalta on usein hyvin ty\u00f6l\u00e4s ja monimutkainen prosessi. Lis\u00e4ksi ohjelmien toiminnan selitt\u00e4minen akateemisen tutkimuksen avoimuuden ja luotettavuuden kohdalla saattaa olla hyvin ongelmallista tilanteessa, jossa tietokoneavusteisen ty\u00f6kalun algoritmia ei pysty selitt\u00e4m\u00e4\u00e4n, tai algoritmia ei ole edes mahdollista saada esille joko koodina tai dokumenttina.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1004\" height=\"523\" src=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-5.png\" alt=\"\" class=\"wp-image-4031\" srcset=\"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-5.png 1004w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-5-300x156.png 300w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-5-768x400.png 768w, https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-content\/uploads\/sites\/652\/2024\/08\/image-5-676x352.png 676w\" sizes=\"auto, (max-width: 1004px) 100vw, 1004px\" \/><figcaption class=\"wp-element-caption\">Esimerkki Galen sentimenttianalyysin koodista, jonka toiminta on mielest\u00e4ni melko hyvin dokumentoitu.<\/figcaption><\/figure>\n\n\n\n<p>Ajatellen realistisesti historianopiskelijan opintotaipaletta yliopistolla ja huomioiden tietokoneavusteisten menetelmien runsauden en usko, ett\u00e4 esimerkiksi kulttuurihistorian opiskelijalle on mahdollista r\u00e4\u00e4t\u00e4l\u00f6id\u00e4 kurssia, joka antaisi kaiken kattavat ty\u00f6kalut menneisyyden tutkimiseen tietokoneavusteisesti. Aiheesta kiinnostuneille paras tapa lienee lopulta haastaa itsens\u00e4 tietotekniikan opinnoilla ja kokeilla mahdollisuuksien mukaan k\u00e4yt\u00e4nn\u00f6n tutkimusprosessissa, mihin oma osaaminen vie. T\u00e4h\u00e4n Hackathon oli mielest\u00e4ni erinomainen tilaisuus: vaikka moni asia mit\u00e4 ajattelin tekev\u00e4ni ei toteutunut k\u00e4yt\u00e4nn\u00f6ss\u00e4 ja osaamisen puolesta jouduin v\u00e4lill\u00e4 nostamaan k\u00e4det ilmaan, lopputulema antoi runsaasti uusia taitoja sek\u00e4 tulevia opintoja ett\u00e4 maisteritutkinnon j\u00e4lkeist\u00e4 aikaa ajatellen.<\/p>\n\n\n\n<p>Lopulta reitti historianopiskelijasta digitaaliseksi ihmistieteilij\u00e4ksi on parhaiten kartoitettu oman kiinnostuksen mukaan. Hackathon osoitti, ett\u00e4 n\u00e4enn\u00e4isen v\u00e4h\u00e4iset taidot tietyll\u00e4 osa-alueella eiv\u00e4t tarkoita automaattisesti olematonta roolia tutkimuksen kokonaisuuden kannalta. Samoin vertaisoppiminen yhdess\u00e4 esimerkiksi datatieteen parissa rutiininomaisesti ty\u00f6skentelevien opiskelijoiden kanssa johti ainakin omalla kohdalla ripe\u00e4\u00e4n kehittymiseen edell\u00e4 mainittujen visualisointien kanssa. Digitaalisten ihmistieteiden hallinta ja hy\u00f6dynt\u00e4minen tarkoittaa kuitenkin pitk\u00e4j\u00e4nteisyytt\u00e4 esimerkiksi ohjelmoinnin perusasioiden hallinnassa, mik\u00e4 ainakin itselle edustaa suurinta hyppy\u00e4 tuntemattomaan, hyvin kauas l\u00e4hes kaikista kandivaiheessa opituista taidoista. Kuitenkin t\u00e4llainen loikka on mielest\u00e4ni hy\u00f6dyllinen sek\u00e4 akateemisen osaamisen<del>,<\/del> ett\u00e4 mahdollisten tulevien ty\u00f6el\u00e4m\u00e4taitojen kannalta.<\/p>\n\n\n\n<p><em>Johan Wahlsten on kulttuurihistorian opiskelija Turun yliopistossa. Blogiteksti on kirjoitettu osana digitaalisten ihmistieteiden hackathonin loppuraporttia  kes\u00e4ll\u00e4 2024.<\/em><\/p>\n\n\n\n<p class=\"has-regular-font-size\"><strong>Linkit ja l\u00e4hteet:<\/strong><\/p>\n\n\n\n<p><a href=\"#_ftnref1\" id=\"_ftn1\">[1]<\/a><a href=\"https:\/\/www.clarin.eu\/parlamint\">https:\/\/www.clarin.eu\/parlamint<\/a>. Haettu 21.6\u20132024.<\/p>\n\n\n\n<p><a href=\"#_ftnref2\" id=\"_ftn2\">[2]<\/a> <a href=\"https:\/\/www.helsinki.fi\/en\/digital-humanities\/dhh24-hackathon\/dhh24-themes\">https:\/\/www.helsinki.fi\/en\/digital-humanities\/dhh24-hackathon\/dhh24-themes<\/a>. Haettu 1.8\u20132024.<\/p>\n\n\n\n<p><a href=\"#_ftnref1\" id=\"_ftn1\">[3]<\/a> <a href=\"https:\/\/www.clarin.si\/ske\/#open\">https:\/\/www.clarin.si\/ske\/#open<\/a>. Haettu 1.8.2024.<\/p>\n\n\n\n<p><a href=\"#_ftnref1\" id=\"_ftn1\">[4]<\/a> Conneau, Alexis, et al. &#8221;Unsupervised cross-lingual representation learning at scale.&#8221; <em>arXiv preprint arXiv:1911.02116<\/em> (2019).<br>Foxlee, Neil \u2018Pivots and Levers: Political Rhetoric around \u201cCapitalism\u201d in Britain from the 1970s to the Present\u2019, <em>Contributions to the History of Concepts <\/em>13, no. 1 (2018): 75\u201399.<\/p>\n\n\n\n<p>Foxlee, Neil \u2018Pivots and Levers: Political Rhetoric around \u201cCapitalism\u201d in Britain from the 1970s to the Present\u2019, <em>Contributions to the History of Concepts <\/em>13, no. 1 (2018): 75\u201399.<\/p>\n\n\n\n<p><a href=\"#_ftnref1\" id=\"_ftn1\">[5]<\/a> <a href=\"https:\/\/www.gale.com\/intl\/primary-sources\/digital-scholar-lab\">https:\/\/www.gale.com\/intl\/primary-sources\/digital-scholar-lab<\/a>. Haettu 20.6-2024.<\/p>\n\n\n\n<p>CLARIN ERIC<\/p>\n\n\n\n<p><a href=\"https:\/\/www.clarin.eu\">https:\/\/www.clarin.eu<\/a><\/p>\n\n\n\n<p>Guldi, Jo. <em>The Dangerous Art of Text Mining: A Methodology for Digital History<\/em>. Cambridge University Press, 2023.<\/p>\n\n\n\n<p>HELDIG -Helsinki Centre for Digital Humanities<\/p>\n\n\n\n<p><a href=\"https:\/\/www.helsinki.fi\/en\/digital-humanities\">https:\/\/www.helsinki.fi\/en\/digital-humanities<\/a><\/p>\n\n\n\n<p><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Olen Turun yliopistossa ensimm\u00e4isen vuoden kulttuurihistorian maisteriopiskelija, ja olen opiskellut nyt vuoden verran sivuaineena digitaalista kielentutkimusta ja ohjelmointia. Osallistuin t\u00e4n\u00e4 kev\u00e4\u00e4n\u00e4 2024 Helsingin digitaalisten ihmistieteiden hackathoniin. Kiinnostukseni digitaalisia ihmistieteit\u00e4 ja tietokoneavusteisten menetelmien soveltamisesta on per\u00e4isin jo historian kandiopintojeni ajoiltani. K\u00e4yt\u00e4nn\u00f6ss\u00e4 digitaalisten ihmistieteiden kohdalla \u201dasiasta innostunut\u201d lienee sopiva ilmaus kuvastamaan taitojani puhuttaessa Computer-Science- osaamistani. Olinkin todella [&hellip;]<\/p>\n","protected":false},"author":37887,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3,5,7],"tags":[],"class_list":["post-4025","post","type-post","status-publish","format-standard","hentry","category-opetus","category-tutkimus","category-yleiset","post-preview"],"_links":{"self":[{"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/posts\/4025","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/users\/37887"}],"replies":[{"embeddable":true,"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/comments?post=4025"}],"version-history":[{"count":12,"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/posts\/4025\/revisions"}],"predecessor-version":[{"id":4043,"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/posts\/4025\/revisions\/4043"}],"wp:attachment":[{"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/media?parent=4025"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/categories?post=4025"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogit.utu.fi\/kulttuurihistoria\/wp-json\/wp\/v2\/tags?post=4025"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}