Pienten kieli- ja markkina-alueiden iso haaste tekoälyn ja koneoppimisen käytössä on se, että opetusdataa malleille on tarjolla vähemmän. MittMedian Magnus Engström kävi kertomassa Qvikin Business & Beers -illassa, miten yhtiö hyödyntää dataa tilausmyynnissä ja personoinnissa Suomea noin tuplasti suuremmalla markkina-alueella eli Ruotsissa. Qvikillä datan kypsyysasteisiin intohimoisesti suhtautuva Tuukka Puumala piti MittMedian ennakkoluulottomasta kokeiluasenteesta.

“MittMedian kerää esimerkiksi lokaatiodataa lukijoiden sijainnista ja vertaa sitä heidän lukemiinsa uutisiin. Kiinnostaako lukijaa lähellä tapahtuvat uutiset, vai onko se pelkkä myytti? Tämä on juuri oikea asenne testata asioita.”

MittMedialla on oma datatiimi, jossa on sekä ohjelmistokehittäjiä että datatieteilijöitä. Siksi kehitysprojektien ja -kokeilujen tekeminen on nopeaa ja helppoa. Mutta miten tällaisen datapohjaiseen sisältötestaukseen pääsee kiinni, jos omaa tiimiä ei talossa ole? Mitä Qvik tekisi?

“Me lähtisimme tekemään pieniä, parin kuukauden mittaisia kokeiluja vaikkapa sen suhteen, millä tavoin ihmisiä voisi houkutella viipymään sivustolla pidempään. Seuraisimme viekö se heidät helpommin ostajaputkeen hankkimaan tilausta. Mitataan, tehdään muutoksia ja kokeillaan, saadaanko mittareita liikkumaan haluttuun suuntaan. Sitä se datalla tekeminen on.”

MittMedian datatesteissä on huomattu esimerkiksi se, että luettujen juttujen määrässä on suora korrelaatio tilauksiin. Mitä useamman jutun käyttäjä lukee sivustolta, sitä varmemmin hän siirtyy tilaajaksi. Mutta tilauksen tekemisen jälkeen tapahtuu hassu ilmiö: luettava ikään kuin loppuu kesken, ja uusi asiakas alkaakin lukea vähemmän. Tämä taas vaikuttaa negatiivisesti tilauksen uusimiseen.

“Personointi ja luettavan tarjoaminen on vaikeaa, koska sisältöä pitäisi olla niin valtavasti. Juuri sopivan luettavan tarjoaminen edes tekoälyn avulla on haastavaa, jos sisältöä ei yksinkertaisesti ole,” Puumala kuvailee ongelmaa.

Suomen kokoisella markkinalla tarvitaan erilaisia ratkaisuja kuin USAssa

Ahti Ahde, Qvikin raskaan sarjan datapilkkoja, pitää erityisesti riittävän datamäärän ongelmaa pienten kieli- ja markkina-alueiden riesana.

“Koneoppimisen kanssa tulee opetusdataan liittyviä määrällisiä ja laadullisia ongelmia, kun sekä lukijoita että vaikkapa artikkeleita suomenkielisillä uutissivustoilla on niin vähän verrattuna saksankieliseen tai englanninkieliseen tarjontaan. Esimerkiksi Googlen tai Amazonin pilvipalveluissa suomea työstävien palveluiden laatu on huomattavasti valtakieliä jäljessä.”

Vaikka tekoäly- ja koneoppimistyökalut on tällä hetkellä suunniteltu suurille markkinoille, se ei estä Qvikiä luomasta ratkaisuja myös Suomeen.

“Työn alla on esimerkiksi käyttäjäpohjaisten sessioanalyysien lisääminen collaborative filtering menetelmiin ja semisupervised topic modeling -ratkaisuja, sekä unsupervised menetelmien jatkojalostus mm. Netflixin käyttämällä interleaving-menetelmällä. Niillä yritetään tunnistaa käyttäjä entistä paremmin jokaisella päätelaitteella ja tarjota heille juuri sopivaa sisältöä oikealla hetkellä oikeaan laitteeseen.”

Myös toimituksille mietitään työkaluja, joilla voitaisiin helpottaa esimerkiksi juttujen taustoitusta, nopeuttaa perehtymistä uuteen juttuaiheesen tai tuoda uusia näkökulmia aiemmin menestyneistä jutuista.

“Vaikka laskentatehon kustannuksista puhutaan datan käytön yhteydessä paljon, kustannukset eivät yleensä ole suurin ongelma. Ennemmin kyse on siitä, että löydetäänkö oikean kokoisia projekteja, joissa oppimisdatan ongelmat eivät tule vastaan ja joista johdettu analyysi täyttää jonkin selkeän taloudellisen tai operartiivisen tavoitteen”, Ahde kertaa tämän hetken perusongelmaa.