Hyppää sisältöön

Satojentuhansien suomalaisten genomidata matkalla pilveen – tietoturvaan suhtauduttava vakavasti

Qvik on mukana historiallisen laajassa molekyylilääketieteellisessä FinnGen-hankkeessa, jonka tavoitteena on paikantaa sairauksille altistavia geneettisiä tekijöitä DNA:sta. Näin mittavan tiedeprojektin vienti pilveen on vielä harvinaista.

Alttius monille sairauksille näkyy ihmisen geeneistä, jos tietää mistä etsiä. Haasteena on, että ihmisen DNA on pari metriä pitkä ja vaikeaselkoinen ketju, joka koostuu yli kolmesta miljardista emäsparista.

Yhden sairauden puhkeamiseen voivat vaikuttaa sadattuhannet eri geenivariantit, jotka kukin sijaitsevat jossain päin DNA-ketjua. Tyypillisesti yksittäisen geenivariantin merkitys on hyvin pieni ja vasta yhteisvaikutus saa sairauden puhkeamaan.

Suomalaisten geeniperimää kartoittava FinnGen-hanke on poikkeukselisen laaja. Kyseessä on samalla yksi harvoista eurooppalaisista tiedeprojekteista, jossa näin laaja tutkimushanke on viety suoraan pilveen ja jossa myös tutkijat tekevät analyysejä pilvipalvelun kautta.

Qvik on rakentanut Google Cloud Platformiin järjestelmän, johon FinnGen-hankkeessa hyödynnettävä genomidata säilötään tietoturvallisesti ja josta tutkijat pääsevät tarvittaviin tietoihin käsiksi.

Valtava datamäärä ja tietoturva hankkeen haasteina

Kuusivuotisessa FinnGen-hankkeessa julkinen sektori ja lääkeyhtiöt yhdistävät voimansa. Kiinnostavimpia tuloksia on odotettavissa, kun genomitieto saadaan yhdistettyä erilaisista terveysrekistereistä saataviin sairaus- ja lääkehistoriatietoihin.

Jotta tutkijat voivat löytää yhteyksiä yksilöllisten geneettisten erojen ja sairauksien välillä, tutkimusaineiston täytyy olla suuri. Tutkimukseen tarvittavan datamäärän tallennus ja käsittely asettavat järjestelmälle omat haasteensa. Tavoitteena on tallentaa järjestelmään puolen miljoonan suomalaisen genomidata.

“Vaikka geenidataan ei ole yhdistetty henkilötietoja, genomitieto luokitellaan aina yksilöiväksi arkaluonteiseksi tiedoksi”, sanoo FinnGen hankkeen IT- ja datavastaava Jarmo Harju.

Tämänlaisen tiedon käsittely on tarkasti säädeltyä.

“Tutkijoiden tulee päästä käsiksi vain rajattuun data-aineistoon, eikä tieto saa olla kopioitavissa tai ladattavissa. Järjestelmän toteuttaminen pysyi onneksi aikataulussa, vaikka vaatimukset tarkentuivat vasta lennossa projektin aikana.”

Pilvipalveluiden hyödyntäminen tiedeprojekteissa on vasta yleistymässä

Qvikin rakentamasta järjestelmästä FinnGen-hankkeen omat tutkijat pääsevät käsiksi perustutkimuksen kannalta tarpeellisiin tietoihin. Mukana oleville lääkeyhtiöille on sen sijaan avattu omat sandboxit eli rajatut ympäristöt, joiden kautta ne pääsevät käsiksi FinnGenin oman tutkijaryhmän tekemän core-tutkimuksen tuloksiin.

Pilvipalvelun hyödyntäminen edesauttaa tutkijoiden työtä monella tavalla, ja hanke onkin herättänyt tutkijapiireissä kiinnostusta.

“Moni lääketieteellinen tutkijaryhmä on kysellyt, miten olemme toteuttaneet hankkeen käytännössä, minkälaisia sopimuksia tähän liittyy ja minkälaisia käyttökokemuksia meillä tässä on”, Harju sanoo. “Esimerkiksi pilvipalvelun rajaton kapasiteetti ja katkoton palvelu helpottavat tutkijan elämää monella tapaa.”

Yleisin huolenaihe lääketieteellisissä tutkimushankkeissa on kuitenkin tietoturva.

“FinnGen-hanke on kiinnostava laajan akateemisten tutkimuslaitosten ja lääkeyritysten muodostaman kumppaniverkoston takia. Sisäisen verkon avaaminen näin laajalle ulkopuolisten käyttäjien joukolle ei tule kysymykseen, mutta pilvipalvelut tarjoavat tähän turvallisia ratkaisuja”, Harju sanoo. “Moni tutkijaryhmä on ollut esimerkiksi kiinnostunut, miten Qvikin rakentamat sandboxit on toteutettu.”

Nyt FinnGen-hanke on siinä pisteessä, että tutkimusympäristö on pystytetty ja itse tutkimus voi alkaa.

Kuvitus: Aija Malmioja

Etsi