Artikkel

Forskningsdataenes sikre hule

Gard Thomassen
Gard Thomassen i det aller helligste, i tungregnesenteret i kjelleren på Institutt for informatikk ved UiO. Foto: Gunhild M. Haugnes/UiO Bruk bildet.

Forskningsdataenes sikre hule

IT-revolusjonen har gitt forskerne nye, slagkraftige verktøy og har ført til store gjennombrudd. Manglende tilgang på sikre datasystemer har imidlertid vært en bremsekloss. Men så kom TSD.

TSD, som står for Tjenester for Sensitive data, har vakt stor interesse langt ut over landegrensene.

– Ja, det er mange som blir inspirert av det vi har gjort. Norge og Norden er langt framme på dette feltet, sier Gard Thomassen, som er prosjektleder for TSD hos USIT (Universitetets senter for informasjonsteknologi).

Tidligere jobbet han som forsker ved UiO og Radiumhospitalet innen kreftsekvensering. Thomassen og kollegene arbeidet med store mengder data fra kreftsvulster og annen type pasientinformasjon.

Disse dataene var nødvendige for at forskerne skulle kunne skaffe seg mer kunnskap om kreft - for i neste omgang å forsøke å finne bedre behandling mot de fryktede sykdommene. Men Thomassen støtte raskt på problemer. Det fantes ikke gode nok systemer for sikker lagring og håndtering av slike enorme datamengder.

Fikk ikke gjort jobben sin

– Jeg kom ikke videre med forskningen, jeg fikk rett og slett ikke gjort jobben min. Det var veldig frustrerende, sier han.

TSD

  • TSD (Tjenester for Sensitive Data) er et sett med tjenester, fra innsamling av data til analyse, behandling og lagring, i sikrede omgivelser.
  • TSD brukes på UiO og av mange nasjonale forskningsinstitusjoner – og indirekte av andre samfunnsinstitusjoner og næringsliv.

For å gjøre en lang historie kort: Flere aktører klarte å skrape sammen nok penger til å bygge opp en tjeneste for sensitive data i samarbeid med Uninett Sigma2 og USIT. Og Thomassen ble prosjektleder for dette i 2012.

– Det var et tungt og vanskelig prosjekt. Hele bredden av kompetanse ved USIT måtte involveres - og mer til, sier han.

Likevel ble TSD født to år senere - en prematur baby med en del problemer. Systemene var sikre hele tiden, alle data ble trygt lagret. Men det var en del plunder, blant annet med krasj og brukere som ikke fikk logget på.

– Men det har gått seg til. Nå er det stabilt og fungerer som det skal, sier en strålende fornøyd prosjektleder.

Kundene strømmer på

TSD ble raskt populært. For det er mange forskere som jobber med sensitive data, data som absolutt ikke må komme på avveie. Det kan for eksempel være ulike former for helseopplysninger og annen personinformasjon, men også oppfinnelser, innovasjoner, lisensiert bedriftsinformasjon med mer.

Nyopprettede Senter for bioinformatikk ved UiO er eksempel på en ny, kommende storbruker av TSD. Her skal mysterier innen biologi og helse kunne løses på datamaskinen, blant annet handler det om sekvensering av hele kreftgenomer.

På USIT jobber også en gruppe med å utvikle sikre apper for forskere ved UiO og andre forskningsinstitusjoner, ikke minst innen ulike helseområder. I SIRIUS-prosjektet handler det om store mengder oljerelaterte data.

Det er ikke bare forskere som jobber med sensitive data. Også aktører innen næringsliv, sykehus og andre samfunnsinstitusjoner bruker indirekte TSDs tjenester gjennom ulike forskningsprosjekter.

– Nye tjenester utvikles stadig. Blant annet er det nylig igangsatt et forskningsprosjekt der BankID fra Difi gir sykepleiere tilgang til rapporter om pasientens næringsinntak, sier Thomassen.

Fra excel-ark til tung visualising

I dag er det over 430 forskningsprosjekter og 2500 brukere i TSD, og antallet er økende. Behovene er ulike.

dragen, USIT
Her er verdens raskeste server for analyse av humane helgenom; Dragen. Foto: Gunhild M . Haugnes/UiO Bruk bildet.

– Noen har kanskje bare noen excel-ark med sensitive personopplysninger. De krever ikke mye plass, mens andre for eksempel kan ha tunge visualiseringer av kreftsvulster eller hjerneskanninger. Det krever enormt mye lagringskapasitet og kraftige prosessorer med GPU-akseleratorer. Vi forsøker nå å hjelpe et miljø som skal bruke TSD til chipdesign der alle data er under en meget streng NDA (non disclosure agreement - hemmelig avtale), sier Thomassen.

Og totalt sett er man i ferd med å sprenge kapasiteten på den nåværende regneklyngen i TSD. Regneklyngen heter Colossus og har rundt 1500 kjerner. Mot slutten av 2018 skal TSD investere i en vesentlig utvidelse av maskinkapasiteten, med midler fra Forskningsrådet og UiO.

– Vi ser at det stadig oftere blir kø, men så langt har vi klart å håndtere den, sier han.

USIT har også tatt i bruk verdens raskeste server for analyse av humane helgenomdata, nemlig Dragen fra Edico Genomics/Illumina. Denne har tatt i bruk en FPGA (Field-Programmable Gate Array).

– FPGA'er er populære blant dem som driver utvinning av Bitcoin, men hos oss er vi mer opptatt av at den er i stand til å analysere 1800 helgenomer veldig raskt – i forbindelse med et forskningsprosjekt som handler om arvelig kreft.

Nordisk og europeisk samarbeid

TSD har også fått stor internasjonal oppmerksomhet. Ikke minst har European Open Science Cloud vist stor interesse for det. Europa har som mål å bli store på tungregning. Håndtering av sensitive data er en sentral del av dette.

Et annet eksempel: Universitetet i Uppsala har egne løsninger for humangenomikken basert på TSD, men er nå interessert i å benytte TSD for datainnsamling, lyd og video.

– Det er også snakk om nordisk harmonisering og samordning på dette feltet, noe som vil være nyttig for forskningen. Ikke minst er det aktuelt innen forskning på sjeldne sykdommer. For eksempel kan nordiske forskere nå oppnå større kohorter (datasett) i sine studier ettersom flytting av data over landegrensene blir mye enklere. Dette fordi man stoler på de ulike TSD-utgavene i Norden, sier Thomassen.

Gard Thomassen forteller mer om TSD på Cutting Edge-festivalen 25. september.

Lær mer om TSD via denne videoen:

Mer på Titan:

Kontakt:

Prosjektleder Gard Thomassen, TSD ved USIT

Skriv ny kommentar

Verifiser deg (din epost-adresse vil ikke bli vist offentlig)

Les også