Datadrevet forskning og utdanning

Av Morten Dæhlen
Publisert 22. des. 2014
 

Forskning og utdanning drives i stadig større omfang av tilgangen på til dels enorme datamengder fra ulike kilder, og datadrevet forskning og utdanning her blitt en vesentlig del av hverdagen i tilnærmet alle fagmiljøer. Det skjer over hele verden!

Begreper som "big data", "information driven society" og "open data access" går verden over, og de henviser til hva store datamengder i ulike former betyr og kan bety for næringsutvikling spesielt og samfunnsutvikling generelt. Innen forskning og utdanning blir data (på digital form) stadig viktigere og det skjer i tilnærmet hele den vitenskapelige bredde. Innen naturvitenskap og teknologi har det vært slik lenge, men de siste årene har dette slått gjennom med en kraft det var vanskelig å forutsi for kun få år siden.  Bedre og billigere målemetoder (sensorer) som fanger data i stor hastighet fra ulike kilder og beregninger i stor skala generere en dataflom som gir både utfordringer og muligheter. Her skal jeg holde meg til mulighetene denne utvikling gir for forskning og utdanning!

Ved UiO har vi i dag en rekke prosjekter og aktiviteter som er innrettet, både mot det å kunne håndtere store datamengder og det å avdekke kunnskap eller ny erkjennelse gjemt i store datamengder. Ekstra gledelig var det at vi i høst, i samarbeid med partnere, fikk tildelt to nye Sentre for Forskningsdrevet Innovasjon på området - Centre for Scalable Data Access (SIRIUS) og Big Insight, statistics for the knowledge economy.

Hva er datadrevet forskning og utdanning? Jeg har forsøkt å illustrere det ved figuren under. Bak denne figuren finnes det selvfølgelig en infrastruktur for beregninger bestående av små og store datamaskiner, systemer for lagring av store datamengder i ulike former for arkiver, nettverk som transporter data til og fra brukere og programavresystemer som gir oss tilgang til disse ressursene.

Hvor kommer data fra? Kildene for data kan grovt sett deles i tre hovedkategorier:

  • Sensorer som er en eller annen innretning som fanger data fra naturen eller et menneskeskapt system. (I dette bildet kan f.eks. sosiale medier ses på som en redskap for fangst av data.)
  • Beregninger er i seg selv en datagenererende aktivitet og står for en stor del av de data som brukes i forskning og utdanning
  • Arkiver eller databaser der data er samlet for et formål brukes i stadig større omfang også til andre formål, oftere og oftere integrert med data fra beregninger og sensorer.

Hva må gjøres for å få noe ut av de store datamengdene fra kildene nevnt over? Innen forskning og utdanning må det dannes modeller for representasjon og integrasjon av data slik at disse kan analyseres ved hjelp av ulike beregningsmetoder. Søkemetoder og metoder for filtrerer av data er også viktig for å finne frem til det som er interessant i store datamengder. Forskning på dette området handler både om utvikling av områdespesifikke metoder, som f.eks. innen biofag, medisin eller geofag, og utvikling av generiske metoder innen matematikk og informatikk. Skal man lykkes er det viktig å finne en god balanse mellom generiske aktiviteter og områdespesifikke aktiviteter. Metodeutvikling for store beregninger er tverrfaglig og krever kompetanse fra flere fagdisipliner.

Det neste steget er å presentere resultatene på en form som kan forstås og tolkes, og i stadig større omfang gjøres dette gjennom å presentere bilder og animasjoner. Det finnes selvfølgelig også andre måter å presentere resultater på. Ut av dette kommer det, forhåpentligvis, ny innsikt.

Dette er imidlertid en stor rundgang. Innsikt gir nye data som kan arkiveres for å skape ny innsikt. Ny innsikt gir informasjon slik at metoder og presentasjonsformer kan forbedres. Pilene i bildet under indikerer dette.Datadrevet forskning og utdanning - et overordnet bilde - en slags "big data pipeline"!

Anvender du dette på et område, f.eks. innenfor livsvitenskapene, handler det bl.a. om å utføre beregninger for å forstå prosesser og fenomener i kroppen, analyser av bilder (ultralyd, MR, mm), og studier av gensekvenser fra mennesker, dyr og planter. Her er det snakk om store datamengder, og utlysingen "Digitalt liv" under BIOTEK2021 i Norges forskningråd handler om akkurat dette. Vårt flaggskip innen utdanning, "Computing in Science Education", handler også om datadrevet utdanning der studenter allerede fra dag én eksponeres for forskning gjennom beregninger. I en eller annen form sentreres en stadig større del av forskning og utdanning rundt data - forskning og utdanning blir datasentrert! Når det er sagt vil fortsatt eksperimenter være viktig, ikke minst for å generere gode data!