Dataflommen I: Data-dreven forskning

Alt som kan digitaliseres digitaliseres og verden fylles opp med data. Dette er data som kommer fra en stort antall kilder. Avansert utstyr, enten det er bildedannende maskiner som brukes på et sykehus, en satellitt utstyrt med et digitalt kamera som fotograferer jorda, eller et dataprogram som forsøker å beregne hvordan klima på jorda utvikler seg, produserer enorme datamengder. Tekst vi alle produserer, lyd (musikk), bilder og film som produseres og legges tilgjengelig på nettet i en eller annen form utgjør tilsammen enorme datamengder. Listen over dataproduserende enheter (mennesker og ting) og systemer er lang og omfattende, og den blir bare større og større. Kort sagt; dataflommen er over oss med en kraft vi ikke kunne forutsi noen få år tilbake!

Av Morten Dæhlen
Publisert 18. mai 2012
 

Alt som kan digitaliseres digitaliseres og verden fylles opp med data. Dette er data som kommer fra en stort antall kilder. Avansert utstyr, enten det er bildedannende maskiner som brukes på et sykehus, en satellitt utstyrt med et digitalt kamera som fotograferer jorda, eller et dataprogram som forsøker å beregne hvordan klima på jorda utvikler seg, produserer enorme datamengder. Tekst vi alle produserer, lyd (musikk), bilder og film som produseres og legges tilgjengelig på nettet i en eller annen form utgjør tilsammen enorme datamengder. Listen over dataproduserende enheter (mennesker og ting) og systemer er lang og omfattende, og den blir bare større og større. Kort sagt; dataflommen er over oss med en kraft vi ikke kunne forutsi noen få år tilbake!

Denne utviklingen gir nye muligheter, den skaper noen utfordringer og den bidrar til endring. I en serie med korte artikler her på Dærnt´s Corner vil jeg i ukene som kommer belyse noen av disse muligheten, noen nye utfordringer som dukker opp i kjølevannet av den enorme dataproduksjonen, og beskrive noen endringer denne utviklingen skaper.

Forskningen drives av idéer som formuleres som hypoteser. Basert på idéene med påfølgende hypoteser undersøkes disse enten gjennom å utvikle teorier som bekrefter eller avkrefter hypotesen eller at det gjennomføres eksperimenter som gjør det samme. Slik vil det også være i fremtiden, men dataflommen gir forskningen én ny mulighet. Dataflommene eller en gitt delmengde av denne dataflommen er interessant fordi vi kan stille spørsmål som: Finnes det noe i denne flommen av data som forteller oss nye nytt? Er det mulig å avdekke sammenhenger vi ikke vet hva er eller ikke har sett før? Kan vi bruke datamaskinens regnekraft til å finne "nåla i høystakken" uten nødvendigvis å vite hvordan nåla ser ut? osv.

Det må selvfølgelig genereres idéer for hvordan man leter etter informasjon, og gitt at man finner noe stille de rette spørsmål og sette opp gode hypoteser for å undersøke hva man har funnet, men det interessante med dette er at forskningen er drevet frem av tilgangen på data, fortrinnsvis store mengder data og data fra kilder man ikke hadde for kun få år siden.

Verden er bare i startfasen når det gjelder data-dreven forskning og denne type inngang til forskningen er noe som brer om seg til stadig flere fagområder og disipliner. Utviklingen er svært interessant og den gir oss mange nye muligheter, men også noen utfordringer. Neste artikkel om dataflommen her på Dærnt´s Corner skal handle om én av disse utfordringene.