Artikkel

Data(vitenskap) endrer verden

Data(vitenskap) endrer verden

Gjennom to Sentre for forskningsdrevet innovasjon (SFI), suksess i EUs rammeprogrammer, nye fyrtårnprosjekter under IKT PLUSS i Norges Forskningsråd, samt etablering av et innovasjonsklyngeprosjekt er nå Universitetet i Oslo en svært betydelig aktør på den internasjonale arena innen datavitenskap.

Fra databehandling til informatikk

Jeg skal ikke ta for meg datamaskinen historie her, men den ble i sin tid utviklet for å utføre beregninger, og vitenskapen eller fagfeltet som oppsto i kjølevannet av datamaskinen fremvekst ble betegnet som databehandling. Etter hvert ble andre begreper brukt for fagfeltet. Vi bruker i dag begrepet informatikk og den korteste beskrivelsen av informatikk som jeg kjenner til er følgende: Informatikk er læren om konstruksjon og bruk av datasystemer. Jeg antar at alle har en følelse av hva et datasystem er, men leser du gjennom hele denne artikkel finner du litt mer om disse begrepene mot slutten.  Men, nå til dagens tema!

Hva er datavitenskap?

Slik informatikk er definert over handler den disiplinen om mer enn å håndtere data, selv om et datasystem uten data er rimelig verdiløst. Datavitenskap handler selvfølgelig om forskning knyttet håndtering og utnyttelse av data (på digital form), og vi vil være særlig opptatt av store datamengder. Motebegrepet ”big data” oppsto for noen år siden og gjennom de siste årene bredt seg som en farsott over hele kloden. Greit nok, men ordet ”big” er ikke nødvendigvis dekkende for hva dette handler. Begrepet datavitenskap er derfor lansert som et bedre begrep og her er et forsøk på en forklaring hva datavitenskap er og betyr. jeg kunne tenke meg en definisjon omtrent som følger: Datavitenskap handler om å utvikle teorier, metoder og verktøy for å hente kunnskap eller innsikt ut av (store) datamengder.

En grov skisse av veien fra data til økt innsikt i en eller annen problemstilling er skissert i bildet eller figuren som følger dette innleggene. Ikke bry deg for mye om pilene, men de skal illustrere at alt henger sammen i denne figuren.  En åpenbar observasjon er at datavitenskap må være sterkt tverrfaglig med faglige bidrag fra verktøyfagene informatikk og matematikk samt det fagområde eller det anvendelsesområde som skal hente kunnskap eller øke sin innsikt ved fra data.

SIRIUS – Scalable Access to Big Data

Tilgang til store datamengder er krevende og utfordringene kan i all hovedsak deles i fire kategorier.  Det er i seg selv en utfordringen at datamengdene er store, dvs. volum betyr mye (derav begrepet ”big data”). Videre er det en utfordring at data fra ulike målesystemer (sensorer) kommer hurtig og at de analysene som skal gjennomføres må skje raskt, helst i sann tid. Så hvor fort data oppstår og skal brukes er viktig, dvs. hastighet betyr mye.  Kanskje enda mer utfordrende enn hastighet er at data som ønskes brukt kommer fra forskjellige kilder. Data eksisterer på forskjellige formater, men skal i en eller annen form behandles i sammenheng. En viktig utfordring er derfor å håndtere variasjon i datagrunnlaget. Den fjerde og kanskje vanskeligste oppgaven er å forstå og løse opp i den kompleksitet som ligger i de å kombinere en stadig økende datamengde av både strukturerte og ustrukturerte data.

Vårt nye Senter for forskningsdrevet innovasjon (SFI), SIRIUS – Scalable Access to Big Data har nettopp tilgang til data som sitt fokuserte område, men arbeider selvfølgelig også med analyse- og presentasjonsverktøy for å gi brukeren, enten det er en bedrift eller et annet fagfelt den nødvendige innsikt i det underliggende datagrunnlaget. SIRIUS er videre basert på forskningen i et stort EU-prosjekte (Optique) og miljøet har søkt ytterligere midler fra EU under Horizon2020.

Big Insigth – Statistics for the knowledge economy

Analysefeltet er stort og bredt og handler om å utnytte datamaskinens regnekraft, i mange tilfeller de kraftigste datamaskinene vi har. Disse superdatamaskinene består av flere titalls tusen regnekjernen. Under dette området kan man sortere ulike former for metoder. Viktige kategorier er søke-, gjenfinning- eller filtreringsmetoder som leter etter noe eksakt, en hendelse, et mønster, e.l. Noen metoder utnyttes for det motsatte, nemlig hvilke data kan jeg med sikkerhet kaste. Ulike former for simuleringer av fenomener og prosesser  er også avhengig av data og de produserer data. Et av mange eksempler er beregninger knyttet til vær og klima. Et annet eksempel kan være beregninger knyttet til forståelse av de grunnleggende funksjonene til vår hjertemuskel eller i hjernen.

Statistiske metoder  blir stadig mer vanlig  og sammen med Norsk regnesentral har vi nylig etablert et Senter for forskningsdrevet innovasjon, ”Big Insight” – statistics for the knowledge economy. Dette senteret har fokus på to hovedområder; i) persontilpassede løsninger og 2) prediksjon av endring eller endret oppførsel.

Visualisering er viktig

Økt innsikt krever riktig og god presentasjon av de funnene som kommer ut av analysene. Grafisk fremstilling og ulike former for visualisering er derfor ekstremt viktig. Jeg skal ikke gå videre inn på dette utover at det på dette området finnes mange gode verktøy, og at vi og andre miljøer rundt omkring i verden stadig utvikler nye teknikker og metoder for bedre visualisere og fremstilling av data.

Fyrtårn under IKT PLUSS

Denne uka gav Norges forskningsråd støtte til tre såkalte fyrtårnprosjekter under IKT PLUSS. Institutt for informatikk her på Universitetet i Oslo er sterkt med i alle tre prosjektene og ett av prosjektene har et særlig fokus på håndtering og utnyttelse av store datamengder innen medisin og helse. Les mer om dette i Svein Stølen utmerkede bloggartikkel – IKT skal revolusjonere helsevesenet.

Egeninitiert innovasjonsklynge-prosjekt

I tillegg til suksessen i Norges forskningsråd og EU har vi etablert et egen innovasjonsklynge-prosjekt med fire 4-årige stipendiatstillinger der vi skal bygge bro mellom SIRIUS og Big Insigth. Dette prosjektet som har fått det fine navnet DataScience@UiO og involvere nye industripartnerne i tillegg til de som allerede er tilknyttet til de to SFIene. Prosjektet har også planer for egne kommersialiseringer. Videre tar prosjektet mål av seg å legge grunnlaget for en ny studieretning innen datavitenskap.

Data(vitenskap) endrer verden

Dette var tittelen på dette blogginnlegget, men jeg har fortsatt ikke argumentert særlig sterkt for den påstanden som ligger i denne tittelen. Jeg vil imidlertid gjøre det nokså enkelt. Vår nysgjerrighet og skapertrang har siden tidenes morgen endret verden. Vår nysgjerrighet og skapertrang ble etter hvert systematisert gjennom forskning og vitenskapelig arbeid. De siste 2-300 årene har vitenskapene endret verden og det vil vitenskapelig fremskritt også gjøre i fremtiden. Data endrer vitenskapene, så data(vitenskap) vil endre verden. Og forøvrig, endringene er allerede langt kommet!

Litt om noen begreper

Hva er et datasystem? Det vanlige er at et datasystem består av en eller flere datamaskiner som kjører programvare og kan være knyttet til et eller flere nettverk for overføring av data. Data, som kan ha en rekke forskjellige tolkninger, er tall som i sin mest basale form er representert med en serie med 0-ere og 1-ere. Informatikk er utførlig beskrevet både i den norske og den engelske versjonen av Wikipedia, men jeg anbefaler alle å bruke den relativt korte definisjonen jeg refererte til innledningsvis i dette innlegget.

Skriv ny kommentar

Verifiser deg (din epost-adresse vil ikke bli vist offentlig)