Søkemotorer

Av Morten Dæhlen
Publisert 21. jan. 2011

Institutt for informatikk har startet et nytt kurs som har fått det klingende navnet Informatikkens verden. Dette kurset er en serie med forelesninger som skal gå gjennom hele 2011 og gi studentene en helhetlig tilnærming til informatikkfaget. Kurset er laget for bachelorstudenter i informatikk, men forelesningsserien er åpen for alle. Hver forelesning vil bli annonsert på kursets hjemmeside. Gjennom 2011 vil jeg etter hver forelesning, her på Dærnt's Corner, skrive en kort rapport fra forelesningene.  Alle rapportene vil bli lagt ut under overskriften "Informatikkens verden" i høyre kolonne på denne siden og på kursets hjemmeside.  Min ambisjon er å forsøke og tegne et helhetlig bilde av informatikkfaget og informatikkens betydning for samfunnsutviklingen.

For litt over to år siden kjøpte Microsoft det norsk selskapet Fast Search & Transfer AS. Dette selskap, som hadde utviklet ledende søketeknologi på den internasjonale arena siden midt på 1990-tallet er nå omdannet til  Microsoft Development Center Norway. Dette senteret ledes av Bjørn Olstad og vi var så heldige å få Bjørn til å gi første forelesning i serien om informatikkens verden. Tittelen på Bjørns foredrag var "Søkemotorer – fra smarte algoritmer til framtidens brukergrensesnitt og infrastruktur i skyen". Her er min rapport eller sagt på en annen måte mitt bilde av dette foredraget; Nesten overalt Nesten alle steder på nettet finnes det en liten rute. Der står ordet "søk" (eller "search"). Skriver du et ord eller et uttrykk i denne ruten og trykker på en "knapp" eller trykker "return" på ditt tastatur går det noen (milli)sekunder før du får presentert en liste med resultater av søket. Hva ligger bak denne ruta og hvordan er det mulig å søke i "alle verdens" hjemmesider og dokumenter på så kort tid? Det er milliarder av ord og uttrykk fordelt på millioner av steder der ute i nettet ett eller annet sted i verden. Oppslagsverket (indeksen) En første versjon, og noe som ble benyttet i søketeknologiens barndom (ca. 15 år siden) , var å søke gjennom all tilgjengelig tekst etter uttrykket, for deretter å presentere en liste over alt som ble funnet.  Denne fremgangsmåten tilsvarer at du setter deg ned og leser en bok fra side én til du finner det uttrykket du er ute etter og fortsetter å lese til du finner uttrykket en gang til, osv.  Det er heldigvis slik at mange bøker inneholder en liste over ord og utrykk, en såkaldt indeks, som forteller deg på hvilke sider i boka ulike ting er omtalt. Denne indeksen kan du bruke for å finne frem mer effektivt. En moderne søkemotor etablerer og oppdaterer en avansert indeks over hva som finnes der ute i det store nettet og hvor det befinner seg. Det vil også være slik at denne type indekser (eller digitale oppslagsverk) vil kunne variere fra anvendelse til anvendelse - et sted skal du f.eks. søke etter artikler om Marie Amelie i Aftenpostens arkiver mens du et annet sted skal finne ut hvem i hele verden kan mye om Pinus sylvestris? Hva mener du? En ting er å søke etter ord og konkrete uttrykk, noe annet er å forstå hva du mener. Skriver du i søkefeltet "wehn was einstein born" (merk skrivefeil) finner søkemotoren ut at du mest sannsynlig vil vite fødselsdatoen til  Albert Einstein, sjekk f.eks. WolframAlpha. Blir det for mange skrivefeil, f.eks. "wehn was einstein bron" klarer ikke systemet å forstå hva du mener selv om din hjerne kanskje kan tolke dette i riktig retning. Et av de viktigste og vanskeligste utviklingsområdene for moderne søketeknologi er å lage systemer som forstår hva du mener og kan bruke det til å finne den "riktige" informasjonen. Enorme datamengder Når man skal søke i alt tilgjengelig materiale over hele verden trenger man datakraft og de selskapene som lever søketeknologi bygger opp parker med servere som deler på oppgaven. Du skrivet et uttrykk og du sender oppgaven inn i søkemotoren. Oppgaven sendes så til et stort antall datamaskiner, f.eks. 100 stykker, som hver for seg søker etter det du er ute etter ved hjelp av oppslagsverket og avanserte algoritmer (oppskrifter) som leter etter mening og sammenhenger. Et litt enkelt bilde er at disse 100 maskinene deler verden mellom seg og at hver maskin søker i sin del! Hver maskin produserer et resultat som så skal settes sammen til den lista du får på din skjerm. Her blir det riktig komplisert. Hva skal ligge øverst på denne lista når systemet har produsert tusenvis (eller mange millioner) treff? Hva er viktigst (for deg)? En måte å se dette på er å plassere de mest populære sidene øverst i lista, og Google innførte det man kaller "pagerank". En side har høy "pagerank" dersom mange andre sider peker til denne siden. Høy "pagerank" skal bety at siden er populær! Ulempen ved dette er at dersom du ønsker at en side skal komme høyt opp kan du generere mange "dummy" sider med pekere (lenker) til den siden du ønsker at skal komme høyt opp. Markedet forsto dette fort, og de som utvikler søkemotorer måtte finne mottrekk. Jeg har ikke kunnskap nok til å vite hva disse motrekkene er og hvordan de fungere, men her kan vi jo spekulere litt, sammen? Et annet viktig og kritisk trekk ved utviklingen er at dersom søkeselskapene vet noe om deg kan de gjøre en bedre jobb for akkurat deg. Jo mer søkemotorene vet om dine interesser, jo flinkere blir de til å sortere listen av informasjon til din fordel.  Hva søker du på og hvordan søker du? Kan søkemotoren utnytte din søkehistorie? Konsekvensen er at søkemotoren vet noe om deg. Hva synes du om det? Eller, hva ønsker du at søkemotoren skal vite? Har de som driver søkemotoren  kontroll på den informasjon de har om deg? osv. Alt digitalt er søkbart Det finnes teknologier som søker i bilder. Finn alle bildene i mitt digitale album som domineres av ansikter, finn alle scoringer eller nesten scoringer i kampene i Tippeligaen eller let etter sinte utsagn i Dagsrevyen digitale arkiver, osv? Et av de viktigste verktøy i den digitale verden Søkemotoren er viktig for deg og meg, men denne teknologien utgjør også en stadig større del av forretningslivet. Brukt riktig kan den gi store fordeler i et internasjonalt marked der riktig informasjon til riktig tid er helt avgjørende for å lykkes.