Artikkel

Lingvistikk, statistikk og franske hatter

Fransk hatt
Er det mannen eller hatten? Kanskje språkteknologien kan finne ut av det hele. Foto: Colourbox

Lingvistikk, statistikk og franske hatter

Du har kanskje hørt at datamaskiner kun kan gjøre beregninger basert på 0 og 1. Med språkteknologi, kan datamaskiner bruke 0 og 1 til å forstå menneskespråk.

“Jenter liker gutter med hatter fra Frankrike”. Smak på setningen. Liker jenter franske gutter? Eller er gutter med franske hatter populære blant jentene?

Henrik Hillestad Løvold
Artikkelforfatter Henrik Hillestad Løvold er student ved forsknings­formidlingskurset MNKOM. Foto: Privat

Det kan kanskje datamaskinen fortelle deg. I grenseland mellom lingvistikk og statistikk, finner vi prosessering av naturlige språk, et felt innen informatikken.

Talegjenkjenning

Har du en iPhone, kan du neppe ha unngått å høre om funksjonen kalt Siri. Siri er et talegjenkjenningsprogram som forsøker å gi relevant tilbakemelding på spørsmål du stiller med stemmen din. For å forstå hva du spør om, benytter Siri seg av et oppslagsverk på internett.

Det som gjør Siri så smart, er at den “lærer” hvordan du formulerer deg, etterhvert som du bruker den, og gjør små justeringer hver gang den er i bruk, slik at den kan gi mer relevante tilbakemeldinger neste gang.

Kan datamaskinen lære?

Datamaskinen er ikke intelligent. Det eneste den kan gjøre, er å skille av fra , 0 fra 1. Det er den til gjengjeld veldig god til. Den er en ekte tallknuser, som kan regne ut de mest avanserte regnestykker på en brøkdel av tiden det ville tatt en professor i matematikk å gjøre de samme beregningene.

For tiden forskes det mye på metoder kalt maskinlæring(eng. machine learning).

Dette er teknikker som benyttes for å bruke datamaskinens regnekraft til å imitere menneskelig intelligens. Ved å trene datamaskinen til å gjenkjenne mønstre i tall og tallsystemer, kan vi gjøre den i stand til å ta valg basert på erfaring.

Statistikk og lingvistikk

Det første som faller deg inn når du hører om avansert statistikk og matematikk, er sannsynligvis ikke verb, substantiv og adjektiv. Men statistikken har mange anvendelser.

Prosessering av naturlige språk handler i stor grad om å anvende statistikk og sannsynlighet for å finne den mest sannsynlige betydningen av en setning. Ved å bruke maskinlæring, kan datamaskiner trenes til å beregne betydningen av en setning.

Innen lingvistikken finnes en teori som kalles den distribusjonelle hypotese. Den sier at ord som forekommer i en gitt kontekst, gjerne har lik betydning som ord som forekommer i liknende kontekster. Se på disse setningene:

  • Sploosh smaker som kakao og nøtter.
  • For mye Sploosh er usunt.

For et menneske er det opplagt at Sploosh er en slags sjokolade med nøttesmak. Ikke fordi vi har hørt ordet Sploosh før, men fordi det forekommer i en kontekst som gir oss assosiasjoner til noe vi allerede kjenner til — nøttesjokolade.

Jern og hjerne

I menneskehjernen finnes nervebaner som gjør oss i stand til å tenke. Gjennom nervebanene sendes elektriske impulser. Når vi tenker på sjokolade tennes visse nervebaner, og når vi tenker på iPhone tennes andre nervebaner. Strømmen er enten på, 1, eller av, 0, akkurat som i en datamaskin.

Hvordan har det seg da at mennesket forstår språk på et blunk, mens datamaskinen trenger avansert statistikk for å forstå den enkleste setning?

Svaret ligger i hjernens oppbygning, og menneskets evolusjon. Gjennom utviklingen av mennesket som art har kommunikasjon vært essensielt for overlevelsen. Vi er født, forhåndsprogrammert til å forstå menneskelig kommunikasjon, og trenger derfor verken professorer, statistiske formler eller lingvistiske hypoteser for å forstå språk.

Med dagens metoder kan vi gjøre datamaskinen i stand til å gjenkjenne mønstre i menneskespråk. Ut ifra disse mønstrene, kan vi beregne den mest sannsynlige betydningen av en setning. Kanskje kan datamaskinen gi svaret på om jenter foretrekker franske gutter eller franske hatter?

Les også på Titan.uio-no:

Vil redde nordiske språk i dataalderen Skal forskning på språkteknologi overlates til Google, Facebook og de andre IT-gigatene alene.

MNKOM-bloggen: Andre tekster fra formidlingsstudenter innen realfag og teknologi

Kontakt:

Vitenskapelig assistent Henrik Hillestad Løvold ved Institutt for informatikk

Skriv ny kommentar

Verifiser deg (din epost-adresse vil ikke bli vist offentlig)

Les også