Image
""

Ikke er ikke så lett som det ser ut til. Illustrasjon: Colourbox, faksimile fra Naob.no, montasje: UiO

Ikke – et ord som skaper trøbbel for språkalgoritmene

Når vi snakker, bruker vi «ikke» og andre benektelser intuitivt. Det er ikke like enkelt for en kunstig intelligens som skal finne mening i språket.

Ikke, aldri, ingen, verken. Det norske språket har mange ord og uttrykk som på ulike måter benekter eller snur opp-ned på meningen i en setning. Vi har også ord som slutter på -løs eller ord som begynner på u- og mange andre langt mer avanserte formuleringer.

Negasjoner kaller språkforskerne dem.

– Hvis vi ikke hadde hatt negasjon, måtte vi potensielt hatt to ord for alle ting. Vi måtte hatt et ord for å spise og et ord for ikke å spise, et ord for å være og et ord for ikke å være, sier forsker Petter Mæhlum ved Institutt for informatikk ved Universitetet i Oslo.

Det finnes språk som har en del ekstra ord av denne typen. For eksempel har både tyrkisk, koreansk og japansk egne ord for «å finnes» og «å ikke finnes». Men livet er kanskje litt enklere med negasjoner.

– Man forenkler ordforrådet mye ved å ha et ord som ikke, sier Mæhlum til Titan.uio.no.

Negasjoner gjør hverdagen lettere for de fleste av oss. Men for språkteknologer som Mæhlum byr de også på store utfordringer.

Les også: Telling av ord viser hvordan de endrer betydning over tid

Vet ikke hva som skjer inne i den kunstige intelligensen

Det er nemlig ikke så lett å vite hva en kunstig intelligens gjør når de slippes løs på tekster som inneholder negasjoner. Og det gjør jo de aller fleste tekster, også tekstene forskerne bruker når de trener maskiner til å tolke hva du føler og mener når du skriver.

– Når vi snakker eller skriver, er det veldig intuitivt hva som skjer når vi bruker et ord som ikke. Men man vet ikke hva som skjer inne i algoritmene. Det er derfor det er problematisk.

Petter Mæhlum fra Language Technology Group (LTG) ved Institutt for informatikk. Foto: UiO

Når en kunstig intelligens blir satt til å trene på et datasett, ser den etter mønstre den kan bruke når den skal tolke helt andre data. Selv om tolkningene er riktige, vet vi ikke hvorfor de er riktige eller hvilke mønstre den har sett. Derfor vet ikke språkforskerne nøyaktig hva som skjer med ikke der inne i maskinene, men de vet at slike ord skaper litt trøbbel.

– Det er vanskelig å si hva som gjør negasjon så vanskelig for modellene. Jeg har fokusert mest på om vi kan se at det er vanskelig. Og det kan vi se, sier Mæhlum.

Han har vært med på å lage et datasett der maskinene får trent seg på nettopp negasjon.

Les også: Han lærer datamaskiner å forstå meningen bak ordene

Møysommelig tekstmerking

Forskerne i språkteknologigruppa Mæhlum tilhører, jobber med et kjempestort datasett med over 40 000 anmeldelser fra norske aviser. Det heter NoReC og er tilgjengelig for alle som vil forske i det.

Her driver de blant annet med det som kalles sentimentanalyse for å se om det er mulig å lage en algoritme som avdekker meninger og holdninger. For å få til dette må algoritmen ha et datasett å trene seg på først. Derfor har de plukket ut drøyt 400 av anmeldelsene der de møysommelig har markert alle tegn til positive og negative følelser. Dette datasettet heter NoReCfine.

– 400 høres ikke veldig mye ut, men det tar veldig lang tid å markere det, forteller Mæhlum.

Ikke står verken på lista over positive ord eller lista over negative ord. Men siden negasjoner er en så vanskelig ting i seg selv, og fordi de er et viktig element i anmeldelser, har Mæhlum brukt de samme drøyt 400 tekstene til å lage et treningsdatasett, NoReCneg, der alle former for negasjoner er markert manuelt. De har både markert negasjoner og det de negerer.

– Negasjon var en naturlig fortsettelse av arbeidet med sentimentanalyse. Vi vet at negasjoner er et viktig problem, en mulig feilkilde, i sentimentanalysen, sier Mæhlum.

– Datasettet er akkurat det samme. Det gjør at vi kan se på sentimentmarkeringene og negasjonsmarkeringene og se på overlappet mellom dem.

Trenger en treningsarena

Dit har ikke forskerne kommet ennå. Det viktigste i første omgang var å lage datasettet med negasjoner som gjør dette mulig.

Hvis det står «Jeg hater ikke denne bilen», vil de at algoritmen skal forstå at det er positivt, eller i hvert fall ikke fullt så negativt. Hvis det står «Jeg liker ikke denne bilen», så vil de at den skal forstå at det er negativt, det motsatte av «Jeg liker denne bilen».

– Målet med dette er tre ting, sier Mæhlum.

– Det ene er å si noe om hvordan negasjon ter seg i norsk, spesielt i anmeldelsessjangeren.

– Det andre er ha et verktøy for å identifisere feilkilder. Hvis vi ser at det feil i sentimentanalysene, kan vi for eksempel se om det stemmer overens med der vi finner negasjon.

– For det tredje har vi nå et verktøy til maskinlæring, et datasett som kan være grunnlag for å trene en algoritme til å kjenne igjen en negasjon.

Vitenskapelig artikkel:

Petter Mæhlum, Jeremy Barnes, Robin Kurtz, Lilja Øvrelid og Erik Velldal: Negation in Norwegian: an annotated dataset . I Dobnik og Øvrelid (red.): Proceedings of the 23rd Nordic Conference on Computational Linguistics (NoDaLiDa). Linköping University Electronic Press, 2021.