Image
Stephan Oepen

Professor Stephan Oepen at University of Oslo is concerned about the future for large scale language technology science. Photo: Gunhild M. Haugnes/UiO

Vil redde nordiske språk i dataalderen

Skal forskning på storskala språkteknologi overlates til Google og Facebook og de andre IT-gigantene alene?

– Det må legges til rette for ikke-kommersiell forskning på språkteknologi. Dette er for viktig til kun å overlates til IT-bransjen, sier professor Stephan Oepen, leder av gruppen for språkteknologi ved Institutt for informatikk.

Fakta

Common Crawl

Common Crawl Foundation er en internasjonal nonprofit-organisasjon som ønsker å gjenopprette internett-demokratiet ved å gjøre de enorme datamengdene som finnes på nettet brukbare for allmennheten.

Common Crawl ønsker også å jobbe for å rive ned de teknologiske barrierene som gjør at ikke-kommersielle forskere ikke kan benytte seg av rådataene.

Man vil nå stable på beina et nordisk samarbeid med Common Crawl for bevaring og forskning på nordiske språk.

Han mener det blant annet handler om internett-demokratiet, mangfold på nett, å bevare mindre språk og språkteknologi og ikke minst å kunne analysere den samlede kunnskapen i de norske og nordiske internett-arkivene – det man kan kalle "wisdom of the crowd".

Ler av Siri og Google Translate

Noen ganger får vi oss en god latter når vi bruker Google Translate eller talegjenkjenningstjenesten Siri på iPhone.

Men omfattende forskning på gigantiske tekstmengder, avanserte statistiske modeller og tunge beregninger har gjort tjenestene mer intelligente enn de var.

Og de kommer til å bli enda bedre. Ifølge Oepen ligger forskningen på språkteknologi opptil 10 år foran teknologien som er i bruk i dag.

Hva betyr "rett"?

En av grunnene til at språk er vanskelig for et datasystem er at et ord kan ha flere betydninger. Det norske ordet «rett» kan bety en rekke ulike ting. Hvis det oversettes til engelsk kan det blant annet bli «court», «correct», «dish»,«course», «entitlement» eller «straight».

Hva som blir den riktige oversettelsen finner man ved å se i hvilken sammenheng ordet står. Hvis det for eksempel står «pannekaker» og «syltetøy» i samme setning så er det trolig betydningen «dish» som gjelder. Står det «advokat» og «prosedyre» handler det trolig om «court».

Et menneske som er bevandret i språkene vil skjønne dette automatisk. Det vil ikke en datamaskin – det er da det må store datamenger og beregninger til.

"Recognize" eller "wreck a nice"

Å forstå tale kan være enda mer krevende enn å forstå tekst. Disse to setningene: "It's hard to recognize speech" og It's hard to wreck a nice beach” kan høres like ut i tale, men de betyr ganske så forskjellige ting.

Hva som ellers sies sammen med setningen kan øke sannsynligheten for at datamaskinen skjønner hva det er personen mener.

Her kan også dialekter og den enkeltes språkpersonlighet spille maskinen et puss.

Tunge analyser og beregninger

I både oversettelse og talegjenkjenning (og en rekke andre språkteknologiske tjenester) analyseres det hva slags andre ord det er i samme setning – eller i setningene foran og etter. Så kjører man omfattende sannsynlighetsberegninger.

For at beregningene skal bli riktig trengs enorme mengder tekster av god kvalitet. IT-gigantene som Google og Facebook håndterer gigantiske datamengder hver dag i sine servere, som de blant annet bruker til å utvikle bedre språkteknologi.

Krevende å finne dataene selv

– Disse datamengdene har ikke språkteknologene ved UiO og andre ikke-kommersielle forskere tilgang til, sier Oepen.

Oepen og kollegene må selv utvikle systemene som «kravler» rundt på nettet og henter norske tekster på nett av god kvalitet. Deretter må datamengdene sorteres og lagres før det tas inn i forskningen på f.eks. en norsk språkmodel.

– Vi er i en vanskelig konkurransesituasjon i forhold til aktører som Google, som har tilgang til enorme mengder språkdata og rundt 50 milliarder dokumenter (med trillioner av ord) gjennom sine tjenester, sier Oepen.

Internett mer internasjonal

Stadig nye språk inntar nettet fullt og skal oversettes – for eksempel kinesiske språk med annet tegnsett og det hele.

For 10 år siden var ca. halvparten av informasjonen på nett på engelsk. For fem år siden var det kanskje 30 prosent. Og trenden fortsetter.

språkteknologi

De skandinaviske språkene blir forsvinnende små i denne sammenhengen.

Det er slett ikke sikkert at det å utvikle språkteknologi-tjenester for disse små språkene vil bli høyest prioritert av datagigantene i framtida.

Nordisk samarbeid

– Forskere og andre ikke-kommersielle aktører må på banen for å bevare det norske språket inn i den digitale framtida. Her har de nordiske landene felles interesser.

– Mange er opptatt av å trygge de små skandinaviske språkene, ikke minst ivrer også Nordisk ministerråd for grensesprengende forskningssamarbeid, sier Oepen.

UiO-forskerne har derfor tatt initiativ til et nordisk samarbeidmed non-profit-organisasjonen Common Crawl Foundation, som kjemper for å bevare Internett-demokratiet og sikre frie og åpne data til offentligheten. De første møtene har allerede vært avholdt.

Mye forskning og tungregning bak språkmodeller

Oepen påpeker at store deler av Common Crawl-datasamlingen vil bli tilgjengelig for prosessering i Norden. Det må selvfølgelig utvikles egne modeller for de ulike språkene. Det er ikke bare ord og tegn som er forskjellig. Det er grammatikk, setningsoppbygging, bøying a verb, lokale ord og utrykk mm.

– Det ligger mye forskning og tunge beregninger bak språkmodellene. Fremtidens språkteknologi handler mer og mer om "Big Data", sier Oepen.

Språkteknologene ved UiO er blant de 10–15 forskingsgruppene som trenger mest datakraft i den norske tungregningsalliansen. Spesielt i Norge har det i lengre tid vært satset på å sikre nok datakraft til forskere.

– Vi har god tilgang på datakraft og lagringskapasitet. Vi har også mange dyktige forskere. Men flaskehalsen er å skaffe nok rådata. Det er like sentralt som råolje, vi er avhengige av disse dataene for å kunne delta i internasjonal språkteknologisk forskning, sier han.

Les også på Titan.uio.no:

Nå blir det mer fart på Internett

Forskerprofilen Kristin Braa: Informatiker og barrikadestormer

Glem elektronikken, nå kommer "spinntronikken"

Kontakt:

Professor Stephan Oepen ved Institutt for informatikk

Les mer:

Om språkteknologigruppen på UiO

WeSearch: Language Technology for the Web

Får teknologien til å forstå