Artikkel

Vil vi noengang få en "babelfisk"?

Tekst

Vil vi noengang få en "babelfisk"?

Etter å ha forberedt en tale på norsk, oppdaget jeg kvelden før jeg skulle holde talen at den måtte holdes på engelsk. Den måtte oversettes i løpet av noen sene kveldstimer, og jeg kastet meg over et velkjent nettsted som oversetter tekst. Resultatet ble overraskende bra, og jeg sparte anslagsvis to timers arbeid (som i stedet ble benyttet til nødvendig soving)!

Teksten, som var på mellom to og tre A4-sider, kom tilbake i oversatt form 5 (!) sekunder etter at jeg trykket på knappen. En eller flere datamaskiner et sted i verden hadde utført oppgaven. Min subjektive vurdering av resultatet er følgende:

  • 80 % av setningene ble gode eller veldig gode, og jeg lærte noen engelske  ord jeg aldri har brukt før.
  • 10 % av setningene var til å leve med. En vanlig ”feil” i disse setningene handlet om at bisetninger plasseres ulikt i tekster på norsk og engelsk. Det ble en slags engelsk med norsk språkføring.
  • 5 % av setningene var til å forstå, men etter mitt skjønn ganske rare.
  • 5 % av setningene hadde fra små til noen store feil, og her må jeg legge til at et par av disse setningene viste seg å være feil norsk i min originale versjon.

Ganske så imponerende

Dette er etter mitt skjønn ganske imponerende, og utviklingen de siste årene har vært stor fra de første oversetterne, som i all hovedsak oversatte ord for ord. Dagens systemer tar flere ord i slengen og er godt på vei til å tolke og oversette hele setninger.  Neste steg vil være at disse systemene finner meninger i hele avsnitt (og hele tekster), for så å foreslå hvordan innholdet best skal formuleres på et annet språk. Hvordan er dette mulig?

Omfattende beregninger ligger bak

Selve oversettingen er ganske effektiv, og som nevnt over tok det bare noen sekunder før jeg fikk svar etter at jeg hadde sendt min tekst avgårde til det datasystemet som utførte oppgaven.  Bak dette ligger det imidlertid store og omfattende analyser av tekster sammenstilt med oversatte tekster. Litt enkelt forklart  går oversetteren inn i et avansert tabellverk og foreslår den oversettelsen som er mest sannsynlig basert  på tidligere analyser av store mengder tekster med tilhørende oversatte tekster. Disse analysene blir bare bedre og bedre. 

Et eksempel

Følgende er et avsnitt av talen på norsk: "Data har alltid vært viktig i tungregning, men de siste 10-15 årene har håndtering og forvaltning av store datamengder blitt stadig viktigere. I dag er også effektive lagringsressurser avgjørende for vitenskapelig fremskritt. Dette gjelder i hele bredden av vitenskapene. Ikke overalt, men på stadig flere områder."

Følgende er den oversatte teksten, gjort av Google oversetter: "Data has always been important in heavy billing, but in the past 10-15 years, handling and managing large amounts of data has become increasingly important. Today, effective storage resources are also crucial for scientific advances. This applies throughout the breadth of science. Not everywhere, but in an increasing number of areas."

Her er det kun én feil, og det er at ordet "tungregning" er oversatt til "heavy billing". Korrekt oversettelse ville vært "high performance computing", noe som kun forteller meg at ordet "tungregning" mangler i tekstbasen til Google oversetter.

Språkteknologi på UiO

90-95 % god eller veldig god oversetting er definitivt innen rekkevidde, og jeg tror at disse systemene innen relativt kort tid vil nærme seg 100 %.  Helt perfekt vil de vel kanskje aldri bli, for språk har mange delikate nyanser og er i konstant endring.  Språkteknologigruppen ved Institutt for informatikk arbeider med teorier og metoder der målet er at datasystemer skal kunne finne mening i tekster. Vi har også et eget studieprogram på området.

Babelfisken

 ”The Hitchhiker's Guide to the Galaxy” fra 1978 var opprinnelig et hørespill skrevet av Douglas Adams for BBC. I denne science fiction-historien putter hovedpersonen Arthur Dent en gul, iglelignede fisk inn i øret  - en babelfisk. Nå babelfisken kommer inn i øret, kan brukeren forstå alt som blir sagt på hvilket som helst språk, altså en automatisk oversetter av muntlig tale. Om vi noen gang får en slik "fisk" i øret, er vel tvilsomt, selv om språkteknologien, både for oversetting av skrift og tale, er i rivende utvikling.

Skriv ny kommentar

Verifiser deg (din epost-adresse vil ikke bli vist offentlig)