hånd holder et 3d-printet protein, mannsansikt med briller

Jon Lærdahl bruker proteinformer til medisinske formål.

Maskinene lærte seg å løse proteinenes superintrikate origamigåte

Fjorårets sensasjonelle gjennombrudd kommer allerede norske pasienter til gode.

Av Hilde Lynnebakken
Publisert 6. juni 2022

Proteinenes snirklete form er mer komplisert enn den mest intrikate origami. De bretter, folder og krøller seg sammen på de mest finurlige vis.

I 50 år hadde spørsmålet stått på lista over biologiens største utfordringer. Hvis du kjenner den genetiske koden til et protein, hvordan blir proteinets form i 3D? 

Løsningen slo ned som en bombe i forskningsmiljøet. Svaret ble avgitt i en biologikonkurranse av AlphaFold, et kunstig intelligens-program utviklet av det britiske firmaet DeepMind.

Resultatet ble kåret til Årets forskningsgjennombrudd 2021, men til både begeistring og frustrasjon er det nærmest umulig å finne ut helt hvordan programmet kom fram til svaret.

Bli med på et dypdykk i proteiner og kunstig intelligens.

Proteinfolding - livets dans

– I mange år, og senest to uker før nyheten kom, sa jeg til studentene mine at dette ikke er mulig, bare glem det, sier Jon Lærdahl, bioinformatiker ved Oslo universitetssykehus og ELIXIR Norge, Institutt for informatikk.

Jon Lærdal tok i bruk AlphaFold bare en måned etter at kildekoden ble sluppet. Foto: Hilde Lynnebakken/UiO

Bare noen måneder etter at AlphaFolds kode ble offentliggjort bruker han selv verktøyet til å hjelpe pasienter.

Hvorfor er dette så stort? Vi må starte med å kikke på proteiner. 

I kroppen har vi mer enn hundre tusen ulike proteiner. De frakter oksygen i blodet vårt og reparerer DNA, danner hud, bygger skjelett og trekker sammen muskler. 

De berømte piggene på koronavirus? Proteiner. Antistoffene som bekjemper virus? Ja, proteiner det også.

Proteiner består av aminosyrer kjedet sammen som perler på en snor. Det er bare 20 ulike perler, aminosyrer, som brukes til å danne proteiner, men perlekjedene har vanligvis hundrevis, ofte tusenvis av “perler”. Det lengste proteinet i menneskekroppen er titin, med over 27 000 aminosyrer.

Rekkefølgen på perlene og lengden på kjedene er kodet i arvestoffet vårt. DNA er som en lang oppskriftsbok på proteiner, hvor ett gen – en bit av DNA-tråden – er oppskrift på et bestemt protein.

Form er funksjon når det kommer til proteiner

Og nå kommer vi til kjernen av det 50 år gamle problemet. Det lange kjedet av aminosyrer krøller og folder seg sammen til en komplisert tredimensjonal struktur, med intrikate former av looper, flak og alfahelikser.

Et bestemt protein krøller seg vanligvis bare til en bestemt form, så når rekkefølgen av aminosyrene er kjent skulle det være mulig å si hvordan proteinet vil folde seg. Å finne løsningen på dette har vært betegnet som en hellig gral. 

Ta et lite protein med bare 100 aminosyrer som eksempel. Det er mer enn 1090 mulige måter det kan folde seg på, altså et 1-tall med 90 nuller etter. Bare en av dem er den riktige.

En rekke forskningsgrupper har jobbet med problemet de siste tiårene uten helt å lykkes, inntil en kunstig intelligens ble satt til jobben. Mer om det senere.

Hvorfor er det så viktig å kjenne proteinets form? Hvilken funksjon proteinet har, bestemmes av strukturen. I mange sammenhenger er det derfor avgjørende å vite nøyaktig hvordan proteinet er foldet sammen.

Proteinform kan avgjøre hvilket legemiddel en pasient trenger

Jon Lærdahl forteller at han jobber sammen med leger som har pasienter med genetiske sykdommer.

Pasientene kan ha flere mutasjoner i sitt DNA. For å finne ut hvilken mutasjon som er årsaken til den genetiske sykdommen, er det nyttig og ofte nødvendig å se på proteinets form.

– Hvis strukturen til proteinet er kjent, kan jeg se akkurat hvor aminosyren som er mutert sitter og se om den finnes i et viktig område av proteinet, forklarer Lærdahl.

Arvelig høyt kolesterol er en av tilstandene hvor det er nyttig å se hvilket gen og hvilken mutasjon som skaper problemer.

– For noen av disse pasientene er statiner riktig behandling. For andre er det mer moderne medisiner som må til, sier Lærdahl.

3D-strukturen finnes i laboratoriet

Å bestemme 3D-strukturen til et protein, hvordan det krøller og folder seg sammen, er et nitidig arbeid i laboratoriet, det er dyrt, kan ta år og er ikke alltid mulig å få til.

Den vanligste teknikken, røntgenkrystallografi, innebærer å lage krystaller av proteiner, sende røntgenstråler på krystallene og studere hvordan proteinene i krystallene sprer strålingen. Siden metoden ble tatt i bruk på 1950-tallet er strukturen til 159 000 proteiner bestemt på denne måten, men mange av disse er svært like hverandre. 

Tilsammen består databasen med alle eksperimentelt løste proteinstrukturer nå av rundt 180 000 strukturer, men bare for omtrent 20 prosent av proteinene i cellene våre har man en eksperimentelt bestemt struktur.

Vi tar en liten sving innom laboratoriene til Kjemisk institutt for å høre hvordan de jobber med proteinstrukturer. Strukturbiolog Ute Krengel er spesialist på proteiner i medisin. Kunnskap om proteinenes struktur er helt avgjørende for hennes arbeid.

Ute Krengel finner proteiners utseende ved hjelp av røntgenkrytallografi. Her med lableder Gabriele Cordara. Foto: Hilde Lynnebakken/UiO

Hun forteller om et molekyl kalt GM3 som vi mennesker har en bestemt variant av på embryostadiet, men siden mister. Molekylet dukker opp igjen i en del krefttyper, derfor er det svært interessant å bruke antistoffer mot det i kreftmedisiner.

– Vi hadde strukturen til antistoffet allerede i 2004, men det skulle gå enda 15 år før vi klarte å bestemme strukturen for antistoffet i kompleks med sukkerdelen av GM3, som er det vi trenger for å kunne bruke det i medisin, sier hun.

For å studere et protein starter hun med å bestille DNA-sekvensen til det aktuelle proteinet. 

– Noen ganger vil vi endre proteinet, for eksempel bytte ut en aminosyre med en annen, sier hun. 

Det er dette som er å lage en mutasjon i proteinet. I dette tilfellet blir det da en kunstig mutasjon.

I laboratoriet har Krengel og kollegene "proteinfabrikker" i form av bakteriekulturer. Bakteriene fores med en DNA-sekvens og produserer proteinet på bestilling.

Forskerne lager krystaller av proteinet før det belyses med røntgenstråler. Ved å se på hvordan strålingen spres og danner mønster når den treffer proteinkrystallene kan forskerne regne seg tilbake til proteinstrukturen.

AlphaFold hjelper på veien

Hun og studentene hennes har ved flere tilfeller hatt hjelp av AlphaFold allerede.

– For å løse proteinstrukturen bruker vi ikke bare bildene fra forsøkene med røntgenstråling, vi legger også inn ekstra informasjon i dataprogrammet, for eksempel hvis vi vet hvordan strukturen til et liknende protein er, forteller Krengel.

På dette stadiet i prosessen er verktøy som AlphaFold til stor hjelp.

– Hvis vi ikke kjenner noe protein med liknende struktur er AlphaFold eller tilsvarende veldig bra, sier hun.

Selv om kunstig intelligens kan forutsi proteinstruktur med imponerende nøyaktighet kommer vi ikke utenom eksperimentelle metoder i framtida.

– Vi må kunne forsikre oss om at strukturene stemmer. Noen ganger er det små, men viktige avvik. Andre ganger kan avvik være ganske store, sier Krengel.

Hva bestemmer formen på et protein?

Spesielt en egenskap ved de 20 ulike aminosyrene som proteiner er bygget av bestemmer hvordan proteinene folder seg. Noen av aminosyrene er veldig glade i vann, mens andre har vannskrekk. Proteinene folder seg slik at de med vannskrekk havner innerst og de vannglade ytterst.

Også variasjon i elektrisk ladning i forskjellige deler av proteinet påvirker foldingen, ved at lik ladning frastøter hverandre, mens ulik ladning tiltrekker hverandre. Noen aminosyrer har positiv ladning og noe har negativ. Et eksempel på det siste er aminosyren glutamat som vi også kjenner som en smaksforsterker fra matlaging.

Alt dette styres av fysikkens lover og det er ingen tilfeldighet hvordan proteinet foldes, den styres av rekkefølgen på aminosyrene. Så hvorfor kan vi ikke bare regne ut hvordan proteinet blir seende ut?

– Det er så enormt mange muligheter, forklarer Lærdahl.

Ta et lite protein med bare 100 aminosyrer som eksempel. Det er mer enn 1090 mulige måter det kan folde seg på, altså et 1-tall med 90 nuller etter. Bare en av dem er den riktige.

Men det er noen mønstre i gensekvensene. Lærdahl og andre trente modellerere kan se på sekvensen og si noe om hva som er looper, flak, og alfahelikser. Dessuten er proteinene i beslektede organismer ganske like hverandre, et resultat av evolusjonen.

– Kjenner vi strukturen til et protein i gjær kan vi si at strukturen til det tilsvarende proteinet i menneske også ser slik ut, kanskje med en litt kortere eller lengre loop her og der, sier han. Slik er det for mange proteiner.

Konkurranse i proteinmodellering

Siden 1970-tallet har forskerne utviklet datamodeller for å forutsi proteinfolding, og fra 1994 har de konkurrert om å ha den beste modellen.

Rundt 100 grupperinger deltar annethvert år i konkurransen CASP (Critical assessment of protein structure prediction). Deltakerne får gensekvensen til proteiner hvor strukturen nettopp er påvist gjennom eksperimenter, men ikke offentliggjort.

For proteiner hvor det finnes liknende sekvenser med kjent struktur fra før har resultatene vært gode, men for proteinene hvor det ikke var noe å sammenlikne med var det nærmest ingen framgang å spore. 

Før i 2018.

I konkurransen får deltakerne karakterer på strukturen. Over 90 regnes som omtrent likt med den eksperimentelle. Snittkarakteren lå i mange år mellom 30 og 40, men i 2018 dukket det opp en ny deltaker som oppnådde nærmere 60.

– Imponerende resultater

DeepMind, selskapet bak AlphaZero, et kunstig intelligens-program som spiller sjakk mye bedre enn Magnus Carlsen, hadde meldt seg på i konkurransen.

To år senere var sensasjonen et faktum. DeepMinds helt nye programsystem oppnådde hele 87 poeng på de vanskeligste sekvensene.

Proteinstrukturen beregnet av AlphaFold (blå) stemmer nesten helt overens med eksperimentelt resultat (grønn). Illustrasjon: DeepMind

– En kjempeoverraskelse og veldig imponerende. For en fantastisk framgang, sier Lærdahl om resultatene til DeepMinds kunstige intelligens AlphaFold.

Resultatene ble kjent i november 2020, men deretter ble det stille.

– Vi ventet og ventet. Ville DeepMind offentliggjøre noe om metoden eller kildekoden? Så, i juli i fjor publiserte de både metode og programvaren med åpen kildekode. DeepMind er jo et kommersielt selskap, så dette var på mange måter en positiv overraskelse, sier han.

AlphaFold til Norge

Måneden etter var AlphaFold installert på regneanlegget Fox på Blindern, i tide til en stor workshop om temaet i regi av NORA, Norwegian Artificial Intelligence Research Consortium.

Fox-teamet installerte AlphaFold på regneanlegget på Blindern da kildekoden til det nevrale nettverket ble sluppet. Foto: USIT

Lærdahl, sammen med Sabry Razick fra USIT og Jonas Verhellen fra Institutt for biovitenskap, satte programmet på prøve med en struktur som nylig var løst eksperimentelt, men som AlphaFold ikke kjente til.

– Det var snakk om et mellomstort protein fra en bakterie som er viktig for å studere antibiotikaresistens. Proteinet likner ikke på noen vi kjenner fra før, forteller han. 

Resultatet fra kjøring av AlphaFold var imponerende. Strukturen var nærmest identisk med den eksperimentelt bestemte.

Proteinstrukturene som blir beregnet med AlphaFold legges i en database. Når vi snakker med Lærdahl inneholder databasen strukturen til over en halv million proteiner.

Så langt er det proteiner med opptil rundt 1000 aminosyrer som finnes i AlphaFolds database.

– Jeg holder på med en prosjekt for en av legene på Ullevål nå hvor jeg antakeligvis kommer til å bruke Alphafold. Det aktuelle proteinet er 4 000 aminosyrer langt, så da må jeg kjøre beregningene selv, forteller Lærdahl.

Hva har AlphaFold forstått om proteiner?

Hva er det AlphaFold gjør og hva har den forstått om proteinfolding som vi mennesker ikke får til?

– AlphaFold har sett på mange eksempler på aminosyresekvenser og hvilke 3D-strukturer de ender opp med å få. Kun ved å se på eksempler og ved å prøve og feile selv, har den lært seg hvordan nye aminosyresekvenser folder seg, sier Inga Strümke, forsker ved Norwegian Open AI Lab ved NTNU.

– Omtrent som vi mennesker lærer: Vi prøver, får tilbakemelding, og tilpasser atferden vår, sier hun.

Men akkurat hva det er den har forstått er det vanskelig å finne ut av. Og det er jo både rart og frustrerende, når det tross alt er mennesker som står bak den.

-- Vi kan ikke snakke med nevrale nett, sier Inga Strümke. Her i samtale med roboten Kaia. Foto: NorwAI, NTNU.

– De to tingene jeg har jobba med - kvantefysikk og kunstig intelligens, er de to plassene i universet der ting funker og vi ikke vet hvorfor, konstaterer Strümke, som forsker på metoder for å forklare kunstig intelligens.

Nevrale nett er vanskelige samtalepartnere

– Vi kan ikke snakke med nevrale nett. Vår måte å representere kunnskap matcher ikke hvordan et nevralnett ville gjøre det, sier Strümke.

Med det mener hun at AlphaFold har lært seg noe om fysikk, men kanskje ikke skrevet opp fysikklovene akkurat slik vi har gjort det.

– Tenk hvor mye vi kunne lært om mikrobiologi hvis det gikk an å kommunisere med AlphaFold. For en mulighet!

Inga Strümke

Noen metoder for å finne ut hva et nevralt nett har forstått finnes. For bildegjenkjenning kan vi for eksempel se hvilke piksler nettverket har interessert seg for. På et bilde av en hund kan vi se at nettverket har vært spesielt opptatt av øynene og ansiktet.

– Vi kunne i prinsippet gjort det samme med proteiner, men vi har ikke samme intuisjon for proteinstrukturer som for bilder av hunder, sier Strümke.

De som laget AlphaZero, DeepMinds nevrale nett som slår oss mennesker i sjakk, satte seg ned med tidligere verdensmester Vladimir Kramnik og spurte hva man ser etter på et sjakkbrett.

Han listet opp en rekke posisjoner som det er viktig å få øye på. Da utviklerne så etter, fant de disse posisjonene representert i de forskjellige lagene til AlphaZero.

– På en måte er det kult om vi finner igjen menneskekonsepter inni et nevralt nett, men det er også kult om vi ikke finner dem igjen. Da betyr det at nevralnettet har funnet ny kunnskap, som vi ikke har ennå, sier Strümke.

Hun tror vi ville finne begge deler i AlphaFold. Både litt kjent kunnskap som fysikklover. Og kanskje AlphaFold har funnet fysikklover som vi ikke har formulert?

– Tenk hvor mye vi kunne lært om mikrobiologi hvis det gikk an å kommunisere med AlphaFold. For en mulighet! sier hun.

Gjør legemiddelutvikling raskere

Selv om vi ikke forstår akkurat hva AlphaFold gjør, kan vi ha stor nytte av verktøyet likevel, både til hjelp når proteiners struktur skal bestemmes på lab, som hos Ute Krengel, men også på andre måter.

Klas Pettersen, leder for NORA, postet dette på Twitter i januar i år:

Fascinerende hvordan AlphaFold og andre AI-verktøy allerede har blitt effektive verktøy i utvikling av legemidler, f. eks. mot kreft. https://t.co/LuKL2jB8gq

— Klas Pettersen 🤖🧠🤼 (@kl4sp) January 23, 2022

Lærdahl gir et eksempel. Mennesker og mange organismer har et protein som har fått navnet Ogg1. Det skanner DNAet i cellene våre og finner visse typer skader for å reparere dem.

Hvis vi bruker stråling eller cellegift i kreftbehandling for å ødelegge DNA og drepe kreftcellene er det kjekt om ikke Ogg1 reparerer skadene i kreftvevet. La oss si vi vil utvikle et legemiddel som kan gis sammen med strålebehandlingen slik at kreftsvulsten ikke klarer å reparere skaden så effektivt. Da kan kanskje svulsten drepes raskere og ved lavere stråledoser.

Vi trenger et molekyl som passer nøyaktig inn i en viktig lomme på Ogg1-proteinet. Det finnes dataverktøy som putter inn små molekyler i slike proteinlommer og regner raskt ut hvor godt hvert molekyl passer. På denne måten kan man teste millioner av mulige legemiddelkandidater på datamaskinen og så velge ut de beste molekylene som vi kan prøve på laben.

Dermed blir jobben på laben mye mindre arbeidskrevende. For Ogg1 kjenner vi strukturen fra eksperimenter, men for hundrevis av andre proteiner vi kan utnytte på tilsvarende måte er strukturen ikke kjent. 

– Med AlphaFold kan vi mye raskere bestemme disse strukturene og dette er meget lovende for utviklingen av nye medisiner, sier Lærdahl.

Framover vil vi kunne bruke Alphafold også til å finne strukturen til proteinkomplekser, tror Lærdahl.

– Mange proteiner danner komplekser, det vil si de har strukturer som passer akkurat til hverandre som legoklosser eller nøkkel i en lås, forklarer han.

AlphaFold er blitt testet på akkurat dette. 

– Noen som prøvde verktøyet la inn aminosyresekvensene til flere slike proteiner lenket sammen til en lang rekke, sier Lærdahl.

– AlphaFold klarte faktisk å beregne strukturen til komplekset riktig, selv om det ikke er utviklet for dette formålet. Det er ganske fantastisk og veldig lovende, sier han.

 

 

Emneord: Informatikk, AI