nrk.no

Vi lot maskinene leke med tre kjente ansikter, ser du hvem det er?

Kategori: Kunstig intelligens

Tre ansikter. Ett på dollarseddel, et som en mislykket Yoda, og et som skurken The Joker
Tre kjente ansikter gjenskapt av en datamaskin. Illustrasjon: Stable Diffusion / Henrik Lied / Eirik Solheim

Forbløffende bilder og illustrasjoner laget av datamaskiner er noe av det mest spennende som har skjedd på teknologifronten det siste året. Vi ble fristet til å gjøre et artig eksperiment.

Det finnes nå datasystemer som gjør at du kan skrive hva du vil i en tekstboks, og så få laget et bilde. Utviklingen på dette feltet har gått utrolig fort. For å vise det aller siste steget laget vi et eksperiment med ansiktene til Thomas Seltzer, Annika Momrak og Selda Ekiz.

Først spurte vi om lov til å bruke noen få bilder av dem til å trene opp en datamodell. Så brukte vi et system kalt «Stable Diffusion» til å lage programvare vi kunne benytte for å skape helt nye og maskingenererte bilder av ansiktene deres.

Resultatet er noen ganger sjokkerende bra. Andre ganger meget dårlig og rart til det absurde.

Abraham Seltzer og andre amerikanske varianter

Thomas Seltzer var førstemann vi tok kontakt med. Programlederen, musikeren og forfatteren svarte entusiastisk og ville være med. Han mente at dette ville bli et spennende eksperiment. For ham bestemte vi oss for å se om vi kunne trene modellen basert på bilder som vi fant av ham på nett.

Skjermbilde fra Google som viser bilder av Thomas Seltzer
Noen av bildene som vi brukte for å trene opp en datamodell som vet hvordan Thomas Seltzer ser ut. Illustrasjon: Skjermbilde, Google

Bildene viste seg gode nok, så da var det bare å sette igang. Siden Seltzer har vært aktuell med en ny sesong av serien UXA denne høsten ble det fristende å lage litt USA-relatert innhold med det kjente ansiktet.

Illustrasjon med Thomas Seltzer som ser litt ut som et maleri av Abraham Lincoln og Thomas Seltzer på en dollarseddel
Thomas Seltzer som Abraham Lincoln og på dollarseddelen. Illustrasjon: Stable Diffusion / Henrik Lied

Stable Diffusion kan etterligne stilen til en rekke kunstnere og benytte seg av mer generelle teknikker. Det var ingen tvil om at den nye modellen vi laget nå også kunne gjenskape ansiktstrekkene til Seltzer.

Thomas seltzer rendret av en datamaskin som et maleri av Rembrandt, grafikk av Andy Warhol og som en slags 3D-figur fra en animert film
Seltzer i stilen til Rembrandt, Andy Warhol, og som en 3D-figur fra animasjonsfilm. Illustrasjon: Stable Diffusion / Henrik Lied

Men vi klarte ikke helt å gi oss med amerikagreiene. Så vi ba om «An old portrait of a civil war hero Thomas Seltzer». Fotografiet vi fikk er forbausende bra for å være et bilde som skulle være tatt for mer enn 150 år siden.

Gråtonebilde av en tilsynelatende ung Shomas Seltzer
Thomas Seltzer anno sånn ca. 1865. Illustrasjon: Stable Diffusion / Henrik Lied

Så ba vi maskinen om å prøve å lage mer fotorealistiske nåtidsbilder av Seltzer, for eksempel på bar. Da avslørte datamodellen at den fremdeles har noen utfordringer. Særlig med hender.

Mislykkede foto av Thomas Seltzer på bar. Med veldig rare hender.
Et ikke helt vellykket forsøk på å lage falske bilder av Seltzer på bar. Illustrasjon: Stable Diffusion / Henrik Lied

Da hovedpersonen fikk oversendt bildene fra den falske baren så han både humor og potensielt skremmende muligheter.

— Hahaha, dette ble mer shallow fake enn deep fake, si! Kunstig intelligens er enn så lenge konstig intelligens, hvert fall når det gjelder grafikk og musikk. Men på litt større sikt så er dette creepy as fuck, tommel ned herfra. Men ooops, der forsvant tommelen, gitt…

Hva er maskinskapte bilder?

  • Ved å trene opp datamaskiner på flere millioner bilder kombinert med avanserte språkmodeller har man klart å lage systemer som kan generere visualiseringer basert på ren tekst.
  • De mest kjente er Stable Diffusion, Dall-E og Googles system som heter Imagen.
  • Alle baserer seg på såkalte diffusjonsmodeller. Maskinen får servert bilder av høy kvalitet som så blir kombinert med tekstmodeller. Deretter fjerner systemet trinn for trinn informasjon fra bildene slik at programvaren trenes opp til å kjenne igjen de enkleste og tydeligste egenskapene i alle bildene.
  • Prosessen kan så reverseres og programvaren klarer å lage illustrasjoner basert på analyse av teksten den får som input.
  • Mye av teknologien er basert på åpen kildekode slik at man også kan trene modellene selv.
  • Det er for tiden en del kontrovers rundt denne teknologien. Blant annet fordi det settes spørsmålstegn ved opphavsrett og bruk av bilder for å trene modellene.
  • Det foregår også en heftig diskusjon om hvorvidt illustratører, kunstnere og fotografer kan miste jobben på grunn av teknologi som dette.

En mislykket Yoda

Annika Momrak er kjent for mange fra NRKs «Fjerde etasje» og som en av programlederne for MGP nå i vår. Hun svarte litt spøkefullt da vi tok kontakt for å høre om vi kunne få leke med bilder av henne.

— Ja, kjempekult! Er det noe jeg vil låne ut ansiktet mitt til så er det jo dette!

For å trene opp modellen trengte vi 5-10 bilder av ansiktet. Så Momrak kom innom hos oss i NRKbeta og ble fotografert.

Åtte bilder av Annika Momrak tatt fra forskjellige vinkler mot hvit bakgrunn
Noen av bildene vi tok for å trene opp modellen med ansiktet til Annika Momrak Foto: Henrik Lied, NRKbeta

For Momrak ble resultatene ikke like tydelige som for Seltzer. Da vi ba om bilder av henne ble det mye generelle bilder hvor det var vanskeligere å se tydelige trekk av Momrak.

Annika Momrak i forskjellige stilarter
Annika Momrak i forskjellige stilarter. Illustrasjon: Stable Diffusion / Henrik Lied

Da Momrak fikk se bildene ble hun både litt overrasket og tankefull.

— Det er på en måte som å se seg selv utenfra. Jeg kjenner igjen trekk, men det er også mye som ikke stemmer.

Vi ble raskt enige om at det var det særdeles mislykkede forsøket på å fremstille Momrak som Star Wars-figuren Yoda som var de morsomste bildene.

Fotolignende bilder av Annika Momrak med rare øyne og ører.
Annika Momrak som svært mislykket Yoda. Foto: Stable Diffusion / Henrik Lied

Da vi eksperimenterte med disse modellene og prøvde å få en bedre forståelse av hvordan de virker var det interessant å se hvor forskjellig de klarte å lære ulike ansikter.

En utslitt astronaut

Selda Ekiz hadde et helt spesifikt ønske da vi hadde trent modellen med bilder av henne. Hun ville se seg selv som skurken The Joker fra Batman-filmene.

To bilder av Selda Ekiz sminket som The Joker
Selda The Joker. Illustrasjon: Stable Diffusion / Henrik Lied

Det ordnet vi, og Ekiz både lo og ble litt skremt.

— Wow! Se der ja. Jeg føler meg litt som en sliten The Joker av og til. Men ok, det der var også ganske scary. Det blir neste Halloween-kostyme!

For Ekiz hadde modellen klart å ta tak i noen ansiktstrekk som skinner gjennom på flere av bildene.

Illustrasjoner av Selda Ekiz i forskjellige stilarter
Selda Ekiz i flere varianter. Illustrasjon: Stable Diffusion / Henrik Lied

Bildene varierte hele veien fra ung til gammel, og fra trøtt til opplagt. Ekiz selv fant det stort sett bare fascinerende og lot fantasien løpe løpsk.

Maskingenerert foto av Selda Ekiz som smilende astronaut
Det er fort gjort å ta seg selv med ut på eventyr når man kan lage foto av hva man vil. Illustrasjon: Stable Diffusion / Henrik Lied

— Haha. Det der er meg som en litt eldre og utslitt astronaut som nettopp har kommet ned på jorden etter en strabasiøs ferd.

Gjør det selv

Det er enkelt å teste selve hovedmodellen som kan lage bilder av nesten hva som helst, men det å lage en modell av egne bilder er litt mer komplisert. En av de beste oppskriftene vi har funnet er Tarunabh Dutta sin ganske detaljerte gjennomgang. Men det hele krever litt over middels forståelse for datamaskiner og nett-tjenester.

Det nærmeste vi kommer en tydelig og brukervennlig løsning akkurat nå er selskapet Prisma Labs sin app som heter Lensa AI. Du får ikke full frihet til å lage egne beskrivelser av det du vil ha, men det de kaller «Magic Avatars» minner veldig om mye av det vi har laget ved hjelp av Stable Diffusion. Det vi uansett kan si med sikkerhet er at denne teknologien blir bedre, billigere og mer tilgjengelig for hver måned som går.

15 kommentarer

  1. Tror litt av problemet med modellen til Annika er at bildene som gikk inn i den ble for like, mener jeg har lest at de ønsker så stor variasjon som mulig, dvs bilder fra ulike settinger, med ulike klær og ulike stiler osv.

    Hadde vært interessant å se forskjellen med mer varierte bilder fra internett i hennes tilfelle også!

    Svar på denne kommentaren

    • Eirik Solheim (NRK) (svar til Aksel E.)

      Du har nok et poeng ja. Vi har eksperimentert en del med forskjellige treningsbilder. Og for store variasjoner har også forvirret systemet. Men forskjellige bakgrunner er absolutt et poeng. For Selda var treningsgrunnlaget ganske likt det for Annika. Men det var fliser på veggen bak henne. Da var det interessant å se at Stable Diffusion tok stripene i flisene på høyeste alvor siden de var like i alle bildene. Dermed hadde mange av Selda-bildene flise-aktige mønster i bakgrunnen.

  2. Andreas H. Opsvik

    Mitt hovudbruksområde for slikt hittil er faktisk for rollespel som D&D og liknande. Det er veldig lett å skrive inn to setningar i eit apparat og få ut noko som kan sjå litt «concept art»-aktig ut av eit landskap eller ein situasjon eller ein figur som kan forsterke ein tekst.

    Det er ikkje like bra som om eg skulle ha hyra inn ein illustratør til det, men det er «godt nok», og «betre per minutt brukt enn eg sjølv får til», som eg trur eg den triste røynda her.

    Svar på denne kommentaren

  3. Tenker Thomas Seltzer hadde vært den beste å ha på dollarseddelen, siden han er grunnleggeren av UXA… spennende teknologi – og all teknologi er farlig og kan utnyttes. Selv tenker jeg på innfluencere som elsker å fake alt mulig rart kan få dette i hendene. Plutselig har de vært på ferie her og der, med folk med rare hender i bakgrunnen, eller vært på fest med mange kjendiser med rare hender.

    PS: NRK, quizen for tilgangen til kommentarfeltet var kanskje litt for enkel…? 😉

    Svar på denne kommentaren

    • Tullball. Herlig verktøy for ideer og drodling. Jobber som grafisk designer og har brukt Dall-E og Stable Diffusion mye, mest for drodling og lek men f.eks også til flotte landskapsbilder som bakgrunner i arbeidet mitt. Portretter, som vist i denne artikkelen er bare en ørliten del av hva teknologien kan få til.

  4. Bra at noen viser frem hva disse AI appene er i stand til. Gikk bananas på én av dem for noen uker tilbake (den som heter «Wonder») med å prøve noen forskjellige ordkombo, og koste meg glugg i flere dager 🙂 Men så begynte jeg å se et mønster i hvordan AI’en løser «bestillingene» sine, og da ble det litt minder gøy. Enig i at det også er creepy as f…, ikke tvil om det.

    Svar på denne kommentaren

    • Eirik Solheim (NRK) (svar til Annie)

      Som nevnt i saken og som et av de andre quiz-spørsmålene til kommentarfeltet her påpeker er dette også en stor og viktig diskusjon. Den aller nyeste versjonen av Stable Diffusion har også rett og slett fjernet en del stilarter.

    • Hans Wilhelmsen (svar til Annie)

      Dette blir nok en vanskelig debatt. Pablo Picasso sa vel til og med «bad artists copy, great artists steal» en gang, og nesten alle stilarter har jo lånt idéer fra andre.

      Tror det blir vanskelig å skulle bevise/påstå at det er noe annerledes at man bruker stilarter ved hjelp av en maskin med veiledning fra en bruker, enn at man setter seg ned og tegner etter noen annens tegning. Det tar bare vesentlig kortere tid.

      Tror det vil være rom for illustratører og designere i fremtiden også, de må bare lære seg å bruke nye verktøy. Det er alltid behov for polish og finpuss.

  5. Espen Ludvigsen

    Ingen tvil om at vi i fremtiden kommer til å ha store problemer med bildebevis, karakterdrap, justismord, uthengning, politisk propaganda, opphavsrett. Eventuelt være mer kritiske til absolutt alle nyheter.

    Sistnevnte er vel og bra, men hvordan skal vi kunne ha tillit til noe som helst i informasjonsflyten? Dette er å be om et Ministry of Truth i orwelliansk samfunn. Å, vent. La oss høre med faktisk.no om jeg har et poeng!

    Svar på denne kommentaren

  6. I faktaboksen på denne og en nyere artikkel står denne setningen som jeg skulle ønske dere gikk litt mer i dybden av, i stedet for å bare skrive «som nevnt i saken»:

    «Det er for tiden en del kontrovers rundt denne teknologien. Blant annet fordi det settes spørsmålstegn ved opphavsrett og bruk av bilder for å trene modellene.»

    Se f.eks. bilderikt facebookinnlegg 5. desember 2022 på profilen Juggertha – the art of Ed Foychuk.

    Svar på denne kommentaren

Vil du kommentere? Svar på en quiz fra saken!

Vi er opptatt av kvaliteten på kommentarfeltet vårt. Derfor ønsker vi å sikre oss at alle som kommenterer, faktisk har lest saken. Svar på spørsmålene nedenfor for å låse opp kommentarfeltet.

Hva er en av mange grunner til at det er kontrovers rundt denne teknologien?

Hvem mener enkelte at kan miste jobben på grunn av denne teknologien?

Hva heter systemet som vi brukte som utgangspunkt for bildene?

Legg igjen en kommentar til Espen Ludvigsen Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.