Forbløffende bilder og illustrasjoner laget av datamaskiner er noe av det mest spennende som har skjedd på teknologifronten det siste året. Vi ble fristet til å gjøre et artig eksperiment.
Det finnes nå datasystemer som gjør at du kan skrive hva du vil i en tekstboks, og så få laget et bilde. Utviklingen på dette feltet har gått utrolig fort. For å vise det aller siste steget laget vi et eksperiment med ansiktene til Thomas Seltzer, Annika Momrak og Selda Ekiz.
Først spurte vi om lov til å bruke noen få bilder av dem til å trene opp en datamodell. Så brukte vi et system kalt «Stable Diffusion» til å lage programvare vi kunne benytte for å skape helt nye og maskingenererte bilder av ansiktene deres.
Resultatet er noen ganger sjokkerende bra. Andre ganger meget dårlig og rart til det absurde.
Abraham Seltzer og andre amerikanske varianter
Thomas Seltzer var førstemann vi tok kontakt med. Programlederen, musikeren og forfatteren svarte entusiastisk og ville være med. Han mente at dette ville bli et spennende eksperiment. For ham bestemte vi oss for å se om vi kunne trene modellen basert på bilder som vi fant av ham på nett.

Bildene viste seg gode nok, så da var det bare å sette igang. Siden Seltzer har vært aktuell med en ny sesong av serien UXA denne høsten ble det fristende å lage litt USA-relatert innhold med det kjente ansiktet.

Stable Diffusion kan etterligne stilen til en rekke kunstnere og benytte seg av mer generelle teknikker. Det var ingen tvil om at den nye modellen vi laget nå også kunne gjenskape ansiktstrekkene til Seltzer.

Men vi klarte ikke helt å gi oss med amerikagreiene. Så vi ba om «An old portrait of a civil war hero Thomas Seltzer». Fotografiet vi fikk er forbausende bra for å være et bilde som skulle være tatt for mer enn 150 år siden.

Så ba vi maskinen om å prøve å lage mer fotorealistiske nåtidsbilder av Seltzer, for eksempel på bar. Da avslørte datamodellen at den fremdeles har noen utfordringer. Særlig med hender.

Da hovedpersonen fikk oversendt bildene fra den falske baren så han både humor og potensielt skremmende muligheter.
— Hahaha, dette ble mer shallow fake enn deep fake, si! Kunstig intelligens er enn så lenge konstig intelligens, hvert fall når det gjelder grafikk og musikk. Men på litt større sikt så er dette creepy as fuck, tommel ned herfra. Men ooops, der forsvant tommelen, gitt…
- Ved å trene opp datamaskiner på flere millioner bilder kombinert med avanserte språkmodeller har man klart å lage systemer som kan generere visualiseringer basert på ren tekst.
- De mest kjente er Stable Diffusion, Dall-E og Googles system som heter Imagen.
- Alle baserer seg på såkalte diffusjonsmodeller. Maskinen får servert bilder av høy kvalitet som så blir kombinert med tekstmodeller. Deretter fjerner systemet trinn for trinn informasjon fra bildene slik at programvaren trenes opp til å kjenne igjen de enkleste og tydeligste egenskapene i alle bildene.
- Prosessen kan så reverseres og programvaren klarer å lage illustrasjoner basert på analyse av teksten den får som input.
- Mye av teknologien er basert på åpen kildekode slik at man også kan trene modellene selv.
- Det er for tiden en del kontrovers rundt denne teknologien. Blant annet fordi det settes spørsmålstegn ved opphavsrett og bruk av bilder for å trene modellene.
- Det foregår også en heftig diskusjon om hvorvidt illustratører, kunstnere og fotografer kan miste jobben på grunn av teknologi som dette.
En mislykket Yoda
Annika Momrak er kjent for mange fra NRKs «Fjerde etasje» og som en av programlederne for MGP nå i vår. Hun svarte litt spøkefullt da vi tok kontakt for å høre om vi kunne få leke med bilder av henne.
— Ja, kjempekult! Er det noe jeg vil låne ut ansiktet mitt til så er det jo dette!
For å trene opp modellen trengte vi 5-10 bilder av ansiktet. Så Momrak kom innom hos oss i NRKbeta og ble fotografert.

For Momrak ble resultatene ikke like tydelige som for Seltzer. Da vi ba om bilder av henne ble det mye generelle bilder hvor det var vanskeligere å se tydelige trekk av Momrak.

Da Momrak fikk se bildene ble hun både litt overrasket og tankefull.
— Det er på en måte som å se seg selv utenfra. Jeg kjenner igjen trekk, men det er også mye som ikke stemmer.
Vi ble raskt enige om at det var det særdeles mislykkede forsøket på å fremstille Momrak som Star Wars-figuren Yoda som var de morsomste bildene.

Da vi eksperimenterte med disse modellene og prøvde å få en bedre forståelse av hvordan de virker var det interessant å se hvor forskjellig de klarte å lære ulike ansikter.
En utslitt astronaut
Selda Ekiz hadde et helt spesifikt ønske da vi hadde trent modellen med bilder av henne. Hun ville se seg selv som skurken The Joker fra Batman-filmene.

Det ordnet vi, og Ekiz både lo og ble litt skremt.
— Wow! Se der ja. Jeg føler meg litt som en sliten The Joker av og til. Men ok, det der var også ganske scary. Det blir neste Halloween-kostyme!
For Ekiz hadde modellen klart å ta tak i noen ansiktstrekk som skinner gjennom på flere av bildene.

Bildene varierte hele veien fra ung til gammel, og fra trøtt til opplagt. Ekiz selv fant det stort sett bare fascinerende og lot fantasien løpe løpsk.

— Haha. Det der er meg som en litt eldre og utslitt astronaut som nettopp har kommet ned på jorden etter en strabasiøs ferd.
Gjør det selv
Det er enkelt å teste selve hovedmodellen som kan lage bilder av nesten hva som helst, men det å lage en modell av egne bilder er litt mer komplisert. En av de beste oppskriftene vi har funnet er Tarunabh Dutta sin ganske detaljerte gjennomgang. Men det hele krever litt over middels forståelse for datamaskiner og nett-tjenester.
Det nærmeste vi kommer en tydelig og brukervennlig løsning akkurat nå er selskapet Prisma Labs sin app som heter Lensa AI. Du får ikke full frihet til å lage egne beskrivelser av det du vil ha, men det de kaller «Magic Avatars» minner veldig om mye av det vi har laget ved hjelp av Stable Diffusion. Det vi uansett kan si med sikkerhet er at denne teknologien blir bedre, billigere og mer tilgjengelig for hver måned som går.
Bra quis
Tror litt av problemet med modellen til Annika er at bildene som gikk inn i den ble for like, mener jeg har lest at de ønsker så stor variasjon som mulig, dvs bilder fra ulike settinger, med ulike klær og ulike stiler osv.
Hadde vært interessant å se forskjellen med mer varierte bilder fra internett i hennes tilfelle også!
Du har nok et poeng ja. Vi har eksperimentert en del med forskjellige treningsbilder. Og for store variasjoner har også forvirret systemet. Men forskjellige bakgrunner er absolutt et poeng. For Selda var treningsgrunnlaget ganske likt det for Annika. Men det var fliser på veggen bak henne. Da var det interessant å se at Stable Diffusion tok stripene i flisene på høyeste alvor siden de var like i alle bildene. Dermed hadde mange av Selda-bildene flise-aktige mønster i bakgrunnen.
Mitt hovudbruksområde for slikt hittil er faktisk for rollespel som D&D og liknande. Det er veldig lett å skrive inn to setningar i eit apparat og få ut noko som kan sjå litt «concept art»-aktig ut av eit landskap eller ein situasjon eller ein figur som kan forsterke ein tekst.
Det er ikkje like bra som om eg skulle ha hyra inn ein illustratør til det, men det er «godt nok», og «betre per minutt brukt enn eg sjølv får til», som eg trur eg den triste røynda her.
Tenker Thomas Seltzer hadde vært den beste å ha på dollarseddelen, siden han er grunnleggeren av UXA… spennende teknologi – og all teknologi er farlig og kan utnyttes. Selv tenker jeg på innfluencere som elsker å fake alt mulig rart kan få dette i hendene. Plutselig har de vært på ferie her og der, med folk med rare hender i bakgrunnen, eller vært på fest med mange kjendiser med rare hender.
PS: NRK, quizen for tilgangen til kommentarfeltet var kanskje litt for enkel…? 😉
RIP illustratører
Tullball. Herlig verktøy for ideer og drodling. Jobber som grafisk designer og har brukt Dall-E og Stable Diffusion mye, mest for drodling og lek men f.eks også til flotte landskapsbilder som bakgrunner i arbeidet mitt. Portretter, som vist i denne artikkelen er bare en ørliten del av hva teknologien kan få til.
Bra at noen viser frem hva disse AI appene er i stand til. Gikk bananas på én av dem for noen uker tilbake (den som heter «Wonder») med å prøve noen forskjellige ordkombo, og koste meg glugg i flere dager 🙂 Men så begynte jeg å se et mønster i hvordan AI’en løser «bestillingene» sine, og da ble det litt minder gøy. Enig i at det også er creepy as f…, ikke tvil om det.
Om dere brukte SD 2.0 så er mange rettighetsbeskyttede deler av treningsmodellen fjernet (som muligens Yoda).
Eller en annen type quiz; «hvilke illustratører fikk sin stilart stjålet her»
Som nevnt i saken og som et av de andre quiz-spørsmålene til kommentarfeltet her påpeker er dette også en stor og viktig diskusjon. Den aller nyeste versjonen av Stable Diffusion har også rett og slett fjernet en del stilarter.
Dette blir nok en vanskelig debatt. Pablo Picasso sa vel til og med «bad artists copy, great artists steal» en gang, og nesten alle stilarter har jo lånt idéer fra andre.
Tror det blir vanskelig å skulle bevise/påstå at det er noe annerledes at man bruker stilarter ved hjelp av en maskin med veiledning fra en bruker, enn at man setter seg ned og tegner etter noen annens tegning. Det tar bare vesentlig kortere tid.
Tror det vil være rom for illustratører og designere i fremtiden også, de må bare lære seg å bruke nye verktøy. Det er alltid behov for polish og finpuss.
Man kan ikke stjele en stilart. Heldigvis.
Ingen tvil om at vi i fremtiden kommer til å ha store problemer med bildebevis, karakterdrap, justismord, uthengning, politisk propaganda, opphavsrett. Eventuelt være mer kritiske til absolutt alle nyheter.
Sistnevnte er vel og bra, men hvordan skal vi kunne ha tillit til noe som helst i informasjonsflyten? Dette er å be om et Ministry of Truth i orwelliansk samfunn. Å, vent. La oss høre med faktisk.no om jeg har et poeng!
I faktaboksen på denne og en nyere artikkel står denne setningen som jeg skulle ønske dere gikk litt mer i dybden av, i stedet for å bare skrive «som nevnt i saken»:
«Det er for tiden en del kontrovers rundt denne teknologien. Blant annet fordi det settes spørsmålstegn ved opphavsrett og bruk av bilder for å trene modellene.»
Se f.eks. bilderikt facebookinnlegg 5. desember 2022 på profilen Juggertha – the art of Ed Foychuk.