Maskinenes kreative revolusjon

Dette er en kommentar. Den bygger på skribentens egne analyser, meninger og vurderinger.

Datamaskiner kan nå lage illustrasjoner og bilder med bare en setning som utgangspunkt. Resultatet er noe av det villeste og mest spennende jeg har sett.

Det er datasystemet som heter «Dall-E», oppkalt etter kunstneren Salvador Dali og den elskverdige Pixar-roboten Wall-E, som har gitt meg bakoversveis.

Selskapet OpenAI, som lager systemet, lanserte første versjon av Dall-E for et år siden. I april kom eksemplene på hva etterfølgeren Dall-E 2 kan gjøre.

Og den lager bilder som er så spektakulært mye bedre at jeg ikke helt fatter hva jeg ser på!

Fra tid til annen dukker det opp øyeblikk som får meg til å tenke «Wow! Dette er fremtiden». Men det er lenge siden forrige gang. For å sette det i perspektiv: Vi snakker om første gang jeg prøvde internett på tidlig 90-tall, da GPS ble kommersielt tilgjengelig, og da jeg for første gang holdt i en iPhone.

For meg er Dall-E 2 et sånt øyeblikk.

Så enkelt, men likevel så komplisert

For å lage et bilde med Dall-E skriver du en kort tekst om hva du vil ha. For eksempel «En astronaut som rir på en hest». Da kommer Dall-E opp med flere resultater. Dette er to av dem:

To bilder av en astronaut som rider på en hest — Dall-E kommer med flere forslag hver gang du skriver inn en ny tekst. Illustrasjoner: OpenAI / Dall-E

Bildene over er ikke en collage av eksisterende foto. Det er datasystemet som vet hvordan en astronaut ser ut, hvordan en hest ser ut, og hva som skal til for at astronauten skal kunne ri på hesten. Så lager systemet et fotorealistisk bilde fra grunnen av.

Om du vil ha en annen stil skriver du bare det. Som for eksempel en strektegning.

Strektegninger av en astronaut som rir på en hest — Dall-E 2 kan håndtere en rekke forskjellige stilarter. Illustrasjoner: OpenAI.com

Jeg har brukt datamaskiner til å hjelpe meg med redigering, forbedring og endring av bilder i flere tiår. Ved hjelp av tegneprogram, scannere, digitalkamera, Photoshop, avanserte filter og 3D-modellering. Men alltid med utgangspunkt i foto, tegninger og modeller jeg har laget selv.

Det revolusjonerende med Dall-E er at systemet også lager selve innholdet.

Illustrasjoner av teddybjørner som mikser kjemikalier — «Teddybjørner mikser gnistrende kjemikalier som gale vitenskapsmenn». I henholdsvis «steampunk-stil» (til venstre) og «tegneserie-stil» (til høyre). Illustrasjoner: OpenAI.com / Dall-E

Dall-E 2 er ikke tilgjengelig for allmennheten ennå, og eksemplene over er hentet fra OpenAI sine nettsider.

Det er fort gjort å tenke at dette bare er et kuratert utvalg av de mest vellykkede eksemplene. Men i løpet av de siste månedene har flere og flere fått tilgang. Twitter renner over av tilsvarende minst like gode eksempler fra folk som har fått lov til å leke med systemet.

Spøkelset i maskinen

Det er fascinerende og uvant at en datamaskin beveger seg inn på et felt som minner om kreativitet.

«Om ikke dette virker som menneskelig intelligens, så vet jeg ikke hva det skulle vært», sier Károly Zsolnai-Fehér om Dall-E.

Zsolnai-Fehér driver den populære YouTube-kanalen «Two Minute Papers» hvor han kort oppsummerer akademisk forskning. Han har en doktorgrad i datagrafikk og maskinlæring.

Bilde av en dør med blomster og flere eksempler på bilder som Dall-E har laget — Dall-E 2 kan også ta et foto som input og så lage flere bilder inspirert av det. Bildet til venstre er et ekte foto. Alle de fire bildene til høyre er steder som ikke finnes. Bildene er laget av Dall-E. Foto/illustrasjoner: OpenAI / Dall-E

De siste ukene har diskusjonen rundt datamaskinenes eventuelle mennskelighet fått vind i seilene.

Google-ingeniøren Blake LeMoine mener å ha sett at Googles veldig avanserte chatbot LaMDA er klar over sin egen eksistens. Han har fått kraftig motbør fra en rekke eksperter på feltet.

«Vi har nå maskiner som tankeløst kan lage ord, men vi har ikke lært å unngå å se en menneskelig bevissthet bak dem», sier professor i lingvistikk Emily M. Bender til Washington Post.

Forskeren og forfatteren Gary Marcus er om mulig enda tydeligere: «Tull. Hverken LaMDA eller noen andre tilsvarende systemer er noe i nærheten av intelligente».

Maskinlæring

Selv om Dall-E med sin form for kunstige kreativitet kan virke menneskelig, så baserer den seg kun på avansert maskinlæring.

Ingeniørene har lært opp systemet basert på millioner av bilder med tekstbeskrivelser. Til slutt har systemet nok data til å håndtere sammenhengen mellom objekter, lys, skygge, refleksjoner og gjennomsiktighet.

OpenAI er ikke alene om å arbeide med slike systemer. Google jobber med sitt system kalt «Imagen». Det er enda mer fokusert på fotorealistiske bilder. Og imponerer minst like mye. Bare se på dette bildet med en panda som spiller gitar:

Foto av en panda som spiller gitar — «A photo of a fuzzy panda wearing a cowboy hat and a black leather jacket playing guitar in a garden». Illustrasjon: Google Imagen

Prøv selv

Mens folk venter i spenning på å få tilgang til Dall-E 2 dukker det opp flere og flere tjenester som lar deg få en forsmak på hva slike systemer kan lage.

Boris Dayma har laget «Dall-E Mini» som gjør noe av det samme som Dall-E, men i en svært nedskalert versjon, og med mye lavere oppløsning.

«A cat in the style of a statue made by Gustav Vigeland» Illustrasjon: Skjermbilde av Dall-E Mini

Du kan også teste et system som kalles «Disco Diffusion». Det har mer fokus på et slags kunstnerisk uttrykk, men kan fort sluke noen timer av tiden din når du begynner å leke med det.

«Painting of a street in Ullevål Hageby by Hans Gude.» Illustrasjon: Disco Diffusion

På mobiltelefonen din kan du installere Dream by Wombo og lage merkelige kunstverk basert på tekst.

Fremtiden

Det internettet som slo pusten ut av meg en gang på tidlig nittitall var ekstremt begrenset og tregt. GPS-systemet som fikk meg til å brøle «wow» var en grå skjerm som viste meg koordinatene jeg befant meg på. Og spesifikasjonene til den første iPhone-modellen er til å le av i dag. Det var ingen appbutikk, kameraet var elendig, og skjermoppløsningen var en vits.

Systemer som Dall-E og Google Imagen vil bare bli bedre. Og et ganske åpenbart skritt videre vil også være å trene opp systemene til å kunne generere video.

Dette vil få store konsekvenser. Kunstnere, designere, fotografer, filmskapere, arkitekter, og jurister som jobber med opphavsrett vil få nye muligheter og nye utfordringer.

Med kraftige verktøy kommer også faren for misbruk. OpenAI jobber med å sørge for at Dall-E ikke skal kunne skape støtende innhold eller falske bilder av kjente personer. Det er likevel ingen tvil om at nye former for verifisering av foto og video vil bli en del av en fremtid der disse systemene er lett tilgjengelig og kan skape innhold som ser ut som det er ekte.

Det er lenge siden jeg har sett ny teknologi som er like banebrytende som Dall-E 2. Det blir særdeles spennende å følge med på utviklingen videre.

33 kommentarer

Gard F E

18. juni 2022 at 11:08

Helt rått og takk for en fin og kjapp artikkel.

Så enkelt, men likevel så komplisert

Spøkelset i maskinen

Maskinlæring

Prøv selv

Fremtiden

33 kommentarer

Gard F E

Jon Erik Basberg

Eirik Solheim (NRK) (svar til Jon Erik Basberg)

Øistein Jelmert Skjolddal (svar til Jon Erik Basberg)

Brohan

Vlad (svar til Brohan)

Martin D.

Leif

Ola (svar til Leif)

Pål Romberg

Vidar

Eivind

Ola (svar til Eivind)

Reidar Kaarbø

Roald

Aksel Edvardsen (svar til Roald)

Aksel (svar til Roald)

Håkon (svar til Roald)

Aksel Edvardsen (svar til Roald)

Håkon (svar til Roald)

Håkon (svar til Roald)

Ola

Kjell Håkon Kaldbekken

Pål FK

Jo Øiongen

Mats Storvik

Aleksander Skjæveland Larsen

Mikael

Jostein

Henrik S (svar til Jostein)

Roy Ihle

Thomas

Tvillingbror og Tvillingsøster

Vil du kommentere? Svar på en quiz fra saken!

Hva brukes for å lære opp systemer som Dall-E?

Hva heter Googles system som kan lage fotorealistiske bilder?

Hvem mener å ha sett at Googles chatbot er klar over sin egen eksistens?

Legg igjen en kommentar til Martin D. Avbryt svar