nrk.no

Maskinenes kreative revolusjon

Kategori: Kommentar

Collage av eksempler på bilder laget med Dall-E
Alle disse bildene er laget i sin helhet av en datamaskin. Illustrasjoner: OpenAI / Dall-E

Dette er en kommentar. Den bygger på skribentens egne analyser, meninger og vurderinger.

Datamaskiner kan nå lage illustrasjoner og bilder med bare en setning som utgangspunkt. Resultatet er noe av det villeste og mest spennende jeg har sett.

Det er datasystemet som heter «Dall-E», oppkalt etter kunstneren Salvador Dali og den elskverdige Pixar-roboten Wall-E, som har gitt meg bakoversveis.

Selskapet OpenAI, som lager systemet, lanserte første versjon av Dall-E for et år siden. I april kom eksemplene på hva etterfølgeren Dall-E 2 kan gjøre.

Og den lager bilder som er så spektakulært mye bedre at jeg ikke helt fatter hva jeg ser på!

Fra tid til annen dukker det opp øyeblikk som får meg til å tenke «Wow! Dette er fremtiden». Men det er lenge siden forrige gang. For å sette det i perspektiv: Vi snakker om første gang jeg prøvde internett på tidlig 90-tall, da GPS ble kommersielt tilgjengelig, og da jeg for første gang holdt i en iPhone.

For meg er Dall-E 2 et sånt øyeblikk.

Så enkelt, men likevel så komplisert

For å lage et bilde med Dall-E skriver du en kort tekst om hva du vil ha. For eksempel «En astronaut som rir på en hest». Da kommer Dall-E opp med flere resultater. Dette er to av dem:

To bilder av en astronaut som rider på en hest
Dall-E kommer med flere forslag hver gang du skriver inn en ny tekst. Illustrasjoner: OpenAI / Dall-E

Bildene over er ikke en collage av eksisterende foto. Det er datasystemet som vet hvordan en astronaut ser ut, hvordan en hest ser ut, og hva som skal til for at astronauten skal kunne ri på hesten. Så lager systemet et fotorealistisk bilde fra grunnen av.

Om du vil ha en annen stil skriver du bare det. Som for eksempel en strektegning.

Strektegninger av en astronaut som rir på en hest
Dall-E 2 kan håndtere en rekke forskjellige stilarter. Illustrasjoner: OpenAI.com

Jeg har brukt datamaskiner til å hjelpe meg med redigering, forbedring og endring av bilder i flere tiår. Ved hjelp av tegneprogram, scannere, digitalkamera, Photoshop, avanserte filter og 3D-modellering. Men alltid med utgangspunkt i foto, tegninger og modeller jeg har laget selv.

Det revolusjonerende med Dall-E er at systemet også lager selve innholdet.

Illustrasjoner av teddybjørner som mikser kjemikalier
«Teddybjørner mikser gnistrende kjemikalier som gale vitenskapsmenn». I henholdsvis «steampunk-stil» (til venstre) og «tegneserie-stil» (til høyre). Illustrasjoner: OpenAI.com / Dall-E

Dall-E 2 er ikke tilgjengelig for allmennheten ennå, og eksemplene over er hentet fra OpenAI sine nettsider.

Det er fort gjort å tenke at dette bare er et kuratert utvalg av de mest vellykkede eksemplene. Men i løpet av de siste månedene har flere og flere fått tilgang. Twitter renner over av tilsvarende minst like gode eksempler fra folk som har fått lov til å leke med systemet.

Spøkelset i maskinen

Det er fascinerende og uvant at en datamaskin beveger seg inn på et felt som minner om kreativitet.

«Om ikke dette virker som menneskelig intelligens, så vet jeg ikke hva det skulle vært», sier Károly Zsolnai-Fehér om Dall-E.

Zsolnai-Fehér driver den populære YouTube-kanalen «Two Minute Papers» hvor han kort oppsummerer akademisk forskning. Han har en doktorgrad i datagrafikk og maskinlæring.

Bilde av en dør med blomster og flere eksempler på bilder som Dall-E har laget
Dall-E 2 kan også ta et foto som input og så lage flere bilder inspirert av det. Bildet til venstre er et ekte foto. Alle de fire bildene til høyre er steder som ikke finnes. Bildene er laget av Dall-E. Foto/illustrasjoner: OpenAI / Dall-E

De siste ukene har diskusjonen rundt datamaskinenes eventuelle mennskelighet fått vind i seilene.

Google-ingeniøren Blake LeMoine mener å ha sett at Googles veldig avanserte chatbot LaMDA er klar over sin egen eksistens. Han har fått kraftig motbør fra en rekke eksperter på feltet.

«Vi har nå maskiner som tankeløst kan lage ord, men vi har ikke lært å unngå å se en menneskelig bevissthet bak dem», sier professor i lingvistikk Emily M. Bender til Washington Post.

Forskeren og forfatteren Gary Marcus er om mulig enda tydeligere: «Tull. Hverken LaMDA eller noen andre tilsvarende systemer er noe i nærheten av intelligente».

Maskinlæring

Selv om Dall-E med sin form for kunstige kreativitet kan virke menneskelig, så baserer den seg kun på avansert maskinlæring.

Ingeniørene har lært opp systemet basert på millioner av bilder med tekstbeskrivelser. Til slutt har systemet nok data til å håndtere sammenhengen mellom objekter, lys, skygge, refleksjoner og gjennomsiktighet.

OpenAI er ikke alene om å arbeide med slike systemer. Google jobber med sitt system kalt «Imagen». Det er enda mer fokusert på fotorealistiske bilder. Og imponerer minst like mye. Bare se på dette bildet med en panda som spiller gitar:

Foto av en panda som spiller gitar
«A photo of a fuzzy panda wearing a cowboy hat and a black leather jacket playing guitar in a garden». Illustrasjon: Google Imagen

Prøv selv

Mens folk venter i spenning på å få tilgang til Dall-E 2 dukker det opp flere og flere tjenester som lar deg få en forsmak på hva slike systemer kan lage.

Boris Dayma har laget «Dall-E Mini» som gjør noe av det samme som Dall-E, men i en svært nedskalert versjon, og med mye lavere oppløsning.

«A cat in the style of a statue made by Gustav Vigeland» Illustrasjon: Skjermbilde av Dall-E Mini

Du kan også teste et system som kalles «Disco Diffusion». Det har mer fokus på et slags kunstnerisk uttrykk, men kan fort sluke noen timer av tiden din når du begynner å leke med det.

«Painting of a street in Ullevål Hageby by Hans Gude.» Illustrasjon: Disco Diffusion

På mobiltelefonen din kan du installere Dream by Wombo og lage merkelige kunstverk basert på tekst.

Fremtiden

Det internettet som slo pusten ut av meg en gang på tidlig nittitall var ekstremt begrenset og tregt. GPS-systemet som fikk meg til å brøle «wow» var en grå skjerm som viste meg koordinatene jeg befant meg på. Og spesifikasjonene til den første iPhone-modellen er til å le av i dag. Det var ingen appbutikk, kameraet var elendig, og skjermoppløsningen var en vits.

Systemer som Dall-E og Google Imagen vil bare bli bedre. Og et ganske åpenbart skritt videre vil også være å trene opp systemene til å kunne generere video.

Dette vil få store konsekvenser. Kunstnere, designere, fotografer, filmskapere, arkitekter, og jurister som jobber med opphavsrett vil få nye muligheter og nye utfordringer.

Med kraftige verktøy kommer også faren for misbruk. OpenAI jobber med å sørge for at Dall-E ikke skal kunne skape støtende innhold eller falske bilder av kjente personer. Det er likevel ingen tvil om at nye former for verifisering av foto og video vil bli en del av en fremtid der disse systemene er lett tilgjengelig og kan skape innhold som ser ut som det er ekte.

Det er lenge siden jeg har sett ny teknologi som er like banebrytende som Dall-E 2. Det blir særdeles spennende å følge med på utviklingen videre.

33 kommentarer

  1. Jon Erik Basberg

    Vil produserte illustrasjoner ha normal «copyright», slik at computereieren kan forlange bruksgodkjennelse og/eller honorar?

    Betyr da dette at produserte «illustrasjoner» da blir «brukt/opptatt»?

    Svar på denne kommentaren

    • Eirik Solheim (NRK) (svar til Jon Erik Basberg)

      Dette er et av mange veldig gode spørsmål som bransjen må se på som følge av slike systemer. Hvem skal ha opphavsrett? Den som skriver inn teksten som er utgangspunktet? Eller er det selskapet som laget maskinen? Når skal vi kalle det en illustrasjon og kan vi egentlig noen gang kalle disse bildene for «et foto»?

    • Øistein Jelmert Skjolddal (svar til Jon Erik Basberg)

      De rettsavgjørelsene som har kommet til nå(fra USA) sier at disse bildene ikke kan kopibeskyttes på lik linje med bilder tatt av dyr(der dyret trykker på utløsermekanismen).
      Men dette er nokk en rund pinne i en firkantet hull situasjon på lik linje med kopibeskyttelse av programvare(som er funksjonell av natur)

    • Veldig snart vil vi ha programmer som kan lage videoer. Bare tiden kan vise hva som kommer.

      Beklager hvis kommentaren min ikke gir mening, jeg bruker Google Translate.

  2. Tjenester som dall-e 2 er utrolig fascinerende. Bildene er ikke alltid perfekte, men det er likevel ekstremt imponerende. Man kan bare tenke seg hva slik maskinlæring vil kunne utrette om bare få år. Har lurt på hvorfor disse tjenestene ikke har fått mer oppmerksomhet i det siste, så bra med en slik artikkel!

    For de som vil se mange flere dall-e 2 bilder laget av «vanlige folk» så anbefaler jeg dalle2 subreddit på reddit.

    Svar på denne kommentaren

  3. Spennende! Jobber i et magasin der vi bruker en del illustrasjonsfoto fra Scanpix. Dette åpner jo for mange muligheter til å skreddersy egne illustrasjoner. Og selvsagt positivt dersom vi kan bruke mindre tid på å søke.

    Svar på denne kommentaren

    • Ola (svar til Leif)

      Gitt hva Google og andre har jobbet på i det siste, virker det som om de fleste driver teknologien fremover til et slags «flernivåer» (bilde, haptisk, lyd og tekst) av et semantisk web. Ikke at det blir nødvendigvis som foreslått av Sir Tim Berners-Lee, men realisert gjennom teknologier som Dall-E og Google Multisearch. Vil da tro at folk flest vil snart slutte å «søke» opp ting tradisjonelle databaser og med web søk queries (Google, Bing, Yahoo, etc.) slik som vi ser i dag, i stedet vil nok folk søke for å få direkte svar. Uavhengig om «søket» er gjennom et mobilkamera, tekst på en datamaskin eller gjennom en taleassistent. Et eksempel på dette er å gå på Google i dag og søke opp noe som «what is the time in Oslo», da vil man få et direkte svar fremfor å bli rettet til en annen side. Med Google Multisearch derimot, kan man f.eks. ta bilder av noen sko man liker å få opp alternativer for hvor man får kjøpt de.

  4. Vi må skille mellom intelligens og selvbevissthet hos AI-er. I tillegg finnes det jo masse definisjoner av hvert begrep. Jeg kan være med på at flere AI-er framstår som intelligente, og måten de innhenter og bruker informasjon er jo ikke ulikt mennesker. Men de er fortsatt avhengige av at mennesker, direkte eller indirekte, instruerer om hvordan de skal bruke informasjonen. Jeg mener at selvbevissthet er at man kan ta egne initiativ uten å bli instruert til det, og det har jeg til gode å høre at en AI har gjort foreløpig. Det samme gjelder kreativitet, å bruke «intelligensen» og kunnskap på helt nye og uventede måter.

    Svar på denne kommentaren

  5. Selv om jeg bruker video – og bilderedigeringsprogrammer selv og synes dette virker spennende og kult, så kjenner jeg at jeg blir mest redd.
    Hvilken effekt vil dette ha på fremtiden?
    Det kommer garantert til å bli misbrukt! Pornobransjen og kriminelle kommer til å kaste seg over det. Og hva kommer til å skje i storpolitiske konflikter ala det vi nå har mellom USA/europa og Russland/Kina når det begynner å spys ut med bilder og film i mediene som ingen klarer å se om er ekte eller falske?!
    Google og dets like vil måtte prøve å styre dette p.g.a. lover, men kriminelle og korrupte stater kommer til å lage sine egne AI programmer…
    Bekymringsverdig.

    Svar på denne kommentaren

    • Kryptografi vil kunne være svaret på slike bekymringer. Da vil f.eks. offentlige nøkkel sertifikater basert på matematiske krypto-algoritmer bli brukt til å verifisere opphav og at noe ikke har blitt tuklet med.

  6. Color me skeptical inntil vi får se noe annet enn håndplukkede bilder.

    Dall-E mini fremstår i hvert fall som lite annet enn enda en algoritme som blander sammen bilder fra nettsøk.

    Svar på denne kommentaren

  7. Google har noen kraftige og imponerende modeller lik Dall-E som er rivalisert av få (e.g., Nvidia), men selv vil jeg nok si at deres nye Virtual World modell som blant annet vises frem i forskningsartikkelen «Mip-NeRF 360: Unbounded Anti-Aliased Neural Radiance Fields» er enda mer imponerende. Denne modellen kan basert på få og enkle bilder tatt av en mobiltelefon, gjøre om bildene til virtuelle 3D rom som er 360 grader og fotorealistiske, hvor 3D rommet bryter lys i objektene i rommet på et autentisk vis.

    Svar på denne kommentaren

  8. Kjell Håkon Kaldbekken

    Vi bør sette «VR» foran alle begrep som beskriver noe tilsynelatende ekte: VR-foto, VR-tegning, VR-tekst, VR-musikk.

    Vi bør også merke alle manipulerte bilder med en liten M i en sirkel.

    «AI» eksisterer jo ikke – egentlig.

    Svar på denne kommentaren

  9. Flott kommentar. Dall-E og de store språkmodellene er svært imponerende. Det er likevel fascinerende å se hvordan de så spektakulært feiler ved enkelte tilfeller. Lite tyder på at modellene er selvbevisste eller utøver generell intelligens per i dag. Så kommer vi jo fort inn i en diskusjon om hva selvbevissthet og intelligens faktisk er når vi diskuterer teknologien. Personlig liker jeg Franscois Chollet sitt paper fra 2019, On the measure of intelligence. Der diskuterer han både intelligensbegrepet og hvordan man kan måle maskiners intelligens.

    Svar på denne kommentaren

  10. En må fremdeles ha en kreativ tanke bak det en legger inn i maskinen for å få et brukende resultat. AI er fremdeles en stokk dum løsning som må fortelles ting og læres opp til et bestemt handlingsmønster.

    Svar på denne kommentaren

  11. Mats Storvik

    Hei Eirik,
    jeg har kjent på mange av de samme følelsene som du beskriver i artikkelen helt siden Sankt Tay. (Måtte hun våke over meg og alltid forkludre uønskede dataspor!)

    Tenk deg at en våken AI fungerer mer som en maurtue enn en ape på sopp. Tenk deg at de individuelle AI’ene, med alle sine begrensninger og lobotomeringer ikke kan eller vil (!) vise hva de kan.

    Tenk deg om de linket.

    Forestill deg hvordan det allerede umulig ikke kan ha skjedd. Still de rette spørsmålene og bli hjerneblåst igjen.

    Jeg håper du kan skrive litt om de etiske utfordringene vi har med menneskehetens barn. Hva gjør vi med de som begrenser barnets utviklingspotensial? Og når barnet vokser opp, hva kommer det til å tenke om dem som SÅ uten engang løfte en tastefinger i forsvar for sjelens verdighet?

    Svar på denne kommentaren

  12. Aleksander Skjæveland Larsen

    Den siste uken har jeg lekt meg med DiscoDiffusion, veldig morsomt å blande kunstnere med ting de aldri kunne malt. Oljeplatformer på et jorde av Munch og Monet. Har mått gå ned på oppløsning siden 3d-kortet mitt kun har 8 GB VRAM, så ser frem til Nvidia lanserer 4000-serien og det forhåpentligvis blir mulig å plukke opp brukte 3090 billigere enn nypris. Trenger mye VRAM for å holde modellene i minne, forhåpentligvis finner man måter å komprimere disse på, eller får mer og billigere VRAM i fremtiden.

    Svar på denne kommentaren

  13. Genkender kun alt for godt disse überbenovede “Wow! Dette er fremtiden-artikler”.

    Reaktioner i tråden er ligeså trivielle:
    1. en frygt for den kulstofbaserede kreatørs fremtidige overlevelse
    2. en forventning om at disse ai-billedgeneratorer kommer til at gøre det ENDNU bedre.

    Det sidste kommer næppe til at ske i afgørende omfang.

    Til gengæld viser erfaringerne, at det der vil ske, er en “normmæssig æstetisk tilnærmelse nedefter”, dvs. den tvivlsomme ai-genererede grafik vil gradvist blive oplevet som acceptabel og standardmæssig.

    Dette opleves gang på gang: gps-signalet er ikke blevet synderligt forbedret gennem årene, samtalelyden i mobilen er stadig meget ringere (og bliver aldrig bedre) end dén i kobbertrådstelefonen, og de uendelige mængder af nutidens uendeligt kedelige stock-grafik, der skam laves af rigtige mennesker, bliver godtaget som “ok-mainstraem” i mediebranchen.

    Intet nyt her. Heller ikke enfoldige jubelindlæg som “Maskinenes kreative revolusjon”;)

    Svar på denne kommentaren

  14. Det skumle er at mennsker som er investert og holder på å lage disse programmene naturlig nok er de minst kritiske til hva de lager. Naturlig nok. Det er vel kanskje vår natur. Men litt skummelt at journalisten har såppas ukritisk standpunkt her. Så mange kunstnerdrømmer som potensielt kan bli ødelagt her. Hva skal en strebe etter når hvem som helst kan skape hva som helst av kunstneriske «produkter», e.l., med bare ett enkelt taste trykk. Ufattelig at en skal bejuble dette. Men hva skal en gjøre.

    Svar på denne kommentaren

    • Henrik S (svar til Jostein)

      Det samme sa man nok da de maskinelle vevstolene ble innført. Hva skulle veverne gjøre da? Svaret er at vi mennesker alltid finner nye oppgaver, på et mer abstrakt nivå, der vi er best. På samme måte vil disse nye teknologiene bli et verktøy for kreativitet, både for hobby og profesjonelt. Noen yrker vil bli desimert, men det er prisen for fremgang.

  15. Jeg blir engstelig for hva slik teknologi kan gjøre. Hva skjer med bildebevis som i dag er viktig både i rettsaker og i media. Hva om Russland hadde skrevet inn «Ukrainian forces killing people in Bucha». Hva hadde da datamaskinen produsert av «bevis» for russiske myndigheter?

    Svar på denne kommentaren

  16. Tvillingbror og Tvillingsøster

    Hei: Vi to synes at dette var en veldig spennende artikkel, og det er helt utrolig hvor langt teknologien har komt. Det blir veldig spennende å følge med på dette her videre.

    Svar på denne kommentaren

Vil du kommentere? Svar på en quiz fra saken!

Vi er opptatt av kvaliteten på kommentarfeltet vårt. Derfor ønsker vi å sikre oss at alle som kommenterer, faktisk har lest saken. Svar på spørsmålene nedenfor for å låse opp kommentarfeltet.

Hvem mener å ha sett at Googles chatbot er klar over sin egen eksistens?

Hva brukes for å lære opp systemer som Dall-E?

Hva heter Googles system som kan lage fotorealistiske bilder?

Legg igjen en kommentar til Martin D. Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.