Yama kan ikke samisk eller mandarin. Før nå.

Kategorier: Forskning, Kunstig intelligens & NRK


Økt fokus på utvikling av maskinlæringsteknikker og kunstig intelligens har ført til mange interessante nyvinninger. Gjengen bak selskapet Synthesia står for én av de mest interessante, og muligens mest urovekkende: Å få mennesker til å si ting de aldri har sagt.

Denne teknologien gjorde at Dagsrevyen-ankeret, Yama Wolasmal, plutselig snakker mandarin og samisk helt flytende.

Falske nyheter har vært et debattert tema både i 2017 og 2018, og denne teknologien vil antagligvis føre til at vi fortsetter debatten også gjennom 2019.

Synthesias teknologi springer ut fra Face2Face, et forskningsprosjekt som kan manipulere mimikk til et menneske i et videoopptak i sanntid.

Her forklarer de hvordan det fungerer:

Face2Face fikk massiv oppmerksomhet da det ble publisert, og flere spådde at vi kom til å møte på store mengder falske videoer i kjølvannet av denne nyvinningen.

Interessert i AI, maskinlæring og teknologi?

Vi følger med på de siste bevegelsene innenfor kunstig intelligens. Få et ping i postkassa hver gang vi publiserer noe!

 

Enn så lenge har ikke den spådommen slått til. Det har dukket opp flere nedlastbare alternativer til Face2Face, men ingen har klart å gjenskape troverdigheten og detaljnivået til den originale.

Yama på samisk

Vi har fulgt denne tematikken en stund, og har blant annet testet DeepFakes, en programvare som lar deg «bytte ut» ansikter til mennesker i videoer.

For oss er teknologien interessant på flere plan: Som mediehus må vi forstå hvilke utfordringer vi kan komme til å stå overfor i tiden som kommer. Samtidig åpner den for noen muligheter som tidligere har vært utenkelig, blant annet enkel og rimelig publisering av programmer på flere språk.

Vi ville derfor teste denne teknologien, og tok kontakt med Synthesia om en demonstrasjon.

Yama Wolasmal er programleder i Dagsrevyen, og kan ikke samisk:

For å lage klippet ovenfor har vi gjort en del forarbeid. Synthesia må trenes til å forstå hvordan Yamas ansikt ser ut, og hvordan det beveger seg når han uttaler forskjellige diftonger og vokaler.

Vi sendte derfor Synthesia et par videoklipp hvor Yama beveger på hodet, og sier noen setninger.

Dette gjør Synthesia i stand til å lage en virtuell modell av ansiktet til Yama:

Neste steg er å få tak i noen som faktisk kan samisk. Heldigvis har vi ganske mange ansatte i NRK som tikker av på den boksen.

Etter en kjapp telefonsamtale til Ole Rune Hætta, som er programredaktør i NRK Sapmi, fikk vi en videofil tilbake:

Ved å analysere mimikken i begge videoklippene, kan Synthesia manipulere mimikken i Yamas ansikt til å stemme overens med bevegelsene Ole Rune gjør.

Hva med verdens mest brukte språk?

Over én milliard mennesker kan mandarin – vi ville derfor se om det var mulig å lage en troverdig video der Yama snakker verdens mest brukte språk.

Da gjentok vi i praksis den samme prosessen: Vi fikk oversatt en tekst til Mandarin, og inviterte Lu Zhang til et studio på NRK for å lese teksten.

Lu Zhang leser inn en tekst i Studio 7 på NRK Marienlyst. Foto: Henrik Lied/NRK

Etter noen runder med analyse fra Synthesia, fikk vi atter en gang en ganske overbevisende video tilbake:

Derfor er Synthesias teknologi så god

Det som gjør at Synthesia er et par hestehoder foran de andre tilgjengelige teknologiene på feltet, er ifølge Synthesias COO Steffen Tjerrlid at flere av selskapets ansatte har lang erfaring med visuelle effekter fra TV-bransjen.

– Jonathan Starck var sjef for research i The Foundry i over ni år, som blant annet har laget videoredigeringsverktøyet Nuke, sier Tjerrlid til NRKbeta

Tjerrlid hevder at grunnen til at deres videoer ser såpass realistiske ut, er at Synthesia lager 3D-modeller av ansiktene før de begynner å manipulere dem. Det gjør at de bare trenger å manipulere de ulike enkeltdelene av et ansikt som vanligvis er i bevegelse seg når vi prater.

Vil til Hollywood

Tjerrlid sier at teknologien deres per i dag fungerer dårlig utenfor «nyhetsoppleser-konteksten», men at deres hovedfokus fremover er å få teknologien til å fungere i mer komplekse scener.

Innen få år satser Synthesia på å innta Hollywood:

Det langsiktige målet er å være i stand til å dubbe Hollywood-filmer, slik at filmprodusenter verden over kan nå et globalt publikum. Vi tror at en god historie bør kunne reise verden rundt, på samme måte som bøker har gjort i århundrer. Video er dessverre fortsatt et medium som er begrenset til tradisjonell dubbing eller teksting, som påvirker kreativiteten betydelig, sier Tjerrlid til NRKbeta.

Steffen Tjerrlid, COO i Synthesia

Ifølge bransjenettstedet Voices er dubbing en industri på over 4 milliarder dollar, så det er ikke utenkelig at Synthesia kan gjøre et solid innhogg i dette markedet om de får teknologien til å fungere.

– Kan misbrukes på det groveste

Da vi viste klippene til Yama, ble han sjokkert over hvor realistiske de var. Selv om Synthesias formål med teknologien er gode, ser Yama absolutt farene ved denne teknologien i feil hender:

– Denne teknologien kan brukes til å manipulere massene i et samfunn hvor folk ikke er opplyst, og ikke har utdanning. I fattigere land kan denne teknologien misbrukes på det groveste til å spre noe som ikke er sant i det hele tatt, sier Yama Wolasmal.

Yama uttrykker ikke like stor frykt for at denne teknologien har store implikasjoner i den vestlige verden, og tror at folk flest har et rikt tilfang av nyhetskilder, og har sterk kildekritisk sans.

Jobber med deteksjon av falske videoer

Synthesia og flere andre selskaper jobber aktivt med å utvikle teknologi som kan gjenkjenne manipulerte videoer.

– Jeg ser mange utfordringer ved at denne teknologien på sikt blir tilgjengelig for alle, og det er grunnen til at vi vil ta en aktiv rolle i å detektere manipulerte videoer i tillegg til å skape dem, sier Steffen Tjerrlid i Synthesia.

Steffen utdyper videre at de ikke jobber med hvem som helst:

– Vi vil være «de gode» innenfor denne bransjen, og vi er veldig kresen når det kommer til hvilke prosjekt vi tar del i.

Selv om denne teknologien eksisterer, er det per dags dato ingen kjente tilfeller av at ansiktsmanipulasjonsteknologi har blitt brukt til å skape falske videoer med den hensikt å påvirke opinionen. Likevel håper både DARPA og flere uavhengige eksperter at deteksjonsteknologi finner veien inn i sosiale medieplatformer, slik at videoene automatisk kan flagges.

Synes du temaet er spennende? Les også våre artikkel om systemet som kan lage falske profilbilder, katter, og Airbnb-utlysninger.

10 kommentarer

  1. Det er noen år siden jeg begynte å klassifisere fotografier som «veiledende», ikke som «absolutte».

    Om jeg noen noen sinne har betraktet tekstlige beskrivelser av f.eks. noen person som en «absolutt» beskrivelse av vedkommende, da er det mange tiår siden.

    Det holdt seg vel noen år lenger at hvis jeg så en video av en person, da «trodde» jeg på den. Men det er ikke noe stort offer å sette videoer i samme klasse som photoshoppede bilder.

    «Sa du ‘statsminister’ til dem dengang, så trodde folk på deg, mens nå…» – sa Odd Børretzen i «Bellmann». På en måte tror jeg at det er et framskritt at vi ikke lenger tror på det.

    Svar på denne kommentaren

  2. Dette minner mye om face over IP teknologien som brukes i Star Citizen, hvor de tar opp spilleren med web cam og overfører ansiktsmimiken til figuren du spiller. Det er ennå noe jobb før det blit virkelig bra, men det at det kan gjøres live (Real Time) på denne måten på en moderat spill PC sier litt om hvor fort dette kommer til å bre seg.

    Svar på denne kommentaren

  3. Denne teknologien aggreverer ikke problemet med falske nyheter, som domineres av at de store mainstream-media ukritisk gjentar politiske mantra som er fremherskende blandt den liberale politiske eliten, uavhengig av om all tilgjengelig vitenskap, all tilgjengelig dokumentasjon og almindelig kritisk sans tilsier at det enkelte nyhetsoppslaget er galt. Eksempler:

    – Amerikanerne har landet på månen

    – Bin Laden og al-Qaeda stod bak 9/11

    – Russland annekterte Krim

    NRK kan begynne med å feie for egen dør. Når omtalen av disse historiske hendelsene begynner å bli mer edruelige, da først vil NRK ha tatt problemet med falske nyheter alvorlig. NRK har hittil brukt ekte opptak av ekte journalister til å presentere slike falske nyheter, så denne nye videoteknologien tilfører ikke egentlig noen nye momenter. 90% av alle falske nyheter formidles av ekte opptak gjort med ekte journalister i de store vestlige mediehusene.

    Svar på denne kommentaren

    • Øystein Rantrud (svar til Ingar Holst)

      Nå ble jeg jaggu meg nysgjerrig her…

      Troverdig bevis for at amerikanerne ikke landet flere ganger på månen takk!

      Hvis ikke det var Bin Laden og Al Qaeda som stod bak 9/11, hvem da?

      Hvem har makten på Krimhalvøyen nå?

      Du må gjerne svare Illuminati og ZOG, da vet jeg hvilket forhold du har til kildekritikk.

    • Christoffer (svar til Ingar Holst)

      Ingar, dessverre er det nok slik at det er du som har blitt påvirket av fake news her. Alt du påstår ikke er sant, kan enkelt bevises.

  4. Jahn Gunnar Moe

    Men, nå vet jeg jo at dette er en fake video. Men jeg synes uansett at noe skurrer med mimikken. Det virker på en måte litt offsync. Dog er jeg veldig usikker på om jeg har samme reaksjon om jeg ikke vet at det er en fake…

    Svar på denne kommentaren

  5. Dette er ikke veldig vanskelig å detektere.
    Men å implementere det blir nok vanskeligere.

    Eks.
    Jeg er en «content creator» (innholds-leverandør).
    Når jeg lager en video så tar jeg samtidig en kryptografisk hash av materialet jeg utgir. F.eks. SHA-256
    Hvis noen forandrer på så mye som _en_ pixel i denne filen så er den ikke original lenger. Og jeg kan bevise dette.

    Foreslår at dere tar en titt på hva leverandører av «kroppskameraene» til politiet har gjort for å sikre denne beviskjeden.
    De har tenkt ganske mye på dette allerede.
    Hva skal til for at video er gyldig som bevis i en domstol, og hvordan kan de bevise at videoen ikke er manipulert.

    Det vanskelige er jo å få «vanlige» folk til å sjekke at videoen de ser, faktisk er ekte.

    Jeg installerer ikke programvare som jeg ikke kan verifisere den kryptografiske signaturen til. Men det er dessverre ikke så mange av meg.

    Dette er kanskje også en av nytteverdiene jeg personlig ser i «blockchain» teknologi. (Tror Kodak prøver på dette?)

    Eks. 2 (med blokkkjede-teknologi)
    Jeg som innholds-leverandør gir en video til NRK, denne er publisert i min blokkkjede. NRK ønsker å gjøre noen endringer i videoen jeg har sendt de. Da får jeg filen tilbake og kan «signere»/godkjenne denne forandringen i min blokkkjede, og fortsatt kalle den ekte.

    Dette vil virke for NRK og seriøse nyhetsorganisasjoner.
    Dette vil ikke virke på YouTube.
    Da må de implementere dette.

    Dette kommer nok dessverre til å være et problem en god stund fremover.

    Svar på denne kommentaren

  6. Ronny Domaas

    Man vet jo egentlig ikke kvaliteten over disse videoene før man får en døv, samisk person — eller døv kineser til — til å lese Yama på leppene 🙂
    Men det så troverdig ut for min del 😀

    Svar på denne kommentaren

Vil du kommentere? Svar på en quiz fra saken!

Vi er opptatt av kvaliteten på kommentarfeltet vårt. Derfor ønsker vi å sikre oss at alle som kommenterer, faktisk har lest saken. Svar på spørsmålene nedenfor for å låse opp kommentarfeltet.

Hvor mange mennesker snakker Mandarin?

Hvem tilhører den samiske stemmen i videoen?

Hva heter selskapet som har laget videoen i saken?

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.