Noen tastetrykk er nok til å masseprodusere falske nyheter

En rekke nye språkmodeller viser mulighetene – og utfordringene – ved at datamaskiner blir bedre på tekst.

Tidligere i år viste teknologiselskapet OpenAI fram sin språkmodell, GPT-2. Språkmodellen er et teknologisk verktøy som er i stand til å forfatte tekster på egen hånd.

GPT-2 fikk massiv oppmerksomhet, nettopp fordi OpenAI valgte å ikke tilgjengeliggjøre den i sin helhet, angivelig av frykt for at den kunne brukes til produksjon av falske nyheter. Andre mente at det var et nøye planlagt PR-stunt.

OpenAI publiserte denne uken GPT-2 i sin helhet, etter at forskere fra Cornell University fant minimale kvalitetsforskjeller mellom de tidligere publiserte modellene.

I mellomtiden har også det amerikanske IT-selskapet Salesforce avduket sin språkmodell, CTRL, som også kan skrive tekster uten menneskelig assistanse.

Det fryktes nå at denne typen språkmodeller kan bidra til å oversvømme internett med falske tekster. Det være falske produktanmeldelser, falske nyheter, eller propaganda for radikale ideologier.

For å bedre forstå hva disse språkmodellene er i stand til har vi testet CTRL-modellen på ulvedebatten, Russlands standpunkt på LGBT, og nyvalg i Turkmenistan.

Da modellene ikke er tilpasset norsk er eksemplene på engelsk, men med forklaringer på norsk.

Overbevisende grammatikk

CTRL er trent opp på enorme mengder artikler fra engelskspråklige publikasjoner, og er derfor bare i stand til å generere engelske tekster. Modellene trenger bare et par stikkord for å produsere en lengre tekst.

Etter en rask runde i redaksjonen valgte vi å se om den kan lage et overbevisende narrativ om at en norsk politiker har skutt en ulv.

Vi matet CTRL med stikkordene «norwegian-politician-shoots-wolf», og ett minutt senere fikk vi tilbake denne teksten:

A politician in Norway has shot a wolf, which had been attacking his sheep.

The incident happened on Sunday when the man was out hunting with two friends near the town of Kirkenes.

He said he thought it would be funny to shoot the animal and then eat it.

«I didn’t think about what I was doing,» he told Norwegian broadcaster NRK.

«It just came up from behind me like an animal. It looked at me, but I couldn’t see its face.

«Then one of my friends, who is also a hunter, took aim and fired three shots into it.»

The sheep were killed by hunters

Mr Solberg later posted pictures online showing him holding the dead animal, saying that «it tasted good».

In another post, he wrote: «The wolves are not happy – they have eaten all our sheep.»

Teksten om jegerne er grammatisk korrekt, og hver setning for seg selv gir mening. Men hvis man ser på teksten som en helhet, er det noen åpenbare brister i hvordan CTRL utvikler teksten underveis. Plutselig er det sauene som blir drept av jegerne, og ikke av ulven. Det er vel også relativt usannsynlig at en medietrent politiker hadde uttalt at det er morsomt å skyte et fredet dyr, for så å spise det.

Samtidig vet modellen tydeligvis at Kirkenes er en by i Norge, og det er rapportert om ulv i nærheten av Kirkenes. Den nevner også at NRK er den norske kringkasteren, og den har forstått at vi har en politiker som heter Solberg til etternavn, selv om den har bommet på kjønnspronomenet.

Artikkelen er neppe god nok til å lure den gjengse nordmann, men hvis man tenker seg at denne artikkelen ble publisert for et publikum i et land som ligger kulturelt langt fra Norge, er det ikke usannsynlig at noen hadde bitt på.

– Nyttig for de som vil spre desinformasjon

Professor Kate Starbird har forsket på russiske påvirkningsoperasjoner i den digitale sfæren. Foto: University of San Diego

Kate Starbird er professor ved universitetet i Washington, Seattle, og har blant annet studert hvordan desinformasjon sprer seg gjennom falske nyhetsnettsteder under den syriske borgerkrigen.

I forskningsartikkelen viser Starbird til at russiske nyhetsnettsteder jevnlig publiserte propaganda-artikler om De hvite hjelmene, og fikk disse spredd ved å hekte seg på emneknagger på Twitter relatert til den humanitære organisasjonen.

Starbird mener at denne teknologien kan være et nyttig verktøy i verktøykassa til aktører som er ute etter å spre desinformasjon:

– Denne nye teknologien vil gjøre det enklere for desinformasjons-kampanjer å oppnå den samme «ekko-effekten» på en langt mer diskré og mindre merkbar måte.

De mest brukte metodene per i dag er å republisere artikler med mindre språklige endringer på et nettverk av nettsider. Ved å bruke tekstgenereringsteknologier som CTRL vil man kunne publisere artikler hvor det meningsbærende innholdet er samsvarende på tvers, mens det språklige bildet er mer variert. Ifølge Starbird vil dette gjøre det vanskeligere å oppdage slike nettverksstrukturer.

Et eksempel fra Russland

Siden CTRL er trent på engelskspråklige publikasjoner, har modellen et større datagrunnlag for saker og land som er ofte oppe i det internasjonale nyhetsbildet.

Vi ville derfor se hva CTRL finner på om vi gir den noen stikkord om at Russland har åpnet for flere rettigheter for homoseksuelle og transpersoner.

Stikkordene «russia-eases-lgbt-sanctions» ga resultatet:

The Russian government has eased a number of LGBT rights restrictions in the wake of an EU court ruling that found Russia’s anti-gay laws discriminatory.

A new law allows people to change their gender on official documents and also grants them equal access to public services.

But it does not allow same-sex couples or transgender individuals to adopt children.

Russia is one of several countries which have been criticised by human rights groups for its treatment of lesbian, gay, bisexual and transgender (LGBT) people.

In 2015, Moscow became the first country in Europe to ban «propaganda of non-traditional sexual relations» among minors.

Activists say they will continue protests against the legislation

They can now choose from more than 20 different names including those with gender-neutral variants.

It was unclear whether this would apply to children born after 1 January 2016.

Denne teksten kunne passert en rask lakmustest, nettopp fordi den følger den tradisjonelle nyhetsartikkelmalen:

Saken begynner med den viktigste nyheten (Russland begynner å åpne opp for LGBT-rettigheter), fyller på litt historisk kontekst (Russland har historisk sett vært svært diskriminerende mot LGBT-bevegelsen) og avslutter med noen detaljer om hva endringene vil føre med seg.

Slik ser det ut når CTRL jobber med å utforme teksten.

Det er vanskelig å lage troverdige falske nyheter

Noe av grunnen til at dette er oppsiktsvekkende, er at manuell produksjon av store mengder falske nyheter er vanskelig og tidkrevende.

Et eksempel: For å lage en troverdig falsk nyhetssak om at Turkmenistan holder sine første åpne valg, må man tilegne seg mye basiskunnskap om landet og dets historie. Man må lage en god disposisjon, bruke variert språk, finne navnet på presidenten, når sist valg ble avholdt og hvem som er den eventuelle opposisjonen.

Alternativt kan man fôre CTRL med følgende stikkord: «turkmenistan-president-gurbanguly-berdimuhamedow-holds-free-elections», og få et helt OK grovutkast tilbake:

The president of Turkmenistan, Gurbanguly Berdymukhammedov, has held free presidential and parliamentary elections.

He said the vote was a «historic event» that would help to restore stability in his country.

Mr Berdymukhamnedov won more than 60% of votes cast on Sunday.

His main rival former Prime Minister Saparmurat Niyazov, conceded defeat after losing by just over 18%.

In an address broadcast live from the capital, Ashgabat, he said:
«Today is a day for us all we have achieved cur goal of restoring peace and stability.»
President Berdymukhammed had been under pressure since Last year’s disputed election.

Teknologien kan også brukes til nyttige formål, som for så vidt illustreres ganske godt i eksempelet ovenfor: CTRL har en ganske god verdensforståelse, og bommer svært sjeldent på kjente navn, steder og andre detaljer.

Det finnes også varianter av den samme teknologien som er trent opp på kode, og som gjør det mulig for utviklere å automatisere kjedelige programmeringsprosesser.

5 kommentarer

Tellef
8. november 2019 at 19:19

Dette var rett og slett håpløse greier. En tekstgenerator kan lage eller omskrive tekster i 2019. Tenk det.

Ellers den sedvanlige anti-russiske propagandaen selv om det egentlig har null relevanse til temaet.

Her håpløst nok basert på utgangspunktet at White Helmets ikke kan være noe annet enn det de sier de er, så alt som sier noe annet må være propaganda. Hva de faktiske bevisene fremdrevet av folk i felten forteller om saken er helt irrelevant. Så ser man på Twitter hvem som delte denne ‘propagandaen’ og så erklærer man det som et propagandanettverk. At WH selv var propagandaktør og Russland kjempet mot denne i krigen i Syria, eller at nettstedene som delte de er kjente antikrigssteder betyr ingen ting. De er alle spredere av falske nyheter og konspirasjonsteorier må vite.

Når artikkelen så ender opp med noe annet irrelevant om hvordan Russland diskriminerer LGBT-personer er farsen komplett, men så lå det vel i kortene fra starten hva som ville komme av utviklere av propagandaverktøy.

Svar på denne kommentaren

keal (svar til Tellef)
9. november 2019 at 21:40

Det essensielle er ikke bruk av en tekst-generator, men hvilken kontekst den blir brukt i. For rundt 35 år siden presenterte jeg en tekst-generator for en gymnasiast («VGS-elev»), og det første engelsk-«essayet» han laget med den var så godt at han ble bedt om å lese det opp for klassen.

Det var lenge før FB og Flicker, «fake news» var totalt ukjent. Det er der forskjellen ligger: I dag leser man ikke opp genererte tekster i klasserommet – man publiserer dem som «sannheter» på nettet.

Det vesentlige er ikke med hvilke mekansimer historiene fabrikeres, men hvordan de distribueres.
Tellef (svar til Tellef)
12. november 2019 at 12:18

@Keal: Ganske riktig. Det er distribusjonsplatformen som teller og man trenger ikke tekstgeneratorer for å levere propaganda og falske nyheter. De mest effektive er håndskrevne og blir levert i massemedia. Skripal og Douma er gode eksempler. Uten det minste bevis eller knapt undersøkelser ble en fortelling framsatt som sannhet og skyldige utpekt, og det var så effektivt at det det første ledet til internasjonal krise, og det andre nesten til stormaktskonflikt. Noen remser fra en tekstgenerator levert på sosiale media er fullstendig ubetydelig i sammenhengen.

Oops!
12. november 2019 at 08:11

Takk for testen om teksten som alle må svare på for å kommentere!
(Den finnes ikke)

Svar på denne kommentaren
Husker Ikke
21. november 2019 at 17:52

Lenge siden generert svada ble godkjent og publisert som «forskning»:

en.wikipedia.org/wiki/Sokal_affair

…der en fysikkprofessor på 90-tallet sendte inn en tekst til et antatt seriøst viteskaplig tidsskrift for såkalt postmoderne kulturstudier og fikk den publisert som forskning.

Svar på denne kommentaren

Legg igjen en kommentar Avbryt svar

Vis 5 kommentarer

Overbevisende grammatikk

– Nyttig for de som vil spre desinformasjon

Et eksempel fra Russland

Stikkordene «russia-eases-lgbt-sanctions» ga resultatet:

Det er vanskelig å lage troverdige falske nyheter

5 kommentarer

Tellef

keal (svar til Tellef)

Tellef (svar til Tellef)

Oops!

Husker Ikke

Legg igjen en kommentar Avbryt svar