Hvorfor tror datamaskinen at artikler om «Analplugg-gnomen» handler om jul?

Kategori: Utvikling

Rimfrosten har lagt seg over den røde bronseskulpturen «Santa», også kjent som «Analplugg-gnomen» av Paul Mc Carthy. Foto: Heiko Junge / NTB Scanpix

Når datamaskinen skal gjenkjenne mønster i data kan det gi uheldige utslag. Her i NRK påstår for eksempel en klassifiseringsmodell at en artikkel om den såkalte «Analplugg-gnomen» handler om jul og høytid.

I løpet av det siste året har vi i NRK jobbet med å lage en metode for å automatisk plassere alle nye artikler i en gitt kategori. Det gir oss en ny måte å holde oversikt over hvilket innhold vi publiserer og en fin mulighet til å anbefale deg artikler som likner den du leser.

Vi gjør dette med en teknikk som kalles maskinlæring. I maskinlæring bruker man algoritmer til å la datamaskinen lære seg mønster i data, slik at den automatisk kan utføre oppgaver for oss. I dette tilfellet ønsket vi at maskinen skulle lære seg hva som kjennetegner artikler om ulike tema.

I vårt tilfelle matet vi klassifiseringsmodellen med 10.000 ulike eksempler, og plasserte dem i 81 kategorier. En av kategoriene var «høytid», og det var rundt her det går galt.

Omstridt gnom i julegrøten

Modellen bruker en statistisk metode som her regner ut hvilke grupper av ord og vendinger som typisk hører sammen. For de mer innvidde kalles metoden multinomial logistisk regresjon.

For selv om noen ord er veldig typiske for en kategori, kan de også være veldig tilstedeværende i enkeltsaker i andre kategorier. For eksempel kan juleordene: nisse, gave, julebrus, nisselue, julaften, juletre og julepresang plutselig brukes i en og samme sak om et kunstverk.

Som i denne saken om avdukingen av den omstridte skulpturen «Santa» som er plassert i en rundkjøring rett nedenfor Ekebergparken i Oslo.

Verket er laget av den amerikanske kunstneren Paul McCarthy, og som du ser har journalisten gjort sitt for å krydre artikkelen med juleord:

Les saken selv: Kunst eller jul? Illustrasjon: Øyvind Holmstad

Da går det som det må gå: Modellen kan med stor sikkerhet plassere saken om Analplugg-gnomen i kategorien om jul og høytid. God jul!

Lyspunkt i mørketida

Likevel er vi veldig fornøyde med at modellen stort sett klarer å velge rett kategori: Med våre metoder treffer datamaskinen rett for 90 prosent av artiklene.

Selv om vi elsker statistikk er det noen nedsider med metoden. Det er vanskelig å lage unntaksregler, så selv om vi vet at skulpturen «Santa» ikke er julenissen er det lite vi får gjort.

Antall «juleord» i artikkelen overskygger rett og slett «kunstordene», og ordet «juletre» er viktigere for julekategorien enn ordet «kunst» er for kunst-kategorien.

Vi mennesker er heller ikke perfekte. Vi lot nemlig to NRK-ansatte kategorisere 450 artikler med de 81 kategoriene vi har definert. De valgte kun samme kategori for 93 prosent av artiklene, altså var det hele 32 tilfeller hvor de var uenige om hvilken kategori en artikkel tilhørte.

Det er visst ikke så lett å putte en merkelapp på ting når det kommer til stykket. En ting var de faktisk enige om: saken om Analplugg-gnomen handler om kunst.

Om det er god kunst eller ikke kan dere eventuelt diskutere i kommentarfeltet.

3 kommentarer

    • Ikke vær så gammeldags! Det heter «downside» på engelsk, og det blir «nedside» på norsk!

      Klag heller på de stedene der skribenten tviholder på arkaisk norsk der han kunne brukt moderne, internasjonalt orieenterte ord, som «tag» for «merkelapp», «termer» for «vendinger» eller «over» for «I løpet av».

  1. Jeg får inntrykk av at målet er å plassere hver artikkel i én eneste kategori. I mine øyne hører artikkelen hjemme under både kunst og jul. Navnet alene knytter skulpturen til jule-tradisjonen.

    Når den her omtales som en «gnom»: Avstanden er kort fra den tradisjonelle norske nissetradisjonen – han som sitter på låven med sin julegrøt, som måtte få god oppvartning så han ga tilbake gaver i form av god avling på gården året etter – til haugabonden, gnomen.

    Hvis jeg søkte etter stoff om nisser og jul ville jeg ønske å ha denne med i utvalget, selv om den hører også med under kunst.

    I mine oversikter over hva jeg har av musikk, bøker eller filmer, ga jeg for mange år siden opp å sortere i helt adskilte grupper: Det er både folkemusikk og jazz, både ungdomsbok og krim og miljø, både det ene og det andre.

    Mange går helt av skaftet med hashtags: Det virker som om vi har en evig konkurranse om å hekte på flest mulig hashtags, bruke flest mulig ulike hastags, og mest mulig obskure. Men en kontrollert, behersket bruk av dem (ikke minst: et begrenset sett av markert ulike tags) kan fungere langt bedre. Særlig hvis du skiller mellom to-tre nivåer: Primær tag er «kunst», sekundær tag er «jul». Jeg tillater flere både primære og sekundære tags, men bruker sjelden mer enn to-tre. Eventuelt kan du også ha underordnede «tilleggstags», som her: Sex og samfunn.

    Klassifisering i ulike samtidige kategorier er jo gjort. Så er én eneste kategori utpekt som Svaret med to streker under, og resten av informasjonen kastet. Ikke kast det, men behold det, og bruk det i rangeringen av trefflista, eller la bruker søke «også i sekundære kategorier».

    Svar på denne kommentaren

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.