Journalistikk, Media & NRK

Databasejakt med WikiLeaks

Montasje: Krigen i Afghanistan
SQL-spørringer i WikiLeaks-dataene fra krigen i Afghanistan avslører forhold det norske forsvaret ikke vil snakke høyt om. FOTO: Marius Arnesen/NRK

Montasje: Krigen i Afghanistan
SQL-spørringer i WikiLeaks-dataene fra krigen i Afghanistan avslører forhold det norske forsvaret ikke vil snakke høyt om. FOTO: Marius Arnesen/NRK

Informasjonsstrømmen fra konflikten i Afghanistan har vært nøye styrt av de ulike lands myndigheter. Som lovet i en tidligere artikkel om WikiLeaks kommer NRKbeta her tilbake med en noe mer teknisk beskrivelse av hvordan vi utnyttet dataene fra WikiLeaks til å få norsk-relaterte forhold frem i lyset.

Publiserte databasedump

Den norske forsvarsledelsen har ikke villet fortelle i detalj om omfanget av sivile tap i området omkring de norske basene i Afghanistan, blant annet fordi tapstall for sivile og opprørere er «veldig vanskelig å omtale«, ifølge forsvarssjefens pressetalsmann, major Christian Øverli.

Nå må forsvaret forholde seg til at konkrete tall likevel er kommet ut i offentligheten, etter at mediene hadde lett med lys og lykter etter norsk-relaterte hendelser i den enorme rapportmengden.

WikiLeaks publiserte dataene på en forbilledlig måte. De nøyde seg ikke med bare å offentliggjøre rapportene på et eget, dedikert nettsted. De la samtidig ut alle rådataene i flere tilgjengelige formater på denne siden.

En hemmeligstemplet SQL-tabell

Her i NRK ble det lagt stor innsats ned i å finne nasjonale saker og sammenhenger i de lekkede dataene. At WikiLeaks forsynte oss med en ferdig SQL-fil som enkelt kunne importeres til opensource-databasemotoren MySQL, gjorde deler av researchen enklere.

Etter å ha lastet ned og pakket ut sql-filen afg-war-diary.sql fra WikiLeaks, kreves det kun noen få kommandoer fra MySQL-kommandolinjen for å få dataene lagt inn lokalt på maskinen.

Databasetabellen blir opprettet i løpet av noen sekunder, og har navnet «war_diary». Den består av 76.911 hemmeligstemplede rapporter, representert med mange spennende felter (pdf).

Avsløringer i tid — og rom

Vi var interessert i forhold som kunne være relevante i forhold til norske styrker.

Skjermdump
De aller fleste rapportene i databasen er nøye stedfestet med lengde- og breddegrader.

Av 76.911 enkelthendelser, er 76.178 tagget opp med brukbar, geografisk posisjon.

Koordinatene viser hvor hendelsen inntraff. Dette gjør det mulig å gjøre stedbundne søk i datamengden.

MySQL er imidlertid ikke den beste databasemotoren å bruke til geografiske spørringer. Dens spatial extensions er i skrivende stund mangelfullt implementert.

Dermed tvinges vi over på konkurrende løsninger.

Vi valgte å gå for databasemotoren PostgreSQL. Også den er opensource, og har i tillegg en velutviklet utvidelse for indeksering og søk i geografiske data, kalt PostGIS.

Å tilrettelegge for søkene

Før vi flyttet dataene over fra MySQL til PostGIS, gjode vi en del tilpasninger i tabellen fra WikiLeaks. I deres tabell er alle feltene blitt definert som tekst («varchar» og «text»).

For at vi skal kunne gjøre noe meningsfylt med dataene, må vi konvertere noen av feltene til mer passende datatyper.

Databasemotoren må for eksempel vite at kolonnen «Date» angir et tidspunkt hvis vi skal kunne spørre etter tidsrom og lignende.

Når MySQL-tabellen er ferdig tilpasset, kan dataene flyttes over til PostgreSQL. Det medfølgende programmet MySQL to PostgreSQL Migration Wizard gjør jobben til en lek.

Hvor langt..?

Etter at dataene var lagt inn, brukte vi først PostGIS-utvidelsen til å regne ut avstander.

NRK-grafikk
Hvor mange personer er registrert drept i området rundt den norske leiren i Meymaneh? (Grafikk: NRK)

Vi ville vite distansen, i meter, mellom hver hendelse og den norske leiren i Meymaneh.

Geografiske koordinater og avstandsverdier skilte vi for ordens skyld ut i en egen tabell, kalt war_location.

Med PostGIS kunne vi stille nye og interessante spørsmål; for hvilke hendelser inntraff innenfor en radius på 40 km fra de norske basene i Meymaneh og utenfor Mazar e Sharif?

Resultatet av spørringen viste en økning i antallet drepte i begge de to områdene. Forsvaret måtte svare på hvorfor dette skjer i områder av landet der nordmennene har et medansvar.

Tallene ble utgangspunkt for journalistikk både på nrk.no og i Dagsrevyen. Nettredaksjonen fikk laget et Google-kart med de aktuelle hendelsene plottet inn for de to områdene.

Nåla i høystakken

I tillegg til de geografiske kjøringene, opprettet vi en intern søkeside for NRK-journalistene som jobbet med WikiLeaks-dataene.

Intern søkeside mot War Diary.

Grensesnittet tilbyr fulltekstsøk, eller spesifikke søk mot enkeltfelter i databasen.

Vi kan for eksempel spørre etter rapporter med sivile drepte, der også Norge er omtalt (som i eksempelet til venstre).

Man kan søke på geografisk region; tidsrom (fra/til dato); involverte enheter; handlingens natur (om den er «fiendtlig», «nøytral» eller «vennlig»); angrepstype (om det er et angrep på «fiende», «nøytral» eller «venn»); kategori (om det er en ulykke, terrorhandling eller lignende; type (kriminell handling, eksplosjonsfare, fiendtlig handling etc.).

De utvidede søkemulighetene gir oss et verktøy til å drive journalistikk på dataene (forslag til kjøringer tas i mot med takk).

I løpet av en uke eller to lover WikiLeaks å frigi ytterligere 15.000 tilsvarende dokumenter.

Det amerikanske forsvarsdepartementet, Pentagon, mener disse dokumentene inneholder enda mer sensitiv informasjon enn de allerede publiserte rapportene, og advarer WikiLeaks mot publiseringen.

16 kommentarer

  1. Det er alltid spennande med innblikk som dette. Behandling, presentasjon og bruk av datamateriale blir sikkert berre meir og meir viktig. Etterkvart som stadig meir informasjon blir tilgjengeleg, er bruken og ikkje minst presentasjonen ekstra viktig. Opne programmer og interaksjon med brukarane er ein nøkkel til suksess. Noko NRK(Beta) er flinke til. Kanskje får vi og tilgang til verkty som den nemnte søkjesida dykk har laga ein gong.

    Dei som er interessert i denne saka, kan sikkert og ha glede av følgjande intervju: niemanlab.org/2010/08/how-the-guardian-is-pioneering-data-journalism-with-free-tools/?utm_source=fee…

    Svar på denne kommentaren

  2. Jeg tror en interessant spørring vil kan være å se på forholdet mellom drepte sivile, og militære (både «vennlige» og «fiendtlige», gjerne satt opp mot hverandre). Slik at man kan se hvor mange sivile det har gått på hver soldat, og hvor mange «fiender» som har blitt drept i forhold til hvor mange «venner» som har blitt drept.

    Svar på denne kommentaren

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *