Databasejakt med WikiLeaks

Montasje: Krigen i Afghanistan

SQL-spørringer i WikiLeaks-dataene fra krigen i Afghanistan avslører forhold det norske forsvaret ikke vil snakke høyt om. FOTO: Marius Arnesen/NRK

Informasjonsstrømmen fra konflikten i Afghanistan har vært nøye styrt av de ulike lands myndigheter. Som lovet i en tidligere artikkel om WikiLeaks kommer NRKbeta her tilbake med en noe mer teknisk beskrivelse av hvordan vi utnyttet dataene fra WikiLeaks til å få norsk-relaterte forhold frem i lyset.

Publiserte databasedump

Den norske forsvarsledelsen har ikke villet fortelle i detalj om omfanget av sivile tap i området omkring de norske basene i Afghanistan, blant annet fordi tapstall for sivile og opprørere er ”veldig vanskelig å omtale“, ifølge forsvarssjefens pressetalsmann, major Christian Øverli.

Nå må forsvaret forholde seg til at konkrete tall likevel er kommet ut i offentligheten, etter at mediene hadde lett med lys og lykter etter norsk-relaterte hendelser i den enorme rapportmengden.

WikiLeaks publiserte dataene på en forbilledlig måte. De nøyde seg ikke med bare å offentliggjøre rapportene på et eget, dedikert nettsted. De la samtidig ut alle rådataene i flere tilgjengelige formater på denne siden.

En hemmeligstemplet SQL-tabell

Her i NRK ble det lagt stor innsats ned i å finne nasjonale saker og sammenhenger i de lekkede dataene. At WikiLeaks forsynte oss med en ferdig SQL-fil som enkelt kunne importeres til opensource-databasemotoren MySQL, gjorde deler av researchen enklere.

Etter å ha lastet ned og pakket ut sql-filen afg-war-diary.sql fra WikiLeaks, kreves det kun noen få kommandoer fra MySQL-kommandolinjen for å få dataene lagt inn lokalt på maskinen.

Databasetabellen blir opprettet i løpet av noen sekunder, og har navnet “war_diary”. Den består av 76.911 hemmeligstemplede rapporter, representert med mange spennende felter (pdf).

Avsløringer i tid — og rom

Vi var interessert i forhold som kunne være relevante i forhold til norske styrker.

Skjermdump

De aller fleste rapportene i databasen er nøye stedfestet med lengde- og breddegrader.

Av 76.911 enkelthendelser, er 76.178 tagget opp med brukbar, geografisk posisjon.

Koordinatene viser hvor hendelsen inntraff. Dette gjør det mulig å gjøre stedbundne søk i datamengden.

MySQL er imidlertid ikke den beste databasemotoren å bruke til geografiske spørringer. Dens spatial extensions er i skrivende stund mangelfullt implementert.

Dermed tvinges vi over på konkurrende løsninger.

Vi valgte å gå for databasemotoren PostgreSQL. Også den er opensource, og har i tillegg en velutviklet utvidelse for indeksering og søk i geografiske data, kalt PostGIS.

Å tilrettelegge for søkene

Før vi flyttet dataene over fra MySQL til PostGIS, gjode vi en del tilpasninger i tabellen fra WikiLeaks. I deres tabell er alle feltene blitt definert som tekst (“varchar” og “text”).

For at vi skal kunne gjøre noe meningsfylt med dataene, må vi konvertere noen av feltene til mer passende datatyper.

Databasemotoren må for eksempel vite at kolonnen “Date” angir et tidspunkt hvis vi skal kunne spørre etter tidsrom og lignende.

Når MySQL-tabellen er ferdig tilpasset, kan dataene flyttes over til PostgreSQL. Det medfølgende programmet MySQL to PostgreSQL Migration Wizard gjør jobben til en lek.

Hvor langt..?

Etter at dataene var lagt inn, brukte vi først PostGIS-utvidelsen til å regne ut avstander.

NRK-grafikk

Hvor mange personer er registrert drept i området rundt den norske leiren i Meymaneh? (Grafikk: NRK)

Vi ville vite distansen, i meter, mellom hver hendelse og den norske leiren i Meymaneh.

Geografiske koordinater og avstandsverdier skilte vi for ordens skyld ut i en egen tabell, kalt war_location.

Med PostGIS kunne vi stille nye og interessante spørsmål; for hvilke hendelser inntraff innenfor en radius på 40 km fra de norske basene i Meymaneh og utenfor Mazar e Sharif?

Resultatet av spørringen viste en økning i antallet drepte i begge de to områdene. Forsvaret måtte svare på hvorfor dette skjer i områder av landet der nordmennene har et medansvar.

Tallene ble utgangspunkt for journalistikk både på nrk.no og i Dagsrevyen. Nettredaksjonen fikk laget et Google-kart med de aktuelle hendelsene plottet inn for de to områdene.

Nåla i høystakken

I tillegg til de geografiske kjøringene, opprettet vi en intern søkeside for NRK-journalistene som jobbet med WikiLeaks-dataene.

Intern søkeside mot War Diary.

Grensesnittet tilbyr fulltekstsøk, eller spesifikke søk mot enkeltfelter i databasen.

Vi kan for eksempel spørre etter rapporter med sivile drepte, der også Norge er omtalt (som i eksempelet til venstre).

Man kan søke på geografisk region; tidsrom (fra/til dato); involverte enheter; handlingens natur (om den er “fiendtlig”, “nøytral” eller “vennlig”); angrepstype (om det er et angrep på “fiende”, “nøytral” eller “venn”); kategori (om det er en ulykke, terrorhandling eller lignende; type (kriminell handling, eksplosjonsfare, fiendtlig handling etc.).

De utvidede søkemulighetene gir oss et verktøy til å drive journalistikk på dataene (forslag til kjøringer tas i mot med takk).

I løpet av en uke eller to lover WikiLeaks å frigi ytterligere 15.000 tilsvarende dokumenter.

Det amerikanske forsvarsdepartementet, Pentagon, mener disse dokumentene inneholder enda mer sensitiv informasjon enn de allerede publiserte rapportene, og advarer WikiLeaks mot publiseringen.

Tagger: , , ,

15 kommentarer på: Databasejakt med WikiLeaks

  1. Det er alltid spennande med innblikk som dette. Behandling, presentasjon og bruk av datamateriale blir sikkert berre meir og meir viktig. Etterkvart som stadig meir informasjon blir tilgjengeleg, er bruken og ikkje minst presentasjonen ekstra viktig. Opne programmer og interaksjon med brukarane er ein nøkkel til suksess. Noko NRK(Beta) er flinke til. Kanskje får vi og tilgang til verkty som den nemnte søkjesida dykk har laga ein gong.

    Dei som er interessert i denne saka, kan sikkert og ha glede av følgjande intervju: http://www.niemanlab.org/2010/08/how-the-guardian-is-pioneering-data-journalism-with-free-tools/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+NiemanJournalismLab+%28Nieman+Journalism+Lab%29

    Svar på denne kommentaren

  2. [...] Det skal dette handle om. Men aller først: NRKBeta og Espen Andersen har kommet med en detaljert beskrivelse av hva NRK gjorde med dataene. Nedtur For meg personlig ble dette en nedtur. Meldingen tikket inn på telefonen mens jeg satt på [...]

    Svar på denne kommentaren

  3. Jeg har ett script for å importere dataen inn i MongoDB om noen er nysgjerrig.

    Svar på denne kommentaren

  4. Dette er en flott start NRK. Jeg håper NRK legger det fritt ut på nettet slik at jeg kan gjøre egne (enkle) søk.

    Svar på denne kommentaren

  5. Ja, jeg vil gjerne også se skriptet. Legger dere skriptet ut for nedlasting etterhvert?

    Svar på denne kommentaren

  6. Her er et annet eksempel på hvordan Afghanistan-dataene er brukt visuelt:

    http://vimeo.com/14200191

    Svar på denne kommentaren

  7. Jeg tror en interessant spørring vil kan være å se på forholdet mellom drepte sivile, og militære (både “vennlige” og “fiendtlige”, gjerne satt opp mot hverandre). Slik at man kan se hvor mange sivile det har gått på hver soldat, og hvor mange “fiender” som har blitt drept i forhold til hvor mange “venner” som har blitt drept.

    Svar på denne kommentaren

  8. [...] med WikiLeaks: Espen Andersen forteller om hvordan NRK bearbeidet og presenterte materiale fra de lekkede [...]

    Svar på denne kommentaren

  9. [...] å gå igjennom alle dokumentene. Espen Andersen hos NRKbeta forteller hvordan de angrep problemet. Databasejakt med WikiLeaks Utrolig hvor hjelpsomt teknologi kan [...]

    Svar på denne kommentaren

  10. [...] Det skal dette handle om. Men aller først: NRKBeta og Espen Andersen har kommet med en detaljert beskrivelse av hva NRK gjorde med dataene. Nedtur For meg personlig ble dette en nedtur. Meldingen tikket inn på telefonen mens jeg satt på [...]

    Svar på denne kommentaren

Har du en mening?

Det er enkelt å få ditt eget ikon når du kommenterer på NRKbeta. Det er fint om du leser kommentarene over før du poster en ny, kanskje det du lurer på har blitt svart på allerede?

Felt merket med * er obligatoriske!
Du kan bruke følgende HTML-elementer: <a href="" title=""></> <abbr title=""></> <acronym title=""></> <blockquote cite=""></> <code></> <em></> <strong></>

Subscribe without commenting