Informasjonsstrømmen fra konflikten i Afghanistan har vært nøye styrt av de ulike lands myndigheter. Som lovet i en tidligere artikkel om WikiLeaks kommer NRKbeta her tilbake med en noe mer teknisk beskrivelse av hvordan vi utnyttet dataene fra WikiLeaks til å få norsk-relaterte forhold frem i lyset.
Publiserte databasedump
Den norske forsvarsledelsen har ikke villet fortelle i detalj om omfanget av sivile tap i området omkring de norske basene i Afghanistan, blant annet fordi tapstall for sivile og opprørere er «veldig vanskelig å omtale«, ifølge forsvarssjefens pressetalsmann, major Christian Øverli.
Nå må forsvaret forholde seg til at konkrete tall likevel er kommet ut i offentligheten, etter at mediene hadde lett med lys og lykter etter norsk-relaterte hendelser i den enorme rapportmengden.
WikiLeaks publiserte dataene på en forbilledlig måte. De nøyde seg ikke med bare å offentliggjøre rapportene på et eget, dedikert nettsted. De la samtidig ut alle rådataene i flere tilgjengelige formater på denne siden.
En hemmeligstemplet SQL-tabell
Her i NRK ble det lagt stor innsats ned i å finne nasjonale saker og sammenhenger i de lekkede dataene. At WikiLeaks forsynte oss med en ferdig SQL-fil som enkelt kunne importeres til opensource-databasemotoren MySQL, gjorde deler av researchen enklere.
Etter å ha lastet ned og pakket ut sql-filen afg-war-diary.sql fra WikiLeaks, kreves det kun noen få kommandoer fra MySQL-kommandolinjen for å få dataene lagt inn lokalt på maskinen.
Databasetabellen blir opprettet i løpet av noen sekunder, og har navnet «war_diary». Den består av 76.911 hemmeligstemplede rapporter, representert med mange spennende felter (pdf).
Avsløringer i tid — og rom
Vi var interessert i forhold som kunne være relevante i forhold til norske styrker.
Av 76.911 enkelthendelser, er 76.178 tagget opp med brukbar, geografisk posisjon.
Koordinatene viser hvor hendelsen inntraff. Dette gjør det mulig å gjøre stedbundne søk i datamengden.
MySQL er imidlertid ikke den beste databasemotoren å bruke til geografiske spørringer. Dens spatial extensions er i skrivende stund mangelfullt implementert.
Dermed tvinges vi over på konkurrende løsninger.
Vi valgte å gå for databasemotoren PostgreSQL. Også den er opensource, og har i tillegg en velutviklet utvidelse for indeksering og søk i geografiske data, kalt PostGIS.
Å tilrettelegge for søkene
Før vi flyttet dataene over fra MySQL til PostGIS, gjode vi en del tilpasninger i tabellen fra WikiLeaks. I deres tabell er alle feltene blitt definert som tekst («varchar» og «text»).
For at vi skal kunne gjøre noe meningsfylt med dataene, må vi konvertere noen av feltene til mer passende datatyper.
Databasemotoren må for eksempel vite at kolonnen «Date» angir et tidspunkt hvis vi skal kunne spørre etter tidsrom og lignende.
Når MySQL-tabellen er ferdig tilpasset, kan dataene flyttes over til PostgreSQL. Det medfølgende programmet MySQL to PostgreSQL Migration Wizard gjør jobben til en lek.
Hvor langt..?
Etter at dataene var lagt inn, brukte vi først PostGIS-utvidelsen til å regne ut avstander.
Vi ville vite distansen, i meter, mellom hver hendelse og den norske leiren i Meymaneh.
Geografiske koordinater og avstandsverdier skilte vi for ordens skyld ut i en egen tabell, kalt war_location.
Med PostGIS kunne vi stille nye og interessante spørsmål; for hvilke hendelser inntraff innenfor en radius på 40 km fra de norske basene i Meymaneh og utenfor Mazar e Sharif?
Resultatet av spørringen viste en økning i antallet drepte i begge de to områdene. Forsvaret måtte svare på hvorfor dette skjer i områder av landet der nordmennene har et medansvar.
Tallene ble utgangspunkt for journalistikk både på nrk.no og i Dagsrevyen. Nettredaksjonen fikk laget et Google-kart med de aktuelle hendelsene plottet inn for de to områdene.
Nåla i høystakken
I tillegg til de geografiske kjøringene, opprettet vi en intern søkeside for NRK-journalistene som jobbet med WikiLeaks-dataene.
Grensesnittet tilbyr fulltekstsøk, eller spesifikke søk mot enkeltfelter i databasen.
Vi kan for eksempel spørre etter rapporter med sivile drepte, der også Norge er omtalt (som i eksempelet til venstre).
Man kan søke på geografisk region; tidsrom (fra/til dato); involverte enheter; handlingens natur (om den er «fiendtlig», «nøytral» eller «vennlig»); angrepstype (om det er et angrep på «fiende», «nøytral» eller «venn»); kategori (om det er en ulykke, terrorhandling eller lignende; type (kriminell handling, eksplosjonsfare, fiendtlig handling etc.).
De utvidede søkemulighetene gir oss et verktøy til å drive journalistikk på dataene (forslag til kjøringer tas i mot med takk).
I løpet av en uke eller to lover WikiLeaks å frigi ytterligere 15.000 tilsvarende dokumenter.
Det amerikanske forsvarsdepartementet, Pentagon, mener disse dokumentene inneholder enda mer sensitiv informasjon enn de allerede publiserte rapportene, og advarer WikiLeaks mot publiseringen.
Andreas
Det er alltid spennande med innblikk som dette. Behandling, presentasjon og bruk av datamateriale blir sikkert berre meir og meir viktig. Etterkvart som stadig meir informasjon blir tilgjengeleg, er bruken og ikkje minst presentasjonen ekstra viktig. Opne programmer og interaksjon med brukarane er ein nøkkel til suksess. Noko NRK(Beta) er flinke til. Kanskje får vi og tilgang til verkty som den nemnte søkjesida dykk har laga ein gong.
Dei som er interessert i denne saka, kan sikkert og ha glede av følgjande intervju: niemanlab.org/2010/08/how-the-guardian-is-pioneering-data-journalism-with-free-tools/?utm_source=fee…
Wikileaks – hva gjør vi når det smeller? | Nettnytt
[…] Det skal dette handle om. Men aller først: NRKBeta og Espen Andersen har kommet med en detaljert beskrivelse av hva NRK gjorde med dataene. Nedtur For meg personlig ble dette en nedtur. Meldingen tikket inn på telefonen mens jeg satt på […]
Kay Bærulfsen
Jeg har ett script for å importere dataen inn i MongoDB om noen er nysgjerrig.
Henrik Lied (NRK)
Veldig!
How NRK mined the WikiLeaks SQL database | Einar Thorsen
[…] External link […]
Marie
Dette er en flott start NRK. Jeg håper NRK legger det fritt ut på nettet slik at jeg kan gjøre egne (enkle) søk.
Terje Karlsen
Ja, jeg vil gjerne også se skriptet. Legger dere skriptet ut for nedlasting etterhvert?
Magnus
Her er et annet eksempel på hvordan Afghanistan-dataene er brukt visuelt:
vimeo.com/14200191
Markus
Jeg tror en interessant spørring vil kan være å se på forholdet mellom drepte sivile, og militære (både «vennlige» og «fiendtlige», gjerne satt opp mot hverandre). Slik at man kan se hvor mange sivile det har gått på hver soldat, og hvor mange «fiender» som har blitt drept i forhold til hvor mange «venner» som har blitt drept.
Å fortelle historier med datakilder « Vox Publica
[…] med WikiLeaks: Espen Andersen forteller om hvordan NRK bearbeidet og presenterte materiale fra de lekkede […]
Blikk – Nyheter for aktivister
[…] Databasejakt med WikiLeaks […]
Journalist v2.0 – Imponert.no
[…] å gå igjennom alle dokumentene. Espen Andersen hos NRKbeta forteller hvordan de angrep problemet. Databasejakt med WikiLeaks Utrolig hvor hjelpsomt teknologi kan […]
Wikileaks: Wikileaks og Julian Assange « Blikk – Nyheter for aktivister
[…] Databasejakt med WikiLeaks […]
Wikileaks: Wikileaks og Julian Assange « Wikileaks.no
[…] Databasejakt med WikiLeaks […]
Wikileaks – hva gjør vi når det smeller | Nettnytt
[…] Det skal dette handle om. Men aller først: NRKBeta og Espen Andersen har kommet med en detaljert beskrivelse av hva NRK gjorde med dataene. Nedtur For meg personlig ble dette en nedtur. Meldingen tikket inn på telefonen mens jeg satt på […]
Hvor langt kan et innlegg være? – NKULposten
[…] [22] nrkbeta.no/2010/08/16/databasejakt-med-wikileaks/ […]