nrk.no

Mener Smittestopp-data ikke ble anonymisert godt nok: – Et svik

Kategori: Samfunn

SMITTESTOPP: Dette er et av de mye brukte bildene for å illustrere appen som skulle hjelpe Norge gjennom pandemien. Foto: Heiko Junge / NTB


FHIs samarbeidspartner gjorde en alvorlig feil, mener dataanalytiker.

Smittestopp 1 ble lansert mens den første koronabølgen skylte over Norge. Daværende statsminister Erna Solberg uttalte da at «om vi vil ha mer frihet raskere – da er dette veien å gå».

Men appen ble fort kontroversiell for sin omfattende datainnsamling. Appen samlet blant annet inn brukerens stedsdata og informasjon om hvem som var i nærheten av hverandre gjennom blåtann-kommunikasjon.

Under forskningskonferansen Norwegian Information Security Conference (NISK) presenterer dataanalytiker Hagen Echzell tirsdag en artikkel som argumenter for at Simula har gjort en grov feil.

Echzell mener Simula har forsket på blåtann-data fra Smittestopp 1 som ikke er tilstrekkelig anonymisert. Om det stemmer vil det være et brudd på Simulas avtale med FHI og i strid med hva som ble opplyst til appens brukere. Simula opplyser til NRK at de ikke ønsker å la seg intervjue om saken.

– Det spiller ikke noen stor rolle hva slags data man selv har, men hvilke data som eksisterer der ute og kan brukes til å re-identifisere folk, sier Echzell, som mener Simula har hatt et for snevert perspektiv i sin vurdering.

OVERRASKET: Hagen Echzell trodde alle data fra Smittestopp 1 var slettet, eller i hvert fall godt anonymisert. Foto: Martin Gundersen / NRK

– Jeg vil ikke uttale meg om hvor stor risikoen er for enkeltpersoner, men det er et svik mot folkene som stolte på Smittestopp 1. De sa ja og stolte på oppfordringen fra Folkehelseinstituttet til å bruke appen og Simula som utviklet den digitale løsningen, sier førsteamanuensis Malgorzata Cyndecka ved UiBs juridiske fakultet.

Ikke anonyme data

For der Simula har argumentert for at dataene er anonyme, mener Echzell at det er fullt mulig å finne igjen enkeltpersoner i datasettet.

– Vi drar på ferier, har sykedager, bor på forskjellige måter, og har ulike jobber. Alle disse enkelttingene bidrar til å gjøre oss og våre kontaktmønstre med folk rundt oss unike, sier Echzell.

I et eksempel viser Echzell hvordan han sannsynligvis kunne identifisert Erna Solberg om han hadde tilgang på datasettet. Ved å bruke norske nyhetsartikler og sosiale medier er det nemlig mulig å finne hendelser som ville endt opp i datasettet.

Solberg lastet blant annet opp et bilde 16. april på Facebook hvor hun og Bent Høie holder sine iPhone-mobiler tett inntil hverandre. Senere holdt de to jevnlig pressekonferanser hvor begge var fysisk til stede, noe som burde ført til at deres mobiler kommuniserte over blåtann.

Andre situasjoner som kan bidra til å identifisere Solberg er hennes besøk til Rikshospitalet 12. mai, der hun sammen med sykepleiere danset til en viral TikTok-sang, og da hun besøkte en skole som ble gjenåpnet 11. mai.

Dette er datasettet

  • Datasettet består av rader med blåtannkommunikasjon mellom mobilbrukere.
  • Datasetet har en unik identifikator per mobilbruker. Det er altså mulig å observere en mobilbruker over tid, men det er ingen navn eller telefonnumre i datasettet som gjør det åpenbart hvem som er hvem.
  • For hver rad er det bruker1, bruker2, tid mellom første og siste interaksjon den dagen, sterkeste blåtannsignal, gjennomsnittlig blåtannsignal, mobiloperativsystem til bruker1, mobiloperativsystem til bruker2.
  • Smittestopp 1 samlet også inn lokasjonsdata, men disse er ikke inkludert i datasettet.
  • Datasettet inkluderer perioden fra 17. april til 4. juni 2020. I Simulas forskningsartikkel kun en mindre periode på 18 dager brukt til å gjennomføre analysene.
  • Dataene ble brukt i forskningsartikkelen «Nationwide rollout reveals efficacy of epidemic control through digital contact tracing» som konkluderte med at appen fant nærkontakter som ellers ikke ville blitt fanget opp.

Kilde: Forskningsartikkel Simula

– De motsier seg selv

Simula har ikke ønsket å la seg intervju om denne saken, og henviser til deres forskningsartikkel for hvilke vurderinger de har gjort. Der kommer det frem at det vil være «vanskelig å se for seg» hvordan man kan re-identifisere enkeltpersoner fra datasettet.

– Som det står i den fagfellevurderte forskningsartikkelen, har Simula innhentet juridiske vurderinger fra Wiersholm og uavhengige faglige vurderinger fra Norsk senter for forskningsdata for å sikre at alt har gått riktig for seg, skriver viseadministrerende direktør Kyrre Lekve i Simula til NRK i en kommentar.

I Echzells artikkel, som Simula har fått lese, argumenteres det for at vurderingene det henvises til ikke har vært en grundig og formell analyse av om datasettet faktisk er anonymt.

I korrespondanse Echzell har fått innsyn i mellom Norsk senter for forskningsdata (NSD) og Simula, beskriver NSD selv sin vurdering som en «generell veiledning i forbindelse med behandling av personopplysninger til forskningsformål». Det fremgår også at Wiersholm i sin vurdering legger til grunn at bruken kun er lovlig dersom dataene kan regnes som tilstrekkelig anonymisert.

UENIG: Simen Sommerfeldt (t.v) og Malgorzata Cyndecka mener det virker som Simula har forske på data som ikke er anonymisert. Foto: Bouvet, Eirik Holmøyvik/UIB

NRK har delt Echzells forskningsartikkel med to eksperter for å høre deres vurdering. Teknologidirektør Simen Sommerfeldt i Bouvet mener det «definitivt» ikke er anonyme data. Sommerfeldt var en av initiativtakerne i teknologimiljøet til et opprop mot Smittestopp 1.

Førsteamanuensis Malgorzata Cyndecka ved UiB mener det «ser ut til» at dataene ikke er anonymisert. Hun mener det blir ekstra tydelig om man leser Simulas egen forskningsartikkel der det fremgår at datasettet kun er tilgjengelig for andre forskere på forespørsel i tillegg til at det er bruksbegrensninger og krav om å signere en konfidensialitetsavtale.

– Det er helt åpenbart at de motsier seg selv. Om dataene er anonyme er det bare å slippe dem løs. Men at de selv er redde for at andre kan sette sammen dette datasettet med annen informasjon og slik re-identifisere folk, tilsier at dette ikke er anonyme data, sier Cyndecka.

Simula kan bruke anonyme data

Det er Folkehelseinstituttet som er den øverste ansvarlige for Smittestopp og hvordan brukernes opplysninger blir behandlet. Simula, som utviklet appen, har en formell avtale med FHI om at de kan forske på anonymiserte data fra Smittestopp 1.

Assisterende direktør Gun Peggy Knudsen i Folkehelseinstituttet mener Simula selv må få svare på hvilke vurderinger de har gjort. Knudsen forteller også at FHI selv valgte å slette alle data fra appen, men at det i stor grad handlet om at de ikke så nytten i å forske på de anonyme dataene de selv hadde fra appen.

– Hva har dere gjort for å sikre at Simula har gjort en tilstrekkelig jobb for å anonymisere dataene?
– Vi har bedt dem om å bekrefte at de er anonyme.

– Og du tenker at det holder?
– Vi har forholdt oss til det og vi har en avtale som lå til grunn for den første Smittestopp-utviklingen. Der var det avtalefestet at de kunne anonymisere og bruke anonyme data. Og når de har informert oss om den bruken så er det innenfor avtalen.

12 kommentarer

  1. Dette var tynne greier. Fullstendig anonymisering er umulig dersom du matcher anonyme data med et alt-seende øye. Hvor realistisk er det?
    Artikkelen baserer seg i noen grad på en hypotese om at dato var tilgjengelig, selv om FHI sier dato ikke var i datasettet. Hver rad er en dato – men hvilken vet vi ikke.
    I artikkelen til Echzell er det to caser: det ene handler om å finne Ernas data i datasettet. Det kan kanskje være mulig – men hva så? Vi vet masse om Erna allerede, derav «caset».
    Det andre, Ola Normann, er også tynne saker der Mr Normann’s «boss» får tak i data om han. How?
    De andre resonnementene om data fra Google etc gir null mening all den tid kun jeg får tak i mine data fra Google. Det finnes ikke noe all-seeing-eye. Unntatt NSA, da. Men det er greit.
    Google selv har null interesse av datasettet – de vet allerede alt om meg. Og Erna.
    Så show me the beef. Dette er ingen trussel mot noens privatliv.

    Svar på denne kommentaren

    • Du trenger ikke nødvendigvis dato for å finne et reisemønster via GPS/lokasjonsdata.

      En gjennomsnittsperson i Norge står opp hjemme, reiser til jobb, reiser tilbake hjem – kanskje via noen «avstikkere» enkelte dager. I helgene vil de fleste ha et annet bevegelsesmønster.

      Med et heat-map på hvilke lokasjoner som gjenntar seg, så ser man fort disse punktene man ofte kommer innom. Videre vil man få et inntrykk av ukedager indirekte. Har man fri i helgene, så blir helgene mye mer tydelige.

      nrk.no/norge/xl/avslort-av-mobilen-1.14911685
      nrkbeta.no/2018/01/31/how-we-found-the-identity-of-military-personnel-using-strava/

    • Erik Itland (svar til Jon Aarbakke)

      Om det som kjem from her er riktig så er det fullt mogeleg og til og med – vil eg påstå – enkelt å gjere det betre enn det som blir antyda her.

      Som ein start:

      – Bøttesortering – erstatt f.eks.eksakte lokasjonsdata med kommune

      – Erstatte eintydige identifikatorar som MAC-adresser etc med UUID-ar som er tilfeldig generert (altså ikkje ein hash) og deretter mappa (så ein kan korrelere ei eining men aldri slå den opp i eit register eller på anna måte mappe den mot ein kjend telefon)

  2. Liten nitpick: «Det finnes ikke noe all-seeing-eye. Unntatt NSA, da. Men det er greit.»

    Det er kanskje realiteten, men det er ikke greit.

    Ellers er jeg enig i at fullstending anonymisering er umulig. Det er derimot grader av anonymisering, og man kan alltids argumentere med at dette ikke var godt nok.

    Svar på denne kommentaren

  3. «Om vi vil ha mer frihet raskere – da er dette veien å gå.»
    – Erna

    «Those who would give up essential Liberty, to purchase a little temporary Safety, deserve neither Liberty nor Safety.»
    – Ben Franklin

    Felles for alle samfunn som gikk over til et totalitært styresett, er at de fleste ikke skjønte hva som skjedde mens det skjedde.

    De fleste skjønte ikke hva slags skritt som ble tatt denne gangen heller.

    Svar på denne kommentaren

  4. Svein Harald Antonsen

    Hva kan vi lære av dette?
    Det finnes adskillig underkompetanse på anonymisering og GDPR selv i miljøer som mange tror skal ha peiling på hva de driver med. Simula er ikke de eneste som nekter å erkjenne at de ikke vet nok, og det er jo synd, fordi uten en erkjennelse av behovet, er det verre å tilegne seg tilstrekkelig kompetanse.

    Svar på denne kommentaren

  5. FHI har lurt folk før som med det ulovlige DNA-registeret, så ingen tvil dette var overvåking for overvåkingens skyld. Måten FHI var helt desperate på å innføre akkurat denne sporingsappen og ikke andre som var tilgjengelige viser det. Det hadde nok vært møte i losjen om at det ikke var lenge til innførelsen av det nye ‘digitale grenseforsvaret’ hvor all internettaktivitet via utlandet ble registrert, og det var derfor FHI insisterte på full logging og lagring av data på servere i Irland.

    Svar på denne kommentaren

  6. Det skremmende for meg er hvor stor andel av de som skrek opp mot Smittestopp det er som går 24/7 med en WiFi / GSM / Bluetooth-sender på kroppen, som fullstendig avslører hvor de måtte befinne seg til enhver tid. De gjør alle sine betalinger med plastkort / NFC / Vipps, og rapporterer en stor del av sitt sosiale liv på såkalt ‘sosiale medier’. Konsumering av musikk / film er via mekanismer som logger all bruk.

    Det Smittestopp ville legge til av datainnsamling var egentlig svært beskjedent, og ble gjort av instanser uten noe erklært formål om å loppe deg for mest mulig penger. Man kan si at vi ikke skal stole på ‘under offentlig kontroll’, men alle de andre som vi pøser ut vårt privatliv til er ikke engang under offentlig kontroll!

    Hvis du gjør alle innkjøp kontant der det er mulig, aldri benytter plastkort for å få rabatter, du har konsekvent GPS, BT og WiFi slått av på mobilen når du ikke selv bruker det, du er ikke aktiv på sosiale media på nettet, og det er ikke noe mentalt / sosialt problem for deg å dra på bytur eller fest med mobilen lagt igjen hjemme, da kan vi begynne å snakke om at Smittestopp sigifikant øker innsamlet informasjon om deg.

    For den alminnelige, moderne nordmann med 24/7-mobil, plastpenger og ‘sosiale’ media, ville Smittestopp vært ganske ubetydelig i den store sammenhengen.

    Likevel skriker folk opp som hylende ulver i kor rundt den, totalt bevisstløse om alt annet av persondata som de helt frivillig legger igjen etter seg andre steder.

    Bevisstløsheten skremmer meg mer enn Smittestopp.

    Svar på denne kommentaren

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.