Ill - Sadface 650 x 365

Postet til: Forskning

Statistikk for knapper og glansbilder


Fattigmanns-analyse på 1-2-3

håndtegnet diagram

Vi i NRKbeta ønsker oss stadig vekk tall som viser hvor interessert folk er i dette og hint. Men vi har ikke budsjett til å leie firmaer til å gjøre undersøkelser for oss eller kjøpe undersøkelser hele tiden. Og vi ønsker oss helst svaret om ti minutter. Så som oftest jukser vi og bruker Twitter eller Google Insights for Search som kilde istedet. Stadig vekk fungerer det bedre enn ventet. Her deler vi tricksene våre. Og ettersom det blir endel teori underveis, er det en liten analyse-nøtt som dessert i slutten av artikkelen.

Nettskriverier som samfunnstermometer

ordene Awesome, Amazing og Wonderful med en angivelse av hvor ofte de er blitt brukt i det siste.

I Dan Browns bok «Det Tapte Symbol» (kan ikke anbefales), er det en karakter – en metasystemanalytiker, no less – som har funnet opp et dataprogram som lar henne se hvordan folket føler om ditt og datt. Dette skal være et skummelt verktøy i feil hender, og meningen er antagelig at leseren skal tenke Gisp! Er det m-u-l-i-g?.

Dette verktøyet finnes i og for seg i virkeligheten, og har gjort det siden 2006; Jonathan Harris’ We Feel Fine, som vi har nevnt i forbifarten noen ganger tidligere. Det er en vakker konstruksjon, men ikke akkurat Science Fiction: We Feel Fine graver gjennom en rekke ulike blogger hvert tiende minutt på jakt etter frasene «I feel» og «I am feeling». Så finner den starten og slutten på setningen og legger hele setningen i en database. Deretter sjekker systemet om setningen kan matches til en av 5000 forhåndsdefinerte følelser. Systemet forsøker også å trekke ut alder, kjønn og geografi og å legge på en værobservasjon for stedet.

Terrortwitter


NRKbeta gjorde en litt enklere variant da vi gikk gjennom Twittermaterialet fra Utøya for å skrive om Følelsene etter terrorangrepene. Med de tilgjengelige ressursene på det tidspunktet var det mer rasjonelt for oss å gjøre deler av arbeidet manuelt ved hjelp av Excel. Men i prinsippet kunne alt blitt automatisert om vi skulle satt opp en permanent løsning som skulle gjøre en løpende analyse.

En enkel og grei måte å lage en Twitter-basert undersøkelse på, er å samle opp en mengde tweets, knyttet for eksempel til søkeord eller hashtags. Den enkleste (og mest upresise) måten å gjøre det på, er å gjøre et søk, velge alle tweets du får opp og klippe og lime disse over til et regneark, eventuelt via en tekstbehandler for å vaske bort rusk og formatere dataene. Det er begrenset hvor mange tweets du får opp på en forespørsel og hvor mange forespørsler du får gjøre pr time, så selv om du bygger en dings som spør rett til API‘et blir det ikke perfekt. Men av og til blir det godt nok til å få en mengde som er representativ nok – med de begrensninger Twitter gir (litt mer om det senere). En langt mer pålitelig innsamling får du om man bruker en tjeneste som Pro-versjonen av HootSuite eller Hashtracking.com. Dette er tjenester som henter ned tweets systematisk, men det forutsetter at du betaler for det – og at du har skrudd på innsamlingen i tide. Hashtracking har en buffer på rundt halvannet døgn, så er du kjapp på labben så snart noe oppstår, kan de få skrudd på en tracking før tweetsene forsvinner av radaren. Da får du en stor klump data man kan analysere etter hjertens lyst.

Noen ord om representativitet

Twitter brukes av en liten andel av befolkningen – 7-8 % ukentlig her i Norge, og brukerne er ikke er tverrsnitt av befolkningen. Twitterbrukerne er mer, kan vi kalle det eliteaktige enn folk flest: De har en tendens til å ha etellerannet med media, teknologi, politikk, underholdningsbransjen etc å gjøre oftere enn befolkningen som helhet. Det er selvsagt massevis av andre folk på Twitter også, men de er underrepresentert. Det vil si at det ikke er alle ting man kan bruke Twittermateriale til. Men brukt med kløkt og forbehold er Twitter en hendig kilde der man kan få mye mat med enkle midler.

Dataene fra Twitter er – spesielt om man de hentes via API’et – rike. De er tidsstemplet på sekundnivå, har ofte geoposisjon, og inneholder kobling til profilen til den som har sagt det, der man kan hente profilbilde og tidvis bosted. Bruker man enklere metoder, er man ofte prisgitt ting som at søkefrasen også kan bety noe på andre språk og ende opp med mye rusk.

Data fra Facebook

Facebook brukes av langt flere. Og gir derfor i prinsippet et bedre tverrsnitt av befolkningen. Men Facebook legger i en viss grad til rette for at brukerne skal kunne begrense hva som skal synes offentlig, og mange bruker denne muligheten. Det betyr ikke at det ikke finnes masse folk som enten ikke har forstått privacy godt nok, eller som synes det er greit å la alt henge ute. Prosjektet Openbook utnytter dette, og tilbyr søkeverktøy for folks statusoppdateringer. Man får se masse ting man skulle ønske man aldri hadde sett.

Det som er problematisk med å bruke Openbook som datakilde (om vi ser bort fra de åpenbare etiske spørsmålene ved å bruke materiale fra folk som virker som de ikke har forstått privacy-innstillingene), er at utvalget her er et slags motsatt Twitter. Folk som ikke bruker privacy-innstillinger er også en egen gruppe.

Hvordan analysere

ordsky med ord i ulike størrelser utifra betydning. yr.no størst, andre ord som melder, snø, været osv i ulike størrelser

Det finnes gode nettbaserte verktøy for å gjøre ulike analyser, NRKbeta er glad i verktøyene på Many Eyes fra IBM Research / Cognos, der er det mange tekstanalyseverktøy, som for eksempel kan brukes for å kjapt se hvordan ulike ord brukes i sammenhenger. For superkjapp oversiktsanalyse er også Wordle stadig vekk bra nok i mange tilfeller.

Hvis man har litt Excel-erfaring er det heller ikke vanskelig å lage en formel som teller antall tweets som inneholder en tekststreng pr time, og dermed kunne lage oversikter over endringer. Her er et eksempel fra Utøya-analysen:

graf som viser forholdet mellom hjerter, glade og triste smileys på en tidslinje

Hva søker folk etter

En mer indirekte måte er å ta utgangspunkt i folks søkefraser. Google gir oss ikke like finkornede data som Twitter. Til gjengjeld får vi et vesentlig mer representativt utvalg, og vi får en noe mer pålitelig nasjonal inndeling enn vi får ved å prøve å bruke språk til å avgrense, som man ofte må gjøre med materiale fra Twitter.

Google gir gjennom tjenesten Google Insights for Search tilgang til mye av søkestatistikken sin. Det er forbausende mye det kan brukes til om man prøver seg frem litt. Og presisjonen er slett ikke så verst.

Det man får tilgang til, er muligheten for å søke etter opptil fem søkefraser eller enkeltord, mulighet for avgrensning til en enkeltnasjon, og mulighet for å velge tidsperiode. Verktøyet er lynraskt (i forhold til våre statistikksystemer, ihvertfall), gir en kjapp graf, mulighet for eksport av råtallene, og man kan velge å få plottet inn viktige nyhetstreff i grafene for å se mulige forklaringer på endringer. Er datamaterialet fyldig nok, får man også en forecast for videreutvikling.

Hvor langt kan man fortolke hva folk søker etter?

Det kommer litt an på hva man ser etter. Men i mange situasjoner kan man utlede en god del ting. Her har vi en serie eksempler:

Interesse for et enkeltfenomen

La oss begynne med å se på søk som inneholder ordet «generell» – et forhåpentligvis generelt søk:

Graf for bruk av søkefrasen "generell". Relativt lite utvikling over tid.

Det ble litt vanskelig å lage eksemplene i denne artikkelen, så jeg ber dere bære over med at skjermskuddene nedover i saken ikke har visning av datapunktene ved mouse-over, og at det dessverre bare er streker annenhvert år. Det gjør diagrammet litt tunglest. Du kan høyreklikke på disse grafene for å åpne dem i Google Insights for Search og se en bedre versjon.

Men altså, hva ser vi? Vi får en kurve som ikke utviker seg signifikant opp eller ned, men som viser at folk er mindre opptatt av å søke på det generelle i måneder med mange fridager, som desember, juli og påskemåneden. At vi får dette resultatet overrasker antagelig ingen.

Hurtiggrafene man får opp på nettsiden viser lengre perioder kun som månedstall, men ved eksport får man uketall istedet. For kortere perioder får man dagtall. Eksport av tallene gir større mulighet for å lage oppsett som passer det man vil vise.

Sammenlikning av to ulike fenomen

La oss så legge inn et ord som også var generelt (og relativt ubrukt i søk) inntil det ble en merkevare; yr.

Graf for bruk av søkefrasene "generell" og "yr". Generell er stabil, yr vokser fra ingenting til mye.

Når vi legger opp en kurve for yr, ser vi at i det øyeblikk det oppsto en værtjeneste som brukte et tobokstavers ord for lett nedbør (som tidligere kanskje var mest brukt av kryssordløsere), øker søkingen etter ordet kraftig. yr.no ble lansert i det stille sommeren 2007, og søkeveksten korresponderer greit med tjenestens vekst. Slik fikk et tidligere ubetydelig ord plutselig størrelse. Ordet Generell ble på sin side redusert til et litt ruglete gulvteppe i sammenlikning.

Vi ser at søkevolumet for yr varierer rytmisk gjennom året, med en klar hovedtopp sommertid, og en mindre topp i starten av vintersesongen.

Tendensanalyse

Legger vi inn søkeordet været istedet, kan vi se i hvilken grad søk etter yr samsvarer med søk etter været:

Graf for bruk av søkefrasene "været" og "yr". Været har en jevn årstidsvariasjon, yr vokser fra ingenting til mye, får samme årstidsvariasjon og været daler.

Vi ser den samme årsrytmikken i søk etter været som i søk etter yr, men vi ser også at folk etterhvert blir mindre interessert i å søke etter været når de kan søke etter yr – de lærer seg rett og slett over tid at yr gir et raskere eller bedre søketreff enn været. Dette kan vi både se gjennom at været-søkingen avtar når yr dukker opp, og gjennom at de rytmiske sommertoppene i været-grafen, som var spisse i starten, over tid eroderer vekk. Imidlertid er det merkelig at folk søker etter yr slik år etter år. De vet jo tydeligvis at det er det tjenesten heter. Det må da være like enkelt å skrive yr.no og komme rett frem som å søke etter yr og måtte klikke seg via Google?

Søk etter nettadresser

Etter å ha sett endel brukertester, vet vi at det finnes nettbrukere som har Google som startside og bare skriver inn nettadresser rett i Google-søkefeltet i stedet for å bruke adresselinjen. Hvor mange er det egentlig som søker etter yr.no? Forbausende mange:

Graf for bruk av søkefrasene "været", "yr.no" og "yr". Været har en jevn årstidsvariasjon, yr og yr.no vokser fra ingenting til mye, får samme årstidsvariasjon og været daler. yr.no passerer yr

Vi ser at søk etter yr.no i vel så stor grad som yr har tatt over været-stafettpinnen. Når vi også tenker på at yr og yr.no kan slås sammen, ser vi at totalinteressen for værvarsling på internett har økt i Norge (vi har sjekket endel andre uttrykk også, og trenden er generell).

Men kanskje like interessant, og vel så nyttig, er det at folk fortsetter å søke etter yr.no: En anseelig mengde nettbrukere navigerer over lang tid til en svært lettskrevet og hyppig brukt nettadresse ved å google den. Når dette ser såpass konsistent ut over tid, og har klare fellestrekk med brukerutviklingen på yr.no, kan vi anta at det også kan brukes til å antyde bruk av nettsteder.

Hvor pålitelige er tallene?

Google gir ikke ut konkrete tall, bare tall som viser forholdet mellom ulike søkeord, regioner eller tidsperioder. Derfor er det ikke så godt å vite hvor store tallene er og sammenlikne dem med kjente tall.

Men vi bestemte oss for å teste hypotesen om at tallene var pålitelige nok ved å sammenlikne søketall med brukstall. Og yr.no er sannsynligvis et godt case for testing. Vi tenkte en sammenlikning mellom brukertallene for yr.no og søk etter yr.no, begge regionsavgrenset til Norge, ville gi en god indikator av flere årsaker: Årsak én, at yr.nos historie er så kort at vi kan følge hele forløpet. Årsak to at yr.no er så stort, kjent og mye brukt at vi vet at vi er langt over støygulvet. Og selvsagt årsak tre, at vi har tilgang til brukertallene.

Kvalitetstesten

Dersom vi legger søk etter yr.no og ukentlige unike brukere for yr.no oppå hverandre, får vi disse grafene:

kurver for hhv faktiske brukertall på yr.no og søk etter "yr.no". De to følger hverandre relativt tett.

De er slett ikke makne. Men de har mange fellestrekk.

Korrelasjon er et mål på hvor mye ting samvarierer og oppgis som et tall fra -1 til 1. Ser vi på tallseriene, får vi en på 0,92. Det er høyt.

Den viktigste ulikheten jeg ser, er at sesongsvingningen for søk er større enn sesongsvingningen for faktisk bruk. Jeg vil anta at dette skyldes at leilighetsvise brukere av yr.no er mer tilbøyelige til å skrive inn nettadressen, mens grunnfjellet av brukere, de som er innom hver dag uansett, i høyere grad har bokmerker, og dermed aldri skriver nettadressen. En mulig feilkilde er også at Google Insights for Search begynner ukene sine søndag, mens de norske statistikkverktøyene starter uken mandag. Dermed vil f.eks. ekstremvær-søndager havne i feil uke.

Why?

Hvorfor lager Google et så fint statistikkverktøy? Vel. Google både er blant verdens mer lønnsomme selskap. Men de tar ikke ett øre av oss for å drive mailsystemet vårt, adresseboken vår, bildelageret vårt, videoklippdelingstjenesten vår, og – kanskje først og fremst – internettinngangsporten vår. Som det heter i den gamle devisen; «Om noe er gratis, er det DU som er produktet». Pengene sine tjener de på å selge tilpassede annonser, blant annet søkeord. Og deres konkurransefortrinn (bortsett fra at de eier mediet), er at de vet utrolig mye om oss – både som menneskehet og som enkeltindivider – det gjør at de kan ta i størrelsesorden ti kroner pr klikk for verdifulle søkeord på første side. Og de regulerer prisene forløpende etter tilbud og etterspørsel. Det krever gode statistikksystemer. Og de har vært så hyggelige å dele endel av det med oss. Men de vil ikke dele alt for mye, tydeligvis, så vi får bare relative tall. Dersom vi vil vite om noe er stort eller lite, må vi ha en kjent størrelse å sammenlikne det med. Derfor pleier vi ofte å bruke kjente størrelser som yr.no, facebook e.l. for å sette ting i perspektiv.

Analysenøtten

Nå har dere vært flinke og slitt dere gjennom masse teori. I starten lovet vi dere en nøtt til dessert. Den er her, og lar dere bruke endel av det dere nettopp har lært. Se på dette søket, og fortell hva dere tror dere ser: Analysenøtt

15 kommentarer

  1. Hmm, kor nøyaktige og vitskaplege korrelasjonstal de treng er vel avhengig av kva de skal bruka tala til. Om de berre lurer på generell interesse for eit fenomen, så er enkel ordtelling i Twitter nok. Om de er interessert i om folk har positiv eller negativ haldning til noko, derimot, så blir det litt meir komplisert.

    Vanlegvis er metoden å først manuelt klassifisera ein del «dokument» som positive eller negative, så trena ein klassifikator (stor tabell) som for kvart ord finn kor sannsynleg det er at det finst i positive vs negative dokument, og så bruka den til å klassifisera nye dokument.

    Twitter gir eit ekstra hinder då; på 140 teikn får du svært lite redundans, noko som gjer ironi og sarkasme svært vanskeleg å oppdaga (som blir endå verre viss det er sant at norske Twitter-brukarar har typiske «elitejobbar»). Det går jo an å prøva seg på dyp grammatisk analyse først, men med tanke på kor «unormert» Twitter-språket er, så blir det nok lite igjen for arbeidet.

    Ofte er det likevel mogleg å få eit «godt nok» resultat om me ser på tusenvis av meldingar og berre samanliknar to skårar innanfor same datasett, altså: du kan kanskje sjå om folk er meir positive til brødristarar enn foodprosessorar, men ikkje om dei generelt er positive eller negative til brødristarar.

    Det finst ein demo av sentimentanalyse for filmomtaler som bruker NLTK, (Python-bibliotek, om metoden her), det går òg an å bruka NLTK til Twitter.

    (For vidarekomne: R-biblioteket textir.)

    Svar på denne kommentaren

    • For å fylle på litt: Systemet som Anders pratar om heiter Sentimental, og nytta seg av ei Naive Bayes-klassifisering (basert på NLTKs), men for å trene den på noko så friform som «Twitter-språk» treng du ei stor og strukturert mengde tekst (corpus) – langt fleire enn dei 5-10.000 manuelt klassifiserte Twitter-meldingane vi køyrde det mot.

      Men maskinanalyse av språk er absolutt eit kjempespennande emne som vi ofte er innom!

      Svar på denne kommentaren

  2. Også trenger folk kaffetrakter i august for å takle ny oppstart på jobb etter sommerferien…

    Glimrende gjennomgang av enkle analyseteknikker, tusen takk! Har dere forresten sett alle verktøyene Digital Methods Initiative lager i Amsterdam? Mye samme tankegangen om å analysere data som likevel er på nett – men mer forskningsrettet/studentrettet. Likevel er det nok en god del der som kan være interessant også for journalister, bloggere og den som er særlig interessert i noe spesifikt.

    Svar på denne kommentaren

  3. Flott gjennomgang også for oss som jobber med analyse og visualisering til daglig.

    Blant de gode verktøyene som finnes der ute vil jeg tipse om Tableau Public – et analyseverktøy som er kraftigere enn Excel og som lar deg integrere analysene dine i blogger og andre nettsider.

    Tableau Public kan brukes på åpne datasett og brukes i dag av Washington Post, The Guardian og Wall Street Journal for å nevne noen.

    Svar på denne kommentaren

  4. Takk for mange gode innspill på flere alternative analysetricks.

    Så til dette med nøtten. Flere av dere, John var først, har touchet svaret allerede (eller ihvertfall hva vi så):

    Elektriske dingser har en tendens til å ha ekstra mange desember-googles, og det er nærliggende å tenke julegaver. Raclette var en julegave folk tenkte på å gi bort i 2007, ser det ut til. I 2008 er det også en desembertopp, men januartoppen er høyere: Hvaiallverden er det vi har fått og hvordan brukes den, muligens. 2009-julen – Kaffetrakterens År, so to speak – følges av en enorm januar-undring over denne racletten.

    Skal vi bevege oss ut i spekulasjonene, kan vi si at racletten begynner å stige tidligere enn de andre i 2009, mens kaffetrakteren går bråere opp. Så kanskje kaffetrakter er mer av en siste liten-gave, mens raclettegiverne funderer lengre på gaven (for alt vi vet kan det jo være dem som fikk raclette i 2007, og som synes det er dritpraktisk som vil misjonere for smeltet ost). Julen 2010 ser ut som den er preget av generell downturn blant husholdningselektro. Januar-racletten vender like fullt tilbake. Og så, julen 2011 er racletten der på kaffetrakternivå. Er den iferd med å bli mainstream og googles før 25. desember?

    Vi får zoome inn på romjulsview og se…

    Når det gjelder rusket frem til 2006 tror jeg det kan skyldes en blanding av lavt søkevolum og dårlig regionkoding (gjetning).

    Svar på denne kommentaren

  5. Husker en interessant artikkel for noen år siden, der man studerte utbredelsen og spresdningshastigheten av influensa i USA. Forskere testet flere målingsmetoder, men fant at Googlesøk på influensarelaterte ord varierte svært presist i tid og rom med spredning av sykdommen. Dette var en bedre indikasjon enn legebesøk, da mange ikke gikk til lege (ønsket ikke å betale for det, visst hva det var og kjøpte medisin selv etc. etc.).

    Fark

    Svar på denne kommentaren

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Du kan bruke disse HTML-kodene og -egenskapene: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>