nrk.no

Big data: Hva Facebook vet om deg, din kjæreste, din kjærestes ekskjæreste og din ekskjærestes nye kjæreste.

Kategori: Det sosiale nettet


At Facebook vet mye om meg, deg, og livene våre kan kanskje virke skremmende for de fleste av oss.

Facebooks både muligheter og vilje til å samle informasjon om brukerne er beviselig høy. I forbindelse med Valentine’s Day har teamet bak «Facebook Data Science» sluppet en serie med blogg-poster hvor de ser på ulike kjærlighetrelasjoner blant Facebooks brukere.

Happy Valentine's Day Foto: Flickr / cuyahogajco (CC)
Happy Valentine’s Day Foto: Flickr / cuyahogajco (CC)

Big data er kanskje et av de mest omtalte begrepene i IT-verden de siste årene, og selv om begrepet er svært vidt og kan favne om mange ulike aspekter ved hva vi foretar oss i 2014, er dette prosjektet fra Facebook midt i smørøyet.

Facebook hadde i desember 2013 hele 1,23 milliarder månedlige aktive brukere, og en stor andel av disse har fylt ut alder, bosted, sivilstatus og religion. Kombinerer du disse dataene med tidspunktene for når folk endret på sin sivilstatus, hvilke ord de bruker i statusoppdateringene sine til hvilke tid og hvor de gjøre dette, sitter man på en relativt festlig samling data.

Og det er akkurat denne dataen Facebook har brukt for å vise fram hvem brukerne faktisk er, hva kjærlighet angår.

Hvordan et forhold dannes.

Det første, og kanskje mest interessante undersøkelsen, går på hvordan personer oppfører seg på Facebook i det et forhold dannes. Facebook har gått til verket og undersøkt hvordan og hva brukerne har postet som statusoppdateringer før og etter at de skiftet sivilstatus på Facebook.

Relationships start with a period of courtship: on Facebook, messages are exchanged, profiles are visited, posts are shared on each other’s timelines. The following graph shows the average number of timeline posts exchanged between two people who are about to become a couple. We studied the group of people who changed their status from «Single» to «In a relationship» and also stated an anniversary date as the start of their relationship. During the 100 days before the relationship starts, we observe a slow but steady increase in the number of timeline posts shared between the future couple. When the relationship starts («day 0»), posts begin to decrease. We observe a peak of 1.67 posts per day 12 days before the relationship begins, and a lowest point of 1.53 posts per day 85 days into the relationship. Presumably, couples decide to spend more time together, courtship is off, and online interactions give way to more interactions in the physical world.

1780919_10152219518868415_432315498_n

Ser vi på hva som skjer når at to personer inngår et forhold, og analyserer innholdet i de ulike statusoppdateringene, basert på «glade» og «triste» ord, ser vi også en spennende kurve.

Her er Facebooks egen forklaring på hvordan de gjorde undersøkelsen:

However, don’t be discouraged by the decrease in online interactions, as the content of the interactions gets sweeter and more positive. We used statistical methods to automatically analyze a set of aggregated, anonymized timeline interactions. For each timeline interaction, we counted the proportion of words expressing positive emotions (like «love», «nice», «happy», etc.) minus the proportion of words expressing negative ones (like «hate», «hurt», «bad», etc.). The following graph shows the proportion of positive over negative feelings being expressed in timeline posts before and after the beginning of a relationship. We observe a general increase after the relationship’s «day 0», with a dramatic increase in days 0 and 1!

Resultatet ble denne grafen:

1898250_10152219519288415_127545461_n

Les hele artikkelen om hvordan forhold dannes på Facebook Data Science

Religion og forhold

Facebooks Data-team kikket også på «Kjærlighet og religion». Nærmere bestemt er dette altså forholdet mellom hvor mange i Facebook-universet som oppgir at de er «I et forhold med» eller «Gift med» en som oppgir å ha samme religion.

Parameteren «Expected same-religion relationship» er altså forhold blant innbyggerne i land vilkårlig fordelt etter landets ulike religioner.

expected-same-religion-relationship

Parameteret expected same-religion relationships plasserer landene etter sannsynligheten for at folk med samme religion skal være i et forhold. Om de fleste av landets innbyggere har samme religion, er sjansen for «samme religion-forhold» høy. Da vil landet ligge nærmere 1 på X-aksen, er landet derimot svært religiøst sammensatt, ligger det lavt på X-aksen.

Y-aksen, actual same-religion relationships, viser hvordan det faktisk er. Ligger et land lavt på Y-aksen, er det færre som er i forhold med en med samme religion, og forholdene er mer religionsblandede. Er landet høyt på Y-aksen, velger flere å ha forhold
til en med samme religion.

Eksempelet med Storbritannia viser hvordan et religiøst sammensatt land likevel er ganske homogent med tanke på religion og forhold:

Among the countries in this chart, the United Kingdom has the lowest rate of expected same-religion relationships, and the second-lowest rate of actual same-religion relationships. In this sample, the UK is plurality Protestant (40%), with Catholics (17%), Atheists (15%), and Muslims (11%) the most significant minority groups. This mix would be expected to produce only 21% same-religion relationships, but the actual rate is 73%. Even a melting pot of religions such as the UK still sees a large homophily effect in relationships.

Les hele artikkelen om forhold og religion på Facebook Data Science

Alder og forhold

Datateamet til Facebook har også sett på forholdet mellom alder og forhold. I hvilke land er det vanlig å være sammen med jevnaldrende, og i hvilke land er aldersforskjellen størst?

1795492_10152213203373415_1126108032_n

Y-aksen i grafen representerer tallene fra Facebook, altså den gjennomsnittlige aldersforskjellen mellom mann og kvinne, mens Y-aksen forteller hvor landet ligger på den såkalte Global Gender Gap Index 2013, en index fra World Economic Forum som forteller hvor likestilte kjønnene er i et land, hvor 1 er mest likestilt og 0 er minst likestilt.

Den sorte gjennomsnittslinjen viser at land med lavere grad av likestilling mellom kjønnene også har en tendens til å ha større aldersforskjell mellom partnerne. De minst likestilte landene i grafen, Egypt og Tyrkia, har gjennomsnittlig aldersforskjell mellom partnerne på henholdsvis 5 og 3,5 år. De mest likestilte landene, Norge og Finland, har gjennomsnittlig aldersforskjell på 2-2,5 år

Les hele artikkelen om alder og forhold på Facebook Data Science

Når tar forholdet ditt slutt?

Også på dette spørsmålet ser Facebook Data Science-team ut til å ha et slags svar. Selv om vi kanskje synes resultatet her er noe mer opplagt, er det interessant å lese om hvordan teamet jobber med dataene.

With every month that passes, more and more shaky relationships end, leaving an ever-larger proportion of solid relationships around. This is exactly what we see in our data. We measured relationship starts and ends using changes in relationship statuses from «Single» to «In a Relationship with» and vice-versa. In Figure 1 we plot the monthly probability of a romantic relationship ending [1] on Facebook, as a function of the relationship’s current duration, for all US users who have started relationships between January 2008 and December 2011. We only look into relationships that lasted at least 3 months on Facebook, and only consider only relationships where both individuals were at least 23 when they began the relationship, and only relationships in which individuals did not list their first relationship status as «married» (to try and capture something closer to true relationship starts, rather than the recording of long-existing marriages).

61357_10152215122813415_1172363543_n

Les hele artikkelen om tid og forhold på Facebook Data Science

Hvor er det enklest å få napp?

Strengt tatt sier vel ikke Facebooks data noe om hvor enkelt det er å «få napp», men hvor mange jenter det finnes per gutt, og motsatt, gir jo en slags indikasjon på hvor enkelt det er å møte noen av det motsatte kjønn.

Bor du i USA har du som singel gutt størst sjanse til å møte single jenter i henholdsvis:

1. Memphis, TN
2. Jacksonville, FL
3. Fort Worth, TX
4. Charlotte, NC
5. Richmond, VA

Mens hvis du er singel jente vil ha størst sjans i:

1. San Francisco, CA
2. San Jose, CA
3. Seattle, WA
4. Salt Lake City, UT
5. San Diego, CA

Like interessant er kanskje grafen som viser forholdet mellom byer i USA hvor folk er single, satt opp mot byer med høyest forholds-dannelse:

1907588_10152217025193415_762234433_n

Les hele artikkelen om hvor Facebook mener det er lettest å finne en partner på Facebook Data Science

Når et forhold tar slutt.

I den siste undersøkelsen rundt forhold tar Facebook en titt på hva som skjer med en persons aktivitet på det sosiale nettstedet før, under og etter at personens sivilstatus endrer seg.

Kort oppsummert beskriver grafen under en normalaktivitet på tallet 1 på Y-aksen, mens dager før og etter bruddet er representert på X-aksen. Vi ser at antallet interaksjoner – som meldinger sendt og mottatt, poster fra andre på tidslinjen og antall kommentarer på innlegg – spretter til værs på brudd-dagen. I løpet av en ukes tid stabiliserer aktiviteten seg, men på et høyere nivå enn før bruddet.

1926813_10152221774403415_278208382_n

Les hele artikkelen om hvordan forhold tar slutt på Facebook Data Science

Sikkerheten rundt dine store data

Spørsmålet mange stiller seg når det blir snakk om undersøkelser av dette kaliberet, med en datamengde som er av den størrelse, og ikke minst sensitivitet, som den Facebook her sysler med, er selvsagt om personvernet er ivaretatt.

image

I følge Facebook er det det. Dataene er anonyme, og de deler de ikke med noen. Selv ikke rådataene.

image

Sett med Big Data-øyne er slike undersøkelser svært spennende og ikke minst meget opplysende om hvilke muligheter som faktisk bor i Facebooks enorme database.

3 kommentarer

  1. Det klør i fingrene for meg som arbeider med data og anaylse etter å få fingrene i dataen som Facebook sitter på. Man kan sikkert finne mye spennende informasjon der om man ikke går seg vill. Samtidig er jeg vel egentlig glad for at de ikke legger alt ut på nettet for alle å leke med, og kun bruker det internt.

    Svar på denne kommentaren

  2. Interessant artikkel og mange detaljer her om hvordan man kan bruke data fra sosiale medier.

    Veldig spennende å se for seg mulighetene til å bruke store data til samfunnsnytte: hvordan forutse økonomiske kriser, epidemier, tilgang på mat, osv.

    UN Global Pulse har forsøkt å gjøre en jobb med å utvikle algoritmer for kobling mellom sosiale medier, store data, og estimere global utvikling. Det er et par år siden jeg skrev denne saken:
    http://terjekarlsen.wordpress.com/2012/04/19/global-dataknusing/

    Svar på denne kommentaren

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.