Paris Hilton kommer du ikke til å lese mye om her på NRKbeta. Æresord. Men hun ble nå intervjuet av Larry King på CNN her om dagen. Time logget alt hun sa, og har lagt ut denne aldeles nydelige grafiske fremstillingen av ordene hun brukte. Klikk deg til Time for å se originalen, og mus over hvert ord for å se hvor ofte hun brukte hvert av ordene.
(I eksemplet her står musen parkert over I’en, som da viser at hun brukte ordet «I» – jeg – 285 ganger)
Tenk om vi hadde et slikt verktøy på alt vi publiserte i NRK. For det første et system som gjorde det mulig å gjøre all tale vi i radio og tv til tekst (Time har nok gjort det manuelt). Og ikke minst et verktøy som ga oss slik statistikk for ordene som ble brukt. Noen som kan lage? Som en start kunne man gjørt RSS-feeden til toppsakene på NRK.no inn i et slikt verktøy. Og se hvilke ord som vinner i tekst vi publiserer der.
Om noen vil gjøre et forsøk som en plugin til WordPress, så tester vi gjerne her på NRKbeta. Hos Time er det forøvrig en Flash-fil som viser denne fremstillingen.
Hmmmm. Veldig interessant. Kann henda um eg vert sitjande oppe i natt og ikkje vil gjera ein av dei andre 10.000 tingi eg vil gjera/burde gjort 😉
Bra plan Odin. Prioriter 9999 andre ting bak dette, og jeg skal spandere lunsj i NRK-kantina! 😉
Hva med… ?
#!/usr/bin/ruby
require ‘rss/1.0’
require ‘rss/2.0’
require ‘pp’
url = «http://www.nrk.no/nyheiter/toppsaker.rss»
rss = RSS::Parser.parse(open(url).read, false)
text = «»
rss.items.each { |i|
text += i.title + » » + i.description + » »
}
words = Hash.new
text.split(/[ .,]/).each { |w|
if words.has_key?(w)
words[w] += 1
else
words[w] = 1
end
}
words.delete(«»)
occurrences = words.sort { |a,b|
b[1] a[1]
}
occurrences[0..9].each { |w|
printf(«%s -> %d\n», w[0], w[1])
}
=>
[gordons:%] ./rss-wordcount.rb
er -> 5
i -> 5
på -> 4
med -> 4
for -> 3
av -> 3
Taliban -> 3
drept -> 3
ut -> 3
det -> 3
Jøss! Hvordan tester jeg dette?
Du trenger et kjøretidsmiljø for Ruby. Det pleier å være tilgjengelig på de fleste installasjoner av linux, ev. kan du laste det ned her: ruby-lang.org/ Usikker på om du trenger å installere rss-biblioteket separat – det fungerte bare hos meg ihvertfall. Forresten er koden kastet sammen en sen natt, så det oser ikke kvalitet og robusthet…
Får nok denne koden i de fleste progammeringsspråk.