Mikrodata byrjer å bli interessant

HTML er det underliggande språket på nettet. Folk flest har ikkje eit reelt forhold til dette, men det dannar strukturen for meir eller mindre alle sider du i løpet av ein dag besøkjer. NRKbeta.no, for eksempel, er komponert av mange forskjellige HTML-dokument.

One World – One Web by psd, on Flickr

Med HTML kan du definere innhaldstyper. Dette er for eksempel eit avsnitt, som vi definerer via P-elementet. Du har mange andre element, som f.eks. H1-H6, som definerer ulike grader av overskrifter.

Semantikk

Under utviklinga av nyare versjoner av HTML er semantikk eit begrep som ofte blir brukt. Semantikk, i denne samanheng, tyder relasjonane mellom, og definisjonane på noko. At ei oppmarkering er semantisk korrekt tyder å bruke riktig element i riktig samanheng. Dei ulike elementa har ulike semantiske tydingar. P-elementet skal brukast til å markere eit avsnitt eller ein paragraf. Eit anna eksempel er ADDRESS-elementet, som ein skal bruke for å markere opp adresseinformasjon. Du har óg element som ABBR (abbreviation), som er til for å markere forkortingar og akronym. Og fleire liknande eksempel. Det HTML i utgangspunktet ikkje tilbyr, er ein måte å spesifisere kontekstgrupper på: Samlinger av semantisk representerbar informasjon.

Microformats

I 2005 byrja arbeidet med Microformats. Dette initiativet vart starta av profilerte personar i nettverda, mellom anna Tantek Çelik, Dan Cederholm og Ben Ward. Føremålet med Microformats var å komme fram til ein felles standard for å spesifisere informasjonsgruppering. NRKbeta.no brukar for eksempel hAtom-spesifikasjonen på kvart blogg-innlegg. Du har andre grupperingar, som f.eks. hCard (visittkort), hCalendar og hReview.

Når Microformats starta opp, var tankjen at denne innholdsspesifiseringa skulle gjere det enklare for både nettlesarar og søkjemotorar å bearbeide innhald meir semantisk korrekt. Dette tok dessverre aldri av. Det dukka opp eit par Firefox-extensions som automatisk fann visittkort, kalenderobjekt og liknande, men Google og dei andre kasta seg ikkje på bølgja på samme måte som ein i utgangspunktet trudde.

Microformats i den opprinnelege forma tok aldri av på same måte som ein håpte. Men i samband med arbeidet rundt HTML5 har det no vorte teke opp igjen.

Strukturert og ustrukturert data

Sjølv om HTML kanskje kan sjå strukturert ut, er det lite egna som datautvekslingsformat. Eit HTML-dokument er sjeldent strukturert kun med tanke på informasjonen. Vi brukar óg HTML til å spesifisere rammene rundt det visuelle (som i etterkant er definert i CSS). Difor følgjer det mykje meta rundt informasjonen vi formidler i eit HTML-dokument.

For å bruke Googlebot (Googles program som indekserer nettet) som eit eksempel: Googlebot klarer ikkje å forstå prosa på samme måte som vi gjer. Det forstår heller ikkje hundrevis av forskjellige språk.
Googlebot klarer ikkje utan vidare å fastslå at både teksten «Marius Arnesen» i overskrifta, biletet og teksten under handlar om samme person på Om NRKbeta-sida vår.

Det Googlebot gjer er å køyre gjennom HTML-dokumenta og, ut i frå relativt avanserte algoritmer, prøve å forstå både innhald og kontekst. Og dermed hente ut relevant informasjon for søkjeresultata. Googlebot forvandlar på sett og vis prosa til strukturert data, så langt det er mogleg. Mikrodata gjer at søkjemotorane kan kutte ned på tippinga.

HTML5 Microdata

HTML5 har ein seksjon som heiter HTML5 Microdata, som på sett og vis er ei vidareføring av det tidlegare arbeidet hjå Microformats.org.
HTML5 innfører fleire nye attributtar som gjer det mogleg å spesifisere innhald og kontekst på ein langt meir inngåande måte enn det som var mogleg i HTML 4 og XHTML 1.0.

Eksempel

Kodeeksempelet ovanfor gjer det mogleg for databehandlingssystem å hente ut strukturert data frå ein elles menneskelesbar tekst. Koden ovanfor gjev søkjemotorar og andre program moglegheita til å finne ut at:

Det handlar om ein person
Personnamnet er Henrik Lied
Henrik Lied er ein utviklar hjå NRK
Henrik Lied bur i Blindernveien 4, 0361 Oslo, Norge
Henrik Lied har ein eigen nettstad

Dette kodeeksempelet markerar opp ein anmeldelse. Søkjemotorar og andre program kan med dette finne ut at:

Det handlar om ein anmeldelse
Anmeldelsen er av Deal Extreme
Henrik Lied er forfattaren av anmeldelsen
Henrik Lied skreiv anmeldelsen på datoen 2010-10-06 (ISO 8601-format)
Anmeldelsen har både eit samandrag og ein full beskrivelse
Anmeldelsen har karakteren 4.5
Maksverdi på karakter er 5 (spesifisert i META-elementet)

Nytteverdien

Den potensielle nytteverdien av dette ganske omfattande. Indeksering av persondata vert no langt enklare. Der ein tradisjonell søkemotor tidlegare har måtte gjetta seg fram til innhald og innhaldstype, kan ein no servere dette i eit lettfatteleg og strukturert format. Ved søk etter Navn Navnesen på Google, kan ein framover få gruppert og visualisert innhald på ein heilt annan måte. Bildet nedanfor viser korleis den tidlegare oppmarkerte anmeldelsen kan bli sjåande ut på Google.

Og dette bildet illustrerer korleis personoppmerkinga kan bli visualisert:

Moglegheitene framover kan bli mange. Ein kan for eksempel sjå for seg det dukkar opp langt fleire personsøkjemotorar, kor innhald om deg lett kan grupperast.

Oppsummering

Mikrodata har potensiale til å gjere det lettare for folk å finne strukturert informasjon. Adopsjonsraten på HTML5 Microdata er førebels ganske lav, men Microformats.org kan meddele at det er over 2 milliard sider med hCard-oppmerking på nettet i dag. Som er ganske imponerande. Likevel ser det ut til at både W3C og Google legg vekta si bak HTML5 Microdata framover.

18 kommentarer

Gunnar Andreassen

18. oktober 2010 at 11:50

Interessant post, tar nok en tid før dette evt. blir implementert av publiseringsverktøy.

Svar på denne kommentaren

Henrik Arnestad Salthe

18. oktober 2010 at 12:31

I praksis vil dette bety at den som skriver teksten må markere hva alt i teksten er? Dette vil jo være et kjempestort arbeid i, la oss si, nyhetsartikler?

Svar på denne kommentaren

Kevin Brubeck Unhammer (svar til Henrik Arnestad Salthe)
18. oktober 2010 at 15:40

Du har sannsynlegvis lagt merke til autorettinga som skjer i Microsoft Word eller OpenOffice.org Writer, som t.d. automatisk kan gjere «–» om til ein ekte tankestrek, samtidig som det dukkar opp ein liten boble ein stad som seier «autorettinga gjorde om — til tankestrek; klikk her om dette var feil» (eller noko slikt).

Tenk no at programmet i staden kjenner igjen visse «innhaldsrike» frasar eller liknande. Når du skriv «Kløvervegen 4» så kjem det ei boble som seier «autooppmerkinga har merka dette som ei adresse; klikk her om det var feil».

Det er verktøya som skal gjere slike jobbar for brukaren, ikkje omvendt. Det blir vel ein stund til verktøya er gode nok til slikt då…
Kevin Brubeck Unhammer (svar til Kevin Brubeck Unhammer)
18. oktober 2010 at 15:41

Eh… autorettinga til NRKBeta gjorde visst om dei to strekane mine -- til ekte tankestrek =P

Kjartan Müller

18. oktober 2010 at 12:46

Det er også en tredje variant, rdfa (w3.org/TR/xhtml-rdfa-primer/).

Arbeidet med å legge inn slik data trenger ikke å være avskrekkende. Mye kan løses via automatisering av publiseringsverktøyene. Og det trenger heller ikke ta mye tid, siden mye av det igjen kan håndteres av visningsmalene.

Svar på denne kommentaren

Harald Groven

18. oktober 2010 at 13:27

Helt siden før veven fikk sitt gjennombrudd, har utvikling og standardiseringsforslag vært en evig krangel mellom «semantikere» og «praktikere».

Semantikerne, som gjerne har vært informatikere, kunstig intelligensforskere bibliotekarer mfl, har ønsket av egentlig burde være en svær database der hvert elements mening er eksplisitt kodet slik at en med deduktiv logikk kan hente ut og analysere store datasett.

Praktikerne (eller hva de burde blitt kalt) er gjerne vevredaktører, designere, skribenter som skriver på nettet, ser ikke noen umiddelbar gevinst av å måtte lenke og tagge alt innholdet i på forhånd definerte vokabular for at noen «semantikere» skal kunne leke seg med forskningen sin eller utvikle applikasjoner når mange datakilder er gjort semantiske. Nettsidene blir ikke noe umiddelbart mer populære eller besøkt av å benytte såkalte semantiske teknologier. Semantikken har kun ført til ekstraarbeid og gevinster for andre.

SGML, XML, emnekart, RDF, SPARQL er alle semantikeres forsøk på å gjøre om nettet til en søkbar database, men likevel er det meste av innhold på nettet presentert som HTML4 med minimalt med semantikk. Semantikerne har akket seg og lansert en rekke standarder som tok for gitt at «hvis bare alle vevutviklere benyttet teknologi X, vil alt bli så mye bedre».

Internettforskeren Clay Shirky har kritisert troen på at alt vil bli så mye bedre om vevinnhold var semantifisert:
The Semantic Web, Syllogism, and Worldview

Google-grunnleggerne har visstnok bannlyst ordet «semantisk vev» fra Googleplex, siden de mener det er å sette mennesker til å gjøre datamaskiners jobb. De har heller hatt tro på at en med statistisk analyse av tekst og klikkfrekevens kan utlede dokumentenes implisitte semantikk. Likevel har de måttet fire på sitt syn, ved at de i sommer kjøpte opp et selskap som semantifiserer vevinnhold fra flere kilder, Freebase.

Fordelen med mikroformater er at «praktikerne» kan fortsette å jobbe som før med å publisere innhold i HTML, men innholdet kan progressivt semantifiseres etterhvert som det utvikles nyttige vevapplikasjoner som gir nettsteder gevinst av å innkapsle mikroformater. Det krever ikke at nettsidene må bygges på nytt i en ny teknologi.

Svar på denne kommentaren

a-jay (svar til Harald Groven)
18. oktober 2010 at 22:26

Jeg takker, bukker og skraper for innlegget ditt! Utrolig innsiktsfullt og lærerikt.
Jens Christian (svar til a-jay)
19. oktober 2010 at 10:50

+1
Harald Groven (svar til a-jay)
19. oktober 2010 at 11:05

takk:)

for spesielt interesserte i problemstillingen: Skal data lagres i semantiske formater i utgangspunktet, eller bør en semantifisere vanlige nettsider? Hvis sistnevnte: Hvem bør gjøre det hvis de som lager sidene ikke selv har noen incentiver til å bruke ressurser på å tagge opp sider med semantikk?

Kan anbefale å høre Jon Udells intervju med en av de tidligere forskerne på semantiske vevapplikasjoner fra MIT, Stefano Mazzocchi:

itc.conversationsnetwork.org/shows/detail3513.html
podcast ca 1 time.
Lars (svar til Harald Groven)
23. oktober 2010 at 04:08

«Nettsidene blir ikke noe umiddelbart mer populære eller besøkt av å benytte såkalte semantiske teknologier. Semantikken har kun ført til ekstraarbeid og gevinster for andre.»

Men det er da den universelle utformingen kommer inn i det semantiske bildet. Semantikken i HTML er faktisk det som gjør at deler av det Norske lovverket i dag blir oppfylt! Det er mange som tidligere har utviklet nettsteder som ikke tenker på dette! Ta for eksempel for deg VG og se hvordan hele denne siden er strukturert. VG er et mareritt for semantikere, hvor så å si alt er feil (feil hiearkisk titteltagging mm).

Lovene jeg her snakker om er: Diskriminerings- og tilgjengelighetsloven og Lov om offentlige anskaffelser.

Hvem bør gjøre det?
Bruker du et CMS er det jo lett og sette opp en ordentlig «webeditor» med den semantiske betydningen du vil ha for de forskjellige elementene.

Svish

20. oktober 2010 at 16:54

Kodeeksemplet kom ikke opp i Feed Readeren… noe forvirrende… «kodeeksemplet over …» hvilket kodeeksempel?

Svar på denne kommentaren

Johan Sebastian Welhaven

20. oktober 2010 at 20:54

Er det mulig å få denne artikkelen oversatt til norsk?

Svar på denne kommentaren

Henrik Lied (NRK) (svar til Johan Sebastian Welhaven)
20. oktober 2010 at 21:15

Viss du referer til at saka er skriven på nynorsk, må eg diverre informere om at det er ei målform som er likestilt med bokmål, og dermed innanfor det du her refererer til som «norsk».

Som allmennkringkastar føreligg det eit krav frå Stortinget om at nynorsk skal vere tilstades i 25 prosent av vår innhaldsproduksjon.
Odin / Velmont (svar til Johan Sebastian Welhaven)
23. oktober 2010 at 16:58

Er det mulig å få denne artikkelen oversatt til dansknorsk?

Der, retta den for deg! 😀

Artikkelen er allereie på norsk, stygg skrivefeil du fekk inn der.
Johan Sebastian Welhaven (svar til Odin / Velmont)
24. oktober 2010 at 01:40

Hello. I am terribly sorry, but I only understand Norwegian or English. Since we have no means of communication, I propose we end this discussion now. Good luck, and have a nice day.
Heiberg (svar til Johan Sebastian Welhaven)
24. oktober 2010 at 18:04

Johan, ei slik respektlaus og umoden haldning høyrer ikkje heime i nokon diskusjon, minst i ein artikkel om mikrodata.

Andreas Wiik

25. oktober 2010 at 12:51

Kan nevne at vi skrapet Topic-maps da vi skulle finne ut hvordan vi skulle merke innholdet vårt, i forbindelse med den nye løsningen for korte videoklipp i artikler. Og generell nett-publisering.

Det ble vurdert som for tungvint for en journalist i en hektisk hverdag.

Vi kom fram til emneord. Hvem, hva og hvor. Det ligger nå som egenkomponerte meta-tager i html-en. Vi burde gå over til en standard, men som artikkelen nevner har ingen tatt av ennå.

Svar på denne kommentaren

Svein Ølnes

26. oktober 2010 at 23:52

Interessant diskusjon (ehh, bortsett frå den om norsk språk..). Fin analyse av Harald, det verkar som ein kamp mellom semantikarar og praktikarar. Med HTML5 ser det ut som praktikarane har teke første stikket.

Eg meiner å sjå ei utvikling frå W3C si side der ambisjonane på dette området gradvis har vorte reduserte og meir realistiske. Utviklinga mot lettare semantikk og enklare uttrykk (RDFa i HTML-koden) er bra.

Også utviklinga av Linked Open Data og opne data generelt er spennande. Eg trur LOD kan bli «killer application» for semantisk innhald på veven. Her er me på eit nivå som minner om «small pieces loosely joined», for å sitera David Weinberger.

Men framleis står det mykje att for å gjera dette enklare for sluttbrukaren. Det er framleis for komplisert for dei fleste.

Svar på denne kommentaren

Legg igjen en kommentar Avbryt svar

Gunnar Andreassen
18. oktober 2010 at 11:50

Interessant post, tar nok en tid før dette evt. blir implementert av publiseringsverktøy.

Svar på denne kommentaren
Henrik Arnestad Salthe
18. oktober 2010 at 12:31

I praksis vil dette bety at den som skriver teksten må markere hva alt i teksten er? Dette vil jo være et kjempestort arbeid i, la oss si, nyhetsartikler?

Svar på denne kommentaren

Kjartan Müller
18. oktober 2010 at 12:46

Det er også en tredje variant, rdfa (w3.org/TR/xhtml-rdfa-primer/).

Arbeidet med å legge inn slik data trenger ikke å være avskrekkende. Mye kan løses via automatisering av publiseringsverktøyene. Og det trenger heller ikke ta mye tid, siden mye av det igjen kan håndteres av visningsmalene.

Svar på denne kommentaren
Harald Groven
18. oktober 2010 at 13:27

Helt siden før veven fikk sitt gjennombrudd, har utvikling og standardiseringsforslag vært en evig krangel mellom «semantikere» og «praktikere».

Semantikerne, som gjerne har vært informatikere, kunstig intelligensforskere bibliotekarer mfl, har ønsket av egentlig burde være en svær database der hvert elements mening er eksplisitt kodet slik at en med deduktiv logikk kan hente ut og analysere store datasett.

Praktikerne (eller hva de burde blitt kalt) er gjerne vevredaktører, designere, skribenter som skriver på nettet, ser ikke noen umiddelbar gevinst av å måtte lenke og tagge alt innholdet i på forhånd definerte vokabular for at noen «semantikere» skal kunne leke seg med forskningen sin eller utvikle applikasjoner når mange datakilder er gjort semantiske. Nettsidene blir ikke noe umiddelbart mer populære eller besøkt av å benytte såkalte semantiske teknologier. Semantikken har kun ført til ekstraarbeid og gevinster for andre.

SGML, XML, emnekart, RDF, SPARQL er alle semantikeres forsøk på å gjøre om nettet til en søkbar database, men likevel er det meste av innhold på nettet presentert som HTML4 med minimalt med semantikk. Semantikerne har akket seg og lansert en rekke standarder som tok for gitt at «hvis bare alle vevutviklere benyttet teknologi X, vil alt bli så mye bedre».

Internettforskeren Clay Shirky har kritisert troen på at alt vil bli så mye bedre om vevinnhold var semantifisert:
The Semantic Web, Syllogism, and Worldview

Google-grunnleggerne har visstnok bannlyst ordet «semantisk vev» fra Googleplex, siden de mener det er å sette mennesker til å gjøre datamaskiners jobb. De har heller hatt tro på at en med statistisk analyse av tekst og klikkfrekevens kan utlede dokumentenes implisitte semantikk. Likevel har de måttet fire på sitt syn, ved at de i sommer kjøpte opp et selskap som semantifiserer vevinnhold fra flere kilder, Freebase.

Fordelen med mikroformater er at «praktikerne» kan fortsette å jobbe som før med å publisere innhold i HTML, men innholdet kan progressivt semantifiseres etterhvert som det utvikles nyttige vevapplikasjoner som gir nettsteder gevinst av å innkapsle mikroformater. Det krever ikke at nettsidene må bygges på nytt i en ny teknologi.

Svar på denne kommentaren

Svish
20. oktober 2010 at 16:54

Kodeeksemplet kom ikke opp i Feed Readeren… noe forvirrende… «kodeeksemplet over …» hvilket kodeeksempel?

Svar på denne kommentaren
Johan Sebastian Welhaven
20. oktober 2010 at 20:54

Er det mulig å få denne artikkelen oversatt til norsk?

Svar på denne kommentaren

Andreas Wiik
25. oktober 2010 at 12:51

Kan nevne at vi skrapet Topic-maps da vi skulle finne ut hvordan vi skulle merke innholdet vårt, i forbindelse med den nye løsningen for korte videoklipp i artikler. Og generell nett-publisering.

Det ble vurdert som for tungvint for en journalist i en hektisk hverdag.

Vi kom fram til emneord. Hvem, hva og hvor. Det ligger nå som egenkomponerte meta-tager i html-en. Vi burde gå over til en standard, men som artikkelen nevner har ingen tatt av ennå.

Svar på denne kommentaren
Svein Ølnes
26. oktober 2010 at 23:52

Interessant diskusjon (ehh, bortsett frå den om norsk språk..). Fin analyse av Harald, det verkar som ein kamp mellom semantikarar og praktikarar. Med HTML5 ser det ut som praktikarane har teke første stikket.

Eg meiner å sjå ei utvikling frå W3C si side der ambisjonane på dette området gradvis har vorte reduserte og meir realistiske. Utviklinga mot lettare semantikk og enklare uttrykk (RDFa i HTML-koden) er bra.

Også utviklinga av Linked Open Data og opne data generelt er spennande. Eg trur LOD kan bli «killer application» for semantisk innhald på veven. Her er me på eit nivå som minner om «small pieces loosely joined», for å sitera David Weinberger.

Men framleis står det mykje att for å gjera dette enklare for sluttbrukaren. Det er framleis for komplisert for dei fleste.

Svar på denne kommentaren

Vis 18 kommentarer

Semantikk

Microformats

Strukturert og ustrukturert data

HTML5 Microdata

Eksempel

Nytteverdien

Oppsummering

18 kommentarer

Gunnar Andreassen

Henrik Arnestad Salthe

Kevin Brubeck Unhammer (svar til Henrik Arnestad Salthe)

Kevin Brubeck Unhammer (svar til Kevin Brubeck Unhammer)

Kjartan Müller

Harald Groven

a-jay (svar til Harald Groven)

Jens Christian (svar til a-jay)

Harald Groven (svar til a-jay)

Lars (svar til Harald Groven)

Svish

Johan Sebastian Welhaven

Henrik Lied (NRK) (svar til Johan Sebastian Welhaven)

Odin / Velmont (svar til Johan Sebastian Welhaven)

Johan Sebastian Welhaven (svar til Odin / Velmont)

Heiberg (svar til Johan Sebastian Welhaven)

Andreas Wiik

Svein Ølnes

Legg igjen en kommentar Avbryt svar