nrk.no

Mikrodata byrjer å bli interessant

Kategorier: Internett,Software & Webutvikling

Bildet er henta frå Paul Downeys Flickr-konto og har ein Creative Commons-lisens.
Bildet er henta frå Paul Downeys Flickr-konto og har ein Creative Commons-lisens.

HTML er det underliggande språket på nettet. Folk flest har ikkje eit reelt forhold til dette, men det dannar strukturen for meir eller mindre alle sider du i løpet av ein dag besøkjer. NRKbeta.no, for eksempel, er komponert av mange forskjellige HTML-dokument.

One World - One Web
One World – One Web by psd, on Flickr

Med HTML kan du definere innhaldstyper. Dette er for eksempel eit avsnitt, som vi definerer via P-elementet. Du har mange andre element, som f.eks. H1-H6, som definerer ulike grader av overskrifter.

Semantikk

Under utviklinga av nyare versjoner av HTML er semantikk eit begrep som ofte blir brukt. Semantikk, i denne samanheng, tyder relasjonane mellom, og definisjonane på noko. At ei oppmarkering er semantisk korrekt tyder å bruke riktig element i riktig samanheng. Dei ulike elementa har ulike semantiske tydingar. P-elementet skal brukast til å markere eit avsnitt eller ein paragraf. Eit anna eksempel er ADDRESS-elementet, som ein skal bruke for å markere opp adresseinformasjon. Du har óg element som ABBR (abbreviation), som er til for å markere forkortingar og akronym. Og fleire liknande eksempel. Det HTML i utgangspunktet ikkje tilbyr, er ein måte å spesifisere kontekstgrupper på: Samlinger av semantisk representerbar informasjon.

Microformats

I 2005 byrja arbeidet med Microformats. Dette initiativet vart starta av profilerte personar i nettverda, mellom anna Tantek Çelik, Dan Cederholm og Ben Ward. Føremålet med Microformats var å komme fram til ein felles standard for å spesifisere informasjonsgruppering. NRKbeta.no brukar for eksempel hAtom-spesifikasjonen på kvart blogg-innlegg. Du har andre grupperingar, som f.eks. hCard (visittkort), hCalendar og hReview.

Når Microformats starta opp, var tankjen at denne innholdsspesifiseringa skulle gjere det enklare for både nettlesarar og søkjemotorar å bearbeide innhald meir semantisk korrekt. Dette tok dessverre aldri av. Det dukka opp eit par Firefox-extensions som automatisk fann visittkort, kalenderobjekt og liknande, men Google og dei andre kasta seg ikkje på bølgja på samme måte som ein i utgangspunktet trudde.

Microformats i den opprinnelege forma tok aldri av på same måte som ein håpte. Men i samband med arbeidet rundt HTML5 har det no vorte teke opp igjen.

Strukturert og ustrukturert data

Sjølv om HTML kanskje kan sjå strukturert ut, er det lite egna som datautvekslingsformat. Eit HTML-dokument er sjeldent strukturert kun med tanke på informasjonen. Vi brukar óg HTML til å spesifisere rammene rundt det visuelle (som i etterkant er definert i CSS). Difor følgjer det mykje meta rundt informasjonen vi formidler i eit HTML-dokument.

For å bruke Googlebot (Googles program som indekserer nettet) som eit eksempel: Googlebot klarer ikkje å forstå prosa på samme måte som vi gjer. Det forstår heller ikkje hundrevis av forskjellige språk.
Googlebot klarer ikkje utan vidare å fastslå at både teksten «Marius Arnesen» i overskrifta, biletet og teksten under handlar om samme person på Om NRKbeta-sida vår.

Det Googlebot gjer er å køyre gjennom HTML-dokumenta og, ut i frå relativt avanserte algoritmer, prøve å forstå både innhald og kontekst. Og dermed hente ut relevant informasjon for søkjeresultata. Googlebot forvandlar på sett og vis prosa til strukturert data, så langt det er mogleg. Mikrodata gjer at søkjemotorane kan kutte ned på tippinga.

HTML5 Microdata

HTML5 har ein seksjon som heiter HTML5 Microdata, som på sett og vis er ei vidareføring av det tidlegare arbeidet hjå Microformats.org.
HTML5 innfører fleire nye attributtar som gjer det mogleg å spesifisere innhald og kontekst på ein langt meir inngåande måte enn det som var mogleg i HTML 4 og XHTML 1.0.

Eksempel

Kodeeksempelet ovanfor gjer det mogleg for databehandlingssystem å hente ut strukturert data frå ein elles menneskelesbar tekst. Koden ovanfor gjev søkjemotorar og andre program moglegheita til å finne ut at:

  • Det handlar om ein person
  • Personnamnet er Henrik Lied
  • Henrik Lied er ein utviklar hjå NRK
  • Henrik Lied bur i Blindernveien 4, 0361 Oslo, Norge
  • Henrik Lied har ein eigen nettstad

Dette kodeeksempelet markerar opp ein anmeldelse. Søkjemotorar og andre program kan med dette finne ut at:

  • Det handlar om ein anmeldelse
  • Anmeldelsen er av Deal Extreme
  • Henrik Lied er forfattaren av anmeldelsen
  • Henrik Lied skreiv anmeldelsen på datoen 2010-10-06 (ISO 8601-format)
  • Anmeldelsen har både eit samandrag og ein full beskrivelse
  • Anmeldelsen har karakteren 4.5
  • Maksverdi på karakter er 5 (spesifisert i META-elementet)

Nytteverdien

Den potensielle nytteverdien av dette ganske omfattande. Indeksering av persondata vert no langt enklare. Der ein tradisjonell søkemotor tidlegare har måtte gjetta seg fram til innhald og innhaldstype, kan ein no servere dette i eit lettfatteleg og strukturert format. Ved søk etter Navn Navnesen på Google, kan ein framover få gruppert og visualisert innhald på ein heilt annan måte. Bildet nedanfor viser korleis den tidlegare oppmarkerte anmeldelsen kan bli sjåande ut på Google.

Og dette bildet illustrerer korleis personoppmerkinga kan bli visualisert:

Moglegheitene framover kan bli mange. Ein kan for eksempel sjå for seg det dukkar opp langt fleire personsøkjemotorar, kor innhald om deg lett kan grupperast.

Oppsummering

Mikrodata har potensiale til å gjere det lettare for folk å finne strukturert informasjon. Adopsjonsraten på HTML5 Microdata er førebels ganske lav, men Microformats.org kan meddele at det er over 2 milliard sider med hCard-oppmerking på nettet i dag. Som er ganske imponerande. Likevel ser det ut til at både W3C og Google legg vekta si bak HTML5 Microdata framover.

18 kommentarer

    • Kevin Brubeck Unhammer (svar til Henrik Arnestad Salthe)

      Du har sannsynlegvis lagt merke til autorettinga som skjer i Microsoft Word eller OpenOffice.org Writer, som t.d. automatisk kan gjere «–» om til ein ekte tankestrek, samtidig som det dukkar opp ein liten boble ein stad som seier «autorettinga gjorde om — til tankestrek; klikk her om dette var feil» (eller noko slikt).

      Tenk no at programmet i staden kjenner igjen visse «innhaldsrike» frasar eller liknande. Når du skriv «Kløvervegen 4» så kjem det ei boble som seier «autooppmerkinga har merka dette som ei adresse; klikk her om det var feil».

      Det er verktøya som skal gjere slike jobbar for brukaren, ikkje omvendt. Det blir vel ein stund til verktøya er gode nok til slikt då…

  1. Helt siden før veven fikk sitt gjennombrudd, har utvikling og standardiseringsforslag vært en evig krangel mellom «semantikere» og «praktikere».

    Semantikerne, som gjerne har vært informatikere, kunstig intelligensforskere bibliotekarer mfl, har ønsket av egentlig burde være en svær database der hvert elements mening er eksplisitt kodet slik at en med deduktiv logikk kan hente ut og analysere store datasett.

    Praktikerne (eller hva de burde blitt kalt) er gjerne vevredaktører, designere, skribenter som skriver på nettet, ser ikke noen umiddelbar gevinst av å måtte lenke og tagge alt innholdet i på forhånd definerte vokabular for at noen «semantikere» skal kunne leke seg med forskningen sin eller utvikle applikasjoner når mange datakilder er gjort semantiske. Nettsidene blir ikke noe umiddelbart mer populære eller besøkt av å benytte såkalte semantiske teknologier. Semantikken har kun ført til ekstraarbeid og gevinster for andre.

    SGML, XML, emnekart, RDF, SPARQL er alle semantikeres forsøk på å gjøre om nettet til en søkbar database, men likevel er det meste av innhold på nettet presentert som HTML4 med minimalt med semantikk. Semantikerne har akket seg og lansert en rekke standarder som tok for gitt at «hvis bare alle vevutviklere benyttet teknologi X, vil alt bli så mye bedre».

    Internettforskeren Clay Shirky har kritisert troen på at alt vil bli så mye bedre om vevinnhold var semantifisert:
    The Semantic Web, Syllogism, and Worldview

    Google-grunnleggerne har visstnok bannlyst ordet «semantisk vev» fra Googleplex, siden de mener det er å sette mennesker til å gjøre datamaskiners jobb. De har heller hatt tro på at en med statistisk analyse av tekst og klikkfrekevens kan utlede dokumentenes implisitte semantikk. Likevel har de måttet fire på sitt syn, ved at de i sommer kjøpte opp et selskap som semantifiserer vevinnhold fra flere kilder, Freebase.

    Fordelen med mikroformater er at «praktikerne» kan fortsette å jobbe som før med å publisere innhold i HTML, men innholdet kan progressivt semantifiseres etterhvert som det utvikles nyttige vevapplikasjoner som gir nettsteder gevinst av å innkapsle mikroformater. Det krever ikke at nettsidene må bygges på nytt i en ny teknologi.

    Svar på denne kommentaren

    • Harald Groven (svar til a-jay)

      takk:)

      for spesielt interesserte i problemstillingen: Skal data lagres i semantiske formater i utgangspunktet, eller bør en semantifisere vanlige nettsider? Hvis sistnevnte: Hvem bør gjøre det hvis de som lager sidene ikke selv har noen incentiver til å bruke ressurser på å tagge opp sider med semantikk?

      Kan anbefale å høre Jon Udells intervju med en av de tidligere forskerne på semantiske vevapplikasjoner fra MIT, Stefano Mazzocchi:

      itc.conversationsnetwork.org/shows/detail3513.html
      podcast ca 1 time.

    • «Nettsidene blir ikke noe umiddelbart mer populære eller besøkt av å benytte såkalte semantiske teknologier. Semantikken har kun ført til ekstraarbeid og gevinster for andre.»

      Men det er da den universelle utformingen kommer inn i det semantiske bildet. Semantikken i HTML er faktisk det som gjør at deler av det Norske lovverket i dag blir oppfylt! Det er mange som tidligere har utviklet nettsteder som ikke tenker på dette! Ta for eksempel for deg VG og se hvordan hele denne siden er strukturert. VG er et mareritt for semantikere, hvor så å si alt er feil (feil hiearkisk titteltagging mm).

      Lovene jeg her snakker om er: Diskriminerings- og tilgjengelighetsloven og Lov om offentlige anskaffelser.

      Hvem bør gjøre det?
      Bruker du et CMS er det jo lett og sette opp en ordentlig «webeditor» med den semantiske betydningen du vil ha for de forskjellige elementene.

    • Viss du referer til at saka er skriven på nynorsk, må eg diverre informere om at det er ei målform som er likestilt med bokmål, og dermed innanfor det du her refererer til som «norsk».

      Som allmennkringkastar føreligg det eit krav frå Stortinget om at nynorsk skal vere tilstades i 25 prosent av vår innhaldsproduksjon.

    • Johan Sebastian Welhaven (svar til Odin / Velmont)

      Hello. I am terribly sorry, but I only understand Norwegian or English. Since we have no means of communication, I propose we end this discussion now. Good luck, and have a nice day.

  2. Kan nevne at vi skrapet Topic-maps da vi skulle finne ut hvordan vi skulle merke innholdet vårt, i forbindelse med den nye løsningen for korte videoklipp i artikler. Og generell nett-publisering.

    Det ble vurdert som for tungvint for en journalist i en hektisk hverdag.

    Vi kom fram til emneord. Hvem, hva og hvor. Det ligger nå som egenkomponerte meta-tager i html-en. Vi burde gå over til en standard, men som artikkelen nevner har ingen tatt av ennå.

    Svar på denne kommentaren

  3. Interessant diskusjon (ehh, bortsett frå den om norsk språk..). Fin analyse av Harald, det verkar som ein kamp mellom semantikarar og praktikarar. Med HTML5 ser det ut som praktikarane har teke første stikket.

    Eg meiner å sjå ei utvikling frå W3C si side der ambisjonane på dette området gradvis har vorte reduserte og meir realistiske. Utviklinga mot lettare semantikk og enklare uttrykk (RDFa i HTML-koden) er bra.

    Også utviklinga av Linked Open Data og opne data generelt er spennande. Eg trur LOD kan bli «killer application» for semantisk innhald på veven. Her er me på eit nivå som minner om «small pieces loosely joined», for å sitera David Weinberger.

    Men framleis står det mykje att for å gjera dette enklare for sluttbrukaren. Det er framleis for komplisert for dei fleste.

    Svar på denne kommentaren

Legg igjen en kommentar til Henrik Arnestad Salthe Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.