Gjesteblogg: Hva er galt med bokhylla.no?

Kategorier: Gjestebloggere, Internett, Kommentar & Rettighetsbransjen

Staten betaler allerede millioner for tjenesten, og betaler for min og din bruk av tjenesten – har de svelget for mange kameler for å tilfredsstille rettighetshaverne?

Landets mest (innholds-)rike bibliotek har også blitt landets mest innholdsrike nettsted. Takket være ordningen med avtalelisens har Nasjonalbiblioteket fått et forsprang på selveste Google Books i evne til å tilgjengeliggjøre digitaliserte bøker for alle på nett. Dessverre fører to begrensninger til at de fleste som har nytte av dette fantastiske tilbudet ikke vil finne det.

Det digitale nasjonalbiblioteket — bokhylla.no — har gjort gammelt innhold tilgjengelig som aldri før. I alle fall delvis.

Etter at nettet ble utbredt på 90-tallet har skriftkulturen hatt to motgående kjørefelt med svært lite kryssende trafikk. Viktige, grundig redigerte og lange tekster har blitt utgitt på papir. Korte og ofte uredigerte tekster har blitt lagt ut på nett. Det er blitt enklere å publisere, samtidig som smartere søkemotorer har gjort det lett å finne. Stadig oftere har ikke bare hastigheten, men også kvaliteten på funnene i søkemotorene vist seg bedre og mer oppdatert enn det en noensinne kan håpe å finne i egen eller andres bokhylle. Dermed blir papirmediet blitt henvist til lange tekster det er betalingsvillighet for, mens nettet har erobret stadig flere øvrige dokumenttyper.

Telefonkataloger og leksikon var først ute med å utkonkurrere sine respektive papirversjoner. Flere dokumentkategorier vil følge. Blant de som har vokst opp med internett har mange vennet seg til at informasjon er noe som kan finnes gjennom nettsøk og som kan henvises til gjennom lenker. Da er det et tap om størstedelen av kulturarven er innelåst i ett medium, nemlig p-bøker — som nesten ikke er søkbare og ikke kan lenkes til.

“Det forsvunnede 1900-tallet”

Nyutgitte bøker har oftest et kort liv. Bortsett fra skjønnlitteratur av bestselgende forfattere og enkelte pensumbøker, blir de fleste utilgjengelige i handelen etter få år. Biblioteker og antikvariater kan kompensere for noe av utilgjengeligheten. De høye distribusjonskostnadene ved p-bøker har ført til at enkelte har kalt “det forsvunnede 1900-tallet”:

Litteratur utgitt mellom ca 1930 og 1990-tallet er nesten alt som har blitt utgitt utilgjengelig for salg. Bøker med utløpt vernetid, det vil si forfatters dødsår + 70 år, har det vært fritt fram for å legge ut på nett. Når papireksemplarene støver i biblioteker og stuehyller blir de lite finnbare og glemt. Papirteknologien fører til at 99% av norsk skriftkultur har vært utilgjengelig for 99% av befolkningen over 99% av tiden.

Hvilke tidligere utgitte bøker er fortsatt i salg for publikum? Nedenfor vises andel bøker tilgjengelig for salg etter tiår først utgitt. Amerikanske tall, mindre iver etter å gjenutgi bøker med utløpt vernetid fører til at kurven med norske data ville vært mindre “kamelformet” enn den som vises nedenfor.

Det er dette 70-årige hullet i kulturarven som Nasjonalbiblioteket har vært ambisiøse nok til å fylle med bokdigitaliseringsprosjektet Bokhylla.no. Alle bøker, aviser og trykksaker utgitt i Norge før år 2000 er i ferd med å bli skannet og lagt ut.

Salg av bøker fra Amazon, sortert etter tiår boken ble utgitt første gang.

Internett har hatt fantastisk korttidshukommelse, men elendig langtidshukommelse. Dette fordi det meste av innholdet har vært fra de siste 2-3 år, mens leseverdige tekster som er 2-300 år sjelden har vært søkbare. Muligheten for fritekstsøk i teksten i så mange millioner boksider fra siste århundre gir nettet “langtidshukommelse”.

Informasjon en aldri ville kunne klart å spore opp blir for første gang (praktisk) tilgjengelig. Jeg kunne for eksempel finne omtale av familiehytta fra reisebeskrivelser fra 1920-tallet og bilder av min morfar i en ukjent årbok fra 1990-tallet på noen få sekunder. Muligheten til å lete opp interessante og pussige gamle dokumenter gjennom tidkrevende graving i biblioteker og arkiver har tradisjonelt vært noe historikere og biografer har syslet med; bokhylla.no allmenngjør muligheten til finne fram interessant informasjon fra gamle bøker.

Vidar Kvalshaug, twitter.

En stor del av de nettpubliserte bøkene er ekstremt smale, og overlever neppe en kommunebibliotekars kasseringsraid. Typiske bokhylla-bøker kan være titler som Kanebogen skolekorps 30 år 1963 – 1993, Fra urologiens historie i Norge, Bøljan blå: sjømannsviser og bygdesanger eller biografibokøker som Norges filologer og realister. Dette er bøker i “den lange halen”: i stedet bokhandelbøker, hvor én bok gjerne er interessant for 10 000 personer, er heller 10 000 bøker som er svært interessant for én person hver. Uten muligheten for fritekstsøk i boka ville de neppe blitt funnet. Å finne det en leter etter i bibliotekenes søketjenester krever langt høyere informasjonskompetanse enn søkemotorsøk. Sistnevnte er demokratiserende for finnbarheten.

Grensesnitt

Brukergrensesnittet for å bla i Bokhylla er sterkt inspirert av Adobe Acrobat og Google Books. Skjermdump: bokhylla.no

De fleste menyvalgene fra Adobe Acrobat og Google Books finnes også i Bokhylla. For de fleste lesere vil skriften i de fleste bøker være for liten inntil de oppdager knappen for fullskjermmodus. Hvis en har liten pc-skjerm og skal bla i en flerspaltersbok, må en klikke seg gjennom hele tre menyvalg for at teksten skal bli leselig; fullskjermmodus i nettleseren (F11), fullskjermmodus i Bokhylla, og så eventuelt “tilpass bredde”-knappen i Bokhylla for å få teksten til å fylle hele skjermbredden.

I forrige versjon hadde boksidebildefilene kun to faste størrelser. Den ene, “small”, førte til så liten skrift at det ofte var uleselig, mens den store (“medium”) var så stor at en dobbelt bokside fylte mer enn en hel standardskjerm. I den nye versjonen av bokhylla skalerer bildene perfekt og utvider seg etter skjermstørrelse (flytende sidebredde, som mobiler og pads har gjort vanlig siste år). Teknologien som muliggjør zooming er beslektektet med den de fleste er kjent med fra Google-kart med flislegging (“tiles”) av bilder i forskjellige oppløsninger.

Bokhylla på nettbrett eller lesebrett?
Universitetsbiblioteksbloggeren Ole Husby har gjort en test hvordan det er å lese fra nettbrett og lesebrett på BetaUB: Bokhylla på nettbrett.

E-bøker er mye mer behagelige å lese på lesebrett enn på nettbrett. Så det er synd at Bokhylla ikke er tilgjengelig på det mediet det ville vært best egnet for. Lesebrett som for eksempel Kindle har ikke skjerm med baklys men bruker e-blekk, mens nettbrett som iPad har skjerm. Avtalen med mellom Nasjonalbiblioteket og Kopinor, som gir rammebetingelsene for hvordan Bokhylla kan presentere bøkene, sier “Materialet gjøres tilgjengelig for lesing på skjerm med det visningsformat som til enhver tid tilbys på nb.no. Det skal ikke legges til rette for nedlasting eller utskrift av materialet før den opphavsrettslige vernetiden har utløpt.

Bedre bildekvalitet

Da første versjon av Bokhylla ble lansert for fire år siden var bildekvalitet noe de fikk særlig mye tyn for. Mange boksider var så fargeforvrengt at opphavsrettsjurister begynte å spekulere om en reproduksjon kunne være så dårlig at den krenket opphavsmannen. Men bildekvaliteten har etterhvert blitt svært god og skarp i de fleste bøker. Ta for eksempel en kikk i en av mine favorittbøker om språkhistorie, med en størst mulig skjerm. Boksider skjemmet av fargestikk har fått dette introdusert som følge av at forskjellig fargejustering har blitt kjørt på forskjellige sider i samme bok. Dermed kan tekst kan bli blå eller papiret ser ut som det er trykt på papiret til Dagens Næringsliv. Fordi alle sidene i en papirbok gjerne gråner eller gulner like mye, kunne de med fordel kjørt samme innstilling på alle sidene i samme bok. Fargeinnstillinger som sørger for at svart tekst er svart, og sette hvitpunkt slik at hvitt papir er hvitt burde være en forholdsvis triviell tekniske oppgaven i et prosjekt som Bokhylla.

Bilder av bøker, eller bildebøker?

Fortsatt viser Bokhylla bare bilder av boksider, ikke teksten i bøkene. Få journalister og beslutningstakere som hittil har skrevet om Bokhylla viser at de egentlig har forstått forskjellen mellom tekst fra en bok og bilde av tekst fra en bok. I statsbudsjettet for 2013 skriver Kulturdepartementet at Bokhylla skal legge ut tekst, ikke bilder: Størstedelen av all litteratur utgitt på norsk, også oversettelser, vil etter hvert vil bli tilgjengelig i fulltekst på nett”.

Det meste brukere kan kritisere Bokhylla for, er følgefeil av begrensningen med å legge ut bare bildefiler på nett. Denne begrensningen virker selvpåført, siden kontrakten som regulerer Bokhylla ikke sier noe om at tekst ikke kan legges ut. Hvis du vil sitere tekst i noe fra en opphavsrettbeskytta Bokhylla-bok, må en punsje inn teksten ved å se på bildet. Dette på tross av at Nasjonalbibliotekets datamaskiner allerede har konvertert bildene av boksidene til tekst for sitt internsøk. Klippe-lime slik en er vant med fra tekstbehandling går ikke an. Bøker som er falt i det fri kan kan derimot lastes ned som pdf-filer med kopierbar tekst.

Teknikerne som har utviklet webapplikasjonen har gjort mange fiffigheter for å få bildene av boksider til å oppføre seg som om de likevel var tekst. For eksempel er koordinatene til plasseringen av alle ord i den teksten i bildene lagret, slik at søkeord kan utheves i gult. Det er noe sånt som omtrent ti tusen ganger så mange koordianter lagret i Bokhylla som antall koordianter til alle stedsnavn i Norge lagret i Kartverkets offisielle stedsnavndatabase.

Gul tusj? Nei, bildelag med gule gjennomsiktige rektangler. Skjermdump: bokhylla.no

At bøkene bare er lagt ut som bilder, ikke tekst fører til at innholdet er fullstendig utilgjengelig for blinde, og lite tilgjengelig for fleste svaksynte.

Hvis bøkene ligger ute som tekst, kan talesynteseprogrammer som synshemmede bruker lese teksten høyt for dem. Men bilder kan disse dataprogrammene ikke lese høyt.

Kulturnytt P2: Bokhylla utilgjengelig for blinde- og svaksynte.
lydklipp: Kulturnytt, morgen 15.10.12

En helt spesiell kategori av ivrige lesere med særlig dårlig utviklet synssans er dataprogrammene som søkemotorene bruker for å indeksere internettinnhold (såkalte crawlere). Disse robotprogrammene tråler alle med noen dagers mellomrom alle kjente nettsider på jakt etter tekst og lenker, slik at du får treff på et søkeord når du søker i Google, Bing eller eller lignende tjenester. Ettersom Bokhylla kun legger ut bilder av boksider, finner de ingen ting! Kun bibliografisk informasjon som boktittel, forfatternavn, kategori, utgivelsesår og noen felt til lar seg indeksere. Så hvis ordene du søker i ikke er nevnt i tittel eller forfatternavnfelt, vil du aldri finne det du er på jakt etter. Nasjonalbiblioteket har kanskje tenkt at Bokhylla er så unik og viktig at folk heller vil bruke Bokhylla enn Google?

Min gjetning er at 90% av de som kunne hatt glede av tjenesten, vil ikke finne boka de har behov for i fordi teksten i bøkene ikke er indeksert av søkemotorene som folk faktisk bruker.

Eirik Newth, twitter.

Hvis du har et spørsmål i hodet, må en altså først søke etter svaret på Google, så må en åpne et nytt søkevindu og søke i bokhylla.no. De aller fleste vil begrense seg til en internasjonal søkemotor med ferskt innhold som Google, Bing eller Google scholar, fremfor en smal mindre kjent nasjonal søkemotor med innhold fra før år 2000.

Avtalen mellom Kopinor og Nasjonalbiblioteket som regulerer Bokhylla sier at “Materialet vil bli gjort søkbart via søkemotorer”, men presiserer i samme kontrakt at innholdet skal være tilgjengelig fra norske IP-adresser. Så hvis de internasjonale søkemotorene lar sine roboter kjøre fra en norsk IP skal det jo ikke være kontraktsstridig å gjøre innholdet finnbart for folk.

Utlandet blokkert

Den selvpåførte begrensningen i Bokhylla som mest irriterende for en stor gruppe potensielle brukere er kravet om at brukere må ha norsk internettadresse (IP). Over 100000 personer med norsk som morsmål er har meldt flytting til utlandet i følge anslag fra SSB. Disse er sperret ute fra Bokhylla. Selv om noen sikkert ser for seg norske Spania-pensjonister som forsøker å lese 1900-tallsromaner på pad, skal en ikke unnslå at mange nordmenn i utlandet er de som har størst behov for kulturtilbud som Bokhylla. Utvandrerene er de som lengst fra både norske bokhandlere og biblioteker.

Det norske språk er jo en langt mer effektiv enn IP-sperre i å stenge ute kulturelle gratispassasjerer. Bare tre promille av verdens befolkning klarer å skjønne en tekst på norsk. Offentlig kulturpolitikk har som formål sørge for best mulig tilgjengelighet for norsk litteratur. Man betaler for biblioteker og innkjøpsordning for hver kommune.

Men når internett har gjort det mulig å gjøre nesten all tidligere utgitt norsk litteratur tilgjengelig overalt for nesten alle overalt geografisk nesten uten trykke- og distribusjonskostnader. Om et lite folkebibliotek trues med nedleggelse blir det høylytte protester, men om et gigantisk internettbibliotek drastisk reduserer tilbudet til publikum, er det få reaksjoner.

Staten betaler allerede millioner for bokhylla.no, og betaler for min og din bruk av tjenesten - har de svelget for mange kameler for å tilfredsstille rettighetshaverne?

Ca 99% av statsstøtte til litteratur (inkl momsfritak) går til å få utgitt ny litteratur på papir, og 1% går til å få tilgjengeliggjort de siste hundre års litteratur på nett gjennom prosjekter som Bokhylla.

Men det er fullt lovlig å komme seg rundt denne begrensingen. Overlappende IP-begresninger er fryktelig irriterende for brukere, fordi en bruker teknologi aktivt for å gi folk et dårligere kulturtilbud, enn de ellers ville hatt. Hvis behovet er stort nok kan en skaffe seg IP-adresse fra annet land (med VPN, ofte kalt “tunnel”). Selv har jeg vært nødt å bytte til universitets-IP om jeg skulle ha tilgang til materiale fra univeristetsbibliotek, bytte til jobb-IP for å komme inn på lokalnettet, bytte til norsk IP for å komme utenom sensuren når jeg har bodd i Kina. Mange har skaffet seg amerikansk IP for å bruke utenlandsk nett-TV.

Gutenberg, Google books og Nasjonalbiblioteket

Internasjonalt er bokhylla i skyggen av et bokdigitaliseringsprosjekt som er mye eldre (Prosjekt Gutenberg) og et et som har skannet 100 ganger så mange bøker (Google Books).

Verdens første systematiske bokdigitaliseringsprosjekt er Prosjekt Gutenberg. Denne dugnadsorganisasjonen startet i 1971 med å punsje inn USA uavhengighetserklæring og gjøre det tilgjengelig i datanettverk. Siden har 50 000 bøker og publikasjoner som ikke har opphavsrettsbegrensninger blitt lagt ut. Dette prosjektet har ført til at de fleste kjente litteræreklassikere i en årrekke har vært fritt tilgjengelig for nedlastning i flere tekstformater. Prosjektet har siden 1992 hatt en filial for nordisk litteratur, Prosjekt Runeberg. Disse pionerprosjektene var basert på dugnadsinnsats og manuell korrekturlesing av teksten.

Full fart på bokdigitalisering ble det først i 2004 da Google satte i gang bokskanning i industriell skala gjennom partnerskap med universitetsbiblioteker og heldigital lesning. Googles organisasjonsmål skulle en tro var formulert av en overambisiøs bibliotekar: “Googles mål er å organisere all informasjon i verden og gjøre den nyttig og tilgjengelig for alle«. Indeksering av bøker var en logisk steg etter å ha indeksert nettsider. Hittil er om lag 20 millioner bøker skannet.

I motsetning til Project Gutenberg begynte de også å digitalisere opphavsrettbeskytta bøker. Skanning av opphavsrettbeskytta materiale har ledet Google Books inn i et 7-årig gigantsøksmål hvor advokatutgiftene har vært i hundremillionerdollarsklassen, og på høyere nivå enn utbetalt forfatter- og forlagsvederlag. Saken har omhandlet spissfindigheter i amerikansk kontraktsrett, gruppesøksmål (class action), konkurranserett (trust-lovgiving) og låneregler for unntak i opphavsrett (fair use) som er svært forskjellig fra norsk rett. Mens kontrakten som regulerer bokhylla er på 1000 ord og 1 side, er kontraken fra 22. oktober 2012 mellom Google, og Forfatter- og Forleggerforeningen i USA på 712 sider. Kritikere frykter at dataene Google samler inn ved bokskanningen vil gi dem et monopol på både e-boksalg fremtidige nettjenester som ikke er utviklet ennå.

Google Books har omtrent 77 000 frie bøker på norsk, dvs. gratis nedlastbare, oftest fordi opphavsmann har vært død i over 70 år. Det ser ut til at Google allerede har indeksert 275 000 bøker på norsk, altså like mange som Nasjonalbiblioteket planlagt å indeksere. (Tallene er fra antall treff i søkeresultatene filtrert på språk og lisens, og må tas med forbehold.)

De fleste opphavsrettsbeskyttede Google har skannet er søkbare, men kun avsnittsutdrag er synlige (såkalte “snippets”), og maks 20% av boka kan gjøres synlig.
Den nordiske regelen med avtalelisens, har gjort at Nasjonalbiblioteket har kunnet nettpublisere hele bøker fra et helt århundre, mot et vederlag til 22 opphavsrettsorganisasjoner på 35 øre per bokside per år. Google har derimot vært nødt til å gjennomgå et kjempesøksmål uten å få like god mulighet til å publisere bøkene de har skannet.

Uutnyttede muligheter

Mange nye og innovative bruksområdene av tekstkorpuset fra bokhylla som kunne vært oppfunnet eller tatt i bruk, men som er umulig på grunn av publiseringsformatet og kontraktsvilkårene. En kunne brukt ordene i Bokhylla-korpuset til å lage mye bedre ordretteprogrammer for norsk språk, slik at en fanget opp alle ord som noensinne har vært trykt i norsk språk, ikke bare det ordtilfanget som er lagt til i ordlista av programvareprodusentene. Eller man kunne gjort avanserte analyser av store mengder tekst for å finne ut ting en ikke visste det var mulig å finne ut.

Hvilke kommunikasjonsmidler har blitt hyppigst nevnt i litteratur siste 300 år? Telegraf, telefon, faks, mail eller internett? Grafen viser frekvensanalyse av

Forskere i feltet digital humanities har kunnet bruke korpuset fra Google books til å finne anakronismer i historiske filmer og bøker. For eksempel anakronismer i serier som Mad Men og Downton Abbey. Ben Schmidt som nå er tilknyttet en forskningsgruppa Cultural Observatory ved Harvard brukte et uttrekk av korpuset av ord Google Books fra samme år som TV-serien Mad Men, for å finne ord som var overhyppig sammenlignet med tidsepoken. Nedenfor kan en se at ordpar som “distancing yourself” og “storylines to” er over 300 ganger så vanlig i Mad Men som ordparene var i tidsepoken serien utpinner seg i, og således utilsiktede anakronismer. Likeensk kan en se at “of psychoneurotic” tydligvis var vanlig på 1960-tallet, men lite uttalt i serien.

Ordpar som “distancing yourself” og “storylines to” er over 300 ganger så vanlig i Mad Men som ordparene var i tidsepoken serien utpinner seg i, og således utilsiktede anakronismer. Likeens kan en se at “of psychoneurotic” tydligvis var vanlig på 1960-tallet, men lite uttalt i serien.

Dette eksempelet er kanskje ikke det nyttigste bruksområdet. Men skal om en i fremtiden vil trene opp dataprogrammer forstå (i en forstand av ordet) betydningen av språk, eller hente ut informasjon fra tekster på en mer intelligent måte enn bare fritekstsøk, er store tekstmengder tilgjengelig for teknologer og forskere selve råmaterialet for å få det til.

Anmeldelse/terningkast/oppsummering

Bokhylla.no er en av de beste norske nettjenestene. I hvert fall hvis du har en viss interesse for norsk språk eller noe de noensinne er utgitt bøker om i Norge. Den er et sjeldent eksempel på at Norge langt framme i nettinnhold. Det største problemet Bokhylla har, skyldes selvpåførte begrensninger ved at teksten i bøkene ikke er søkbar utenfor Nasjonalbibliotekets interne søkemotor. Dette fører til at de fleste som har interesse av noe som Bokhylla har, ikke vil oppdage det. Frykt for kopiering og frykt for å skade inntjeningsmulighetene fra et e-bokmarked knapt har oppstått ennå, har ført til at tjenesten er begrenset gjennom IP-sperre og hinder mot å lese på lesebrett.

Positivt + Søke i 10 millioner norske boksider utgitt siste 300 år.
+ Enorme mengder med innhold.
+ Gratis for brukerne
+ Støtter en god sak (stipender til forfattere).
+ Første tjeneste i verden i sitt slag.
+ Fancy HTML5/flash-webapp.
Negativt – Innholdet i bøkene usynlig for søkemotorene.
– Ubrukelig for blinde og svaksynte.
– Utenlandske lesere sperret ute.
– Umulig å klippe ut tekst.

21 kommentarer

  1. Det er enda flere irriterende småting som gjør at bokhylla enda ikke egner seg som en effektiv kilde til kunnskapsdeling:
    – Du kan ikke lenke til side xx i en bok (du blir kastet til innholdssiden)
    – Du kommer deg ikke tilbake fra boken til søkemodus på en enkel måte (prøv etter å ha bladd deg noen sider ut ei bok og kom deg tilbake til søk uten at du jukser med å skrive inn URLen 😉

    Og sikkert flere til, men prosjektet går riktig vei 🙂

    Svar på denne kommentaren

  2. Det norske språk er jo en langt mer effektiv enn IP-sperre i å stenge ute kulturelle gratispassasjerer.

    Ja!

    Når det gjeld søking med eksterne motorar, så ser eg to alternativ:
    1. Publiser ein generert tabell frå søkjeord (ev. hasha om ein skal vera veldig opphavsrettsparanoid) til ei liste med URL-ar. Eg veit ikkje om Google ville godteke noko sånt, har aldri høyrt om det, men det hadde iallfall gjort det mogleg med søk.
    2. Publiser teksta og få alt «gratis» med dei same metodane som fungerer med vanlege, moderne nettsider.

    Problemet med blinde/svaksynte er verre. Eg ser to alternativ:
    1. Legg inn lydgenerering på tenaren som blir strømma til brukaren. Dette krev programvare som, mtp. status for norsk taleteknologi, nok kjem til å kosta ein del; det krev ganske mykje meir tenarkapasitet og mellomlagring, og det krev at brukaren har ei rask nettlinje.
    2. Publiser teksta og få alt «gratis» med dei same metodane som fungerer med vanlege, moderne nettsider.

    For å betra situasjonen for forskarar innan digital humaniora, datalingvistikk og språkteknologi, så finst det òg to alternativ:
    1. Ikkje gjer noko, og la Bokhylla vera totalt unyttig for forskning. Norsk språkforskning, som allereie ligg bak pga. manglande data, fortset med å stagnera.
    2. Publiser teksta og få eit fantastisk kjeldemateriale til bruk innan lingvistisk og historisk grunnforskning, utvikling av stavekontroll og maskinomsetjing, og ei rekkje bruksområde som ingen ein gong hadde tenkt på før dei byrja å leika rundt med dette materialet.

    Svar på denne kommentaren

  3. Dette er kopiert fra mailinglisten Biblioteknorge den 22.10.12: et svar på kritikken om manglende tilgang til bokhylla.no for blinde og svaksynte.

    Det er i alle fall en liten oppmuntring..?

    «Hei

    Nasjonalbiblioteket har i dag ikke rettigheter til å gi tilgang til teksten i bøkene i Bokhylla. At det er bilder av de publiserte bøkene som vises og ikke selve teksten har vært et viktig poeng for rettighetshaverne. Det er derfor ikke særlig sannsynlig at vi vil få rettigheter til å gjøre tekstene tilgjengelige for allmennheten på kort sikt. Dermed faller også muligheten for korrekturlesing gjennom crowdsourcing bort.

    Blinde og svaksynte har imidlertid spesielle rettigheter, og vi ser ikke bort fra at Nasjonalbiblioteket kan få til et samarbeide med Norsk lyd- og blindeskriftbibliotek som kan gjøre det mulig å gi tilgang til tekstene for de som er autoriserte brukere av NLBs tjenester. Nasjonalbiblioteket har derfor tatt kontakt med Norges blindeforbund med tanke på å få sjekket ut om våre tolkede tekster kan gi blinde og svaksynte en bedre opplevelse av Bokhylla. Hvis vi får en positiv konklusjon på disse forsøkene vil vi gå videre for å se om vi kan finne en løsning for å gi tilgang til disse tekstene for blinde og svaksynte.

    Med vennlig hilsen
    Svein Arne Solbakk
    Avdelingsdirektør for IKT og digitalisering Nasjonalbiblioteket»

    Svar på denne kommentaren

    • Trond Trosterud (svar til Sissel)

      Svein Arne Solbakk viser til opphavsrett som hindring frå å legge ut tekst. Men dette gjeld ikkje dei tekstane som ikkje er opphavsrettsbunde: Tekstar som har falle i det fri, og tekstar som i utgangspunktet ikkje er opphavsrettsleg bunde, som offentlege dokument som t.d. Stortingsforhandlingane. Dei bør absolutt bli søkbare som tekst, og ikkje som bilete.

  4. Bare en kjapp kommentar ang. hvitpunkt – har jobbet en del i Photoshop, og dette er en enkel jobb, ved enkeltbilder, som du selv har laget! Dersom du har millioner av sider, er det vanskelig å lage en funksjon som både sørger for at hvitt er hvitt, samtidig som gult skal være gult, dersom forfatteren har valgt dette (eller lilla tekst for den saks skyld). Det samme gjelder ved bilder – er gulstikket forårsaket av kveldssol, eller er hvitbalansen satt feil… ikke alltids å lett å si! Så, stort sett syns jeg Bokhylla gjør en bra jobb, omstendighetene tatt i betraktning!

    Svar på denne kommentaren

    • Hvitpunktsetting er enkelt for enkeltbilder i bilderedigeringsprogrammer som Photoshop. Skal en sette passende hvitpunkt for alle sidene i en skannet bok, må en bruke en metode (algoritme) som er mer avansert enn det Photoshop er i stand til. En slik algoritme må:
      1. Lage en frekvensfordeling av fargen på alle pixlene på alle sidene i boka, eller et større sample av pixlene.
      2. I frekvensfordelingen av pixelfarger vil det domineres av en klynge verdier med papirets farge, og ikke fullt så stor klynge av blekkets farge.
      3. Papirfargeklyngen kan settes som hvitpunkt, og blekkfargen settes som svartpunkt når bildene korrigeres før publisering.
      4. Bildebøker og tegneserier vil ha en distinkt frekvensfordeling av farger, som er ulik en ca 80%/20% fordeling av papir/blekk. For disse kan en sette passende hvit- og svartpunkt manuelt.

  5. Noko av det meir problematiske med bokhylla.no er rettshavar-problematikken. Det hadde vore heilt fantastisk om ein verkeleg fekk tilgang til alt som er utgjeve i Noreg fram til 2000. Det gjer vi diverre ikkje. Sjå kva som hende då Mo Yan vann nobelprisen i litteratur i år. NB la ut saka Nobelprisen i litteratur 2012 til Mo Yan, der dei gledesstrålande kunne fortelje at «Det er en tittel av Mo Yan på norsk som er utgitt før år 2000 og som dermed er tilgjengelig i bokhylla.no, og det er en stor glede å kunne vise alle norske lesere til denne: Rødt korn

    Om de gjorde som meg så fekk de ingen treff på Rødt korn. Kvifor? Av di både forlag og forfattarar har rett til å trekkje titlar frå tenesta. Når dei ser at ein forfattar ser ut til å kunna bli litt populær igjen – vips så forsvinn tittelen frå bokhylla.no og dukkar opp i ein nettbokhandel nær deg… Dette er med heimel i §7 i avtalen med Kopinor: «Kopinor kan trekke boktitler fra avtalen etter anmodning fra en berørt rettighetshaver.» Her har Aschehoug altså trekt ei bok frå 1995 frå visning. Ikkje nok med det, dei har prenta opp ei pocketbok og påstår at det er 1. utgåve – iallfall i fylgje bokkilden.no

    Det som forundrar meg er at Nasjonalbiblioteket ikkje har forhandla fram ei grense for kor gamle bøker som kan fjernast. I prinsippet kan familien etter Knut Hamsun truleg fjerne alt av Knut Hamsun frå bokhylla.no, sidan det er mindre enn 70 år sidan han døydde. Det same kan då andre familiar gjera, familiar som skjemst over livet eller forfattarskapen til ein eller ei som har døydd etter 1942…

    Svar på denne kommentaren

    • Trekking av titler fra bokhylla.no blir lett en anmeldelse av nordisk opphavsrett eller bokbransjeøkonomi, ikke bokhylla.no per se.

      Mo Yans bok ville innbragt kr 179 pr år til opphavsrettsforvalterorganisasjonene ihht avtalen mellom Nasjonalbiblioteket og Kopinor. De aller, aller fleste bøker i bokhylla.no ville ikke hatt salgspotensiale til å finansiere nytrykk, men å få en nobelpris i litteratur burde normalt gi salsinntekter som er > kr 179.
      Hvis folk velger å lese boka på nett i stedet for å kjøpe p-bok i bokhandelen, er det økonomisk rasjonelt av forlaget å trekke boka. Hvis derimot bokhylla får folk til å oppdage bøker de er villig til å betale for, er trekking av titler kulturøkonomisk selvskading. Så om bokhylla kannibaliserer eller pollinerer bokmarkedet kommer an på forbrukernes adferd.

    • Det er sjølvsagt rett. Det som overraskar meg (litt naiv…) er kor lite nyfikne forlaga er på å faktisk finne ut av dette. Aschehoug hadde overlevd om den eine boka hadde lege ope. Då kunne dei bede Nasjonalbiblioteket om oversikt over kor mange visningar boka har hatt, og dimed fått dokumentert om det kannibalisering eller pollinering som er konsekvensen.

  6. Hvis en har liten pc-skjerm og skal bla i en flerspaltersbok, må en klikke seg gjennom hele tre menyvalg for at teksten skal bli leselig; fullskjermmodus i nettleseren (F11), fullskjermmodus i Bokhylla, og så eventuelt “tilpass bredde”-knappen i Bokhylla for å få teksten til å fylle hele skjermbredden.

    Vanskelig zoom og fullskjermsvisning på nettbrett og mobile plattformer er grunnen til at jeg utviklet et alternativ som leser bøkene på bokhylla. Koden er fritt tilgjengelig som åpen kildekode for de som er interessert.

    Svar på denne kommentaren

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.