Forbruker & Lyd

Høytlesning: medienes neste stopp?

Willy Andresen med Åse Thoresen og Børt-Erik Thoresen i studio Foto: NRK

I en interessant vending kan teknologi-gigantene snart havne i direkte konkurranse med Blindeforbundets teleavis.

For hvordan skal man få med seg nyhetene, om man ikke har tid eller mulighet til å lese dem selv? Flere medier satser på høytlesning. Utviklingen drives av flere ulike behov.

Det kan være mange grunner til at man ikke får lest nyhetene. De av oss med lese- og skrivevansker, dysleksi eller nedsatt synsevne vet at det ofte kan være vanskelig å komme seg igjennom en artikkel. Lytter du jevnlig til podcaster, kan du nok nikke anerkjennende til at det passer perfekt som selskap når du er opptatt med andre ting.

Her i NRKbeta har vi selv testet ulike automatiserte løsninger hvor en data-stemme kan lese opp nyheter. Slik kan man potensielt gjøre om en hvilken som helst melding til lyd. Det vil kunne forenkle arbeidsflyt og la oss generere personaliserte varsler, som kan presenteres til publikum på alle mulige plattformer. Men det ligger ennå fram i tid.

Teknologi lar oss løse mye nå, men automatisering av en menneskelig stemme og språkforståelse må bli bedre før dette kan bli en realitet.

På veien dit, prøver flere teknologiselskaper seg på ulike løsninger.

Aftenposten Opplest

Aftenposten presenterte tidligere i vår sine forsidesaker ved hjelp av høytlesning.

Via «Aftenposten Opplest» på Soundcloud og som podcast kunne du få med deg hovedsaken fra dagens avis. Et eksternt produksjonsselskap leste inn sakene kvelden før publisering.

Her er den mest populære, og foreløpig siste, utgaven fra 31. mai:

Utviklingsredaktør i Aftenposten, Eirik Hammersmark Winsnes, mener det åpenbart er et behov her som de kan fylle. De jobber nå med hvordan de best kan gjøre det.

Dette har vært et testprosjekt over to måneder som vi har fått positive tilbakemeldinger på, og som vi nå evaluerer.

Utviklingsredaktør Eirik Hammersmark Winsnes i Aftenposten til NRKbeta

Nytt i iTunes

Det har versert rykter om at Apple snart skulle lansere en egen kategori i iTunes, med oppdateringer kun fra utvalgte medier. Mandag slo det til, og en egen seksjon i iTunes kalt «Spoken Editions» ble annonsert.

Der finner du artikler helt fra Playboy og gravejournalistene i The Intercept. Alle leses opp høyt for deg.

Skjermbilde fra Apples iTunes
Skjermbilde fra Apples iTunes

Formatet følger en ganske enkel oppskrift. Artikler leses inn og publiseres som podcaster. Dette gir små og korte oppdateringer på noen minutter, i stedet for en tradisjonell podcast som gjerne varer mye lenger.

Av det vi har hørt så langt er historiefortellingen ikke tilpasset at saken leses opp. Det ligner mer en lydbok, enn tradisjonell radio og podcasting.

Ikke overbevist

Vi har lyttet til en del av «artiklene» hos iTunes spoken edition, men er ennå ikke helt overbevist.

Produksjonen er ikke fullt så god som den fra av Aftenpostens: det er jevnt over dårligere kvalitet på innspillingene og vi hørte flere feil under opplesningen.

9to5mac skriver at det er selskapet Spokenlayer som står bak produksjonene. De leser artikler fra kjente medier som Time, Reuters og Huffington Post.

Tekstene blir lest opp av det de selv beskriver som et «distribuert nettverk av stemmetalenter». Vi antar at dette er alt fra amatører til proffe, da alle kan søke om å bli en del av dette nettverket.

8 sider

Vi var nylig innom svenske 8Sidor, en avis som utgis av svenske Myndigheten för tillgängliga medier.

8Sidor tilbyr høytlesning av artiklene sine gjennom ReadSpeaker, en tjeneste som automatisk gjør om tekst til tale. Resultatet er overraskende likt høytlesningen av artikler, og er teknisk ikke veldig vanskelig å implementere. Etter hvert som datamaskinens evne til å snakke blir bedre, vil slike tjenester også forbedres.

Skjermdump av nyhetsartikkel fra 8Sidor
Skjermdump av nyhetsartikkel fra 8Sidor

Vi synes dette fungerer overraskende bra.

Blindeforbundets Telefonavis kan også lese opp nyhetene via telefon, men tjenesten er dessverre ikke spesielt enkel å navigere i. Tjenesten kan fort få konkurranse, når flere aktører jobber for å tilgjengeliggjøre lyd-versjoner av artikler og nettaviser.

Lyd er nøkkelen

Denne formen for lydpresentasjon konkurrerer åpenbart med et annet stort marked: radio.

På den fronten har flere tjenester forsøkt å ta en bit av kaka, i en tid hvor stadig flere har en mobiltelefon i lomma.

Podcastens renessanse er et godt eksempel på lydformatenes popularitet i vår tid. Et annet interessant element – som også skaper nye innholdsformat – er nye produkter som Amazons Echo.

Echo er en stemmestyrt høyttaler som har en innebygget smart assistent kalt «Alexa», ikke ulikt Apples Siri og Google Now. I tillegg til å spille musikk og hjelpe deg med enkle gjøremål i heimen (handlelister, tidsur etc.) kan Echo servere deg siste nytt.

Echo er kun lansert i USA. Dermed er det foreløpig kun engelskspråklige nyheter som tilbys, men europeiske BBC er tilstede.

Du kan velge å få opplest en kort nyhetsoversikt – en «flash briefing» – fra en rekke kategorier og kilder (se for deg Dagsnytt som NRK sender hver time). Ut i fra antallet medier som har en slik briefing tilgjengelig, virker det som interessen er tilstede.

Amerikanske Vox driver med tekst, video og podcaster. De eksperimenterer nå med å lage lyd-innhold for Echo. De har dokumentert sine funn godt på egen blogg. Et av dem er at opplesing av tekst ikke er det samme som å lese en tekst.

Forskning viser at lytteren slutter å følge med 10-15 sekunder ut i en opplesning. Det gjør det ekstremt utfordrende å designe lyd for Alexa, fordi talen der følger en rett linje mellom en bestemt start og slutt. Vi må være bevisst på at brukerne har mindre kontroll over innholdets lengde og hastigheten det leses i.

Sanette Tanaka, produktdesigner i Vox Media

Nettmagasinet Slate har også en portefølje med podcaster, og er dermed ikke ukjent med lydproduksjon. De har nå kastet seg på Amazon Echo.

Der lager de egen oppdatering tilpasset Echo kalt «90 seconds with Slate» – en kort nyhetsoversikt, lest opp av en programleder.

Datastemmene er foreløpig ikke gode nok i dag, men kanskje vil medier basert på tale bli mer vanlige i framtiden. Kombinert med en allestedsnærværende mobil og kunstig intelligens, kan kanskje dette bli dagligdags om få år.

Dette er bare noen eksempler vi har sett i det siste. Har dere sett noen andre måter nyheter gjøres mer tilgjengelig?

12 kommentarer

  1. Syntetisk tale har lang historie. For tjue år siden hadde jeg en datter som hadde stor moro av å skrive hunmoristiske historier for sine venner der humoren stort sett var basert på hvordan de klarte å lure leseprogrammet til å fullstendig misforstå hvordan ordene skulle uttales. Noe var svakheter som er blitt rettet opp i nyere programmer («Jeg har pizza i fryseren» blir riktig i dagens systemer – det ble det ikke for tjue år siden), men noen problemer langt verre å lsese. «Hva koster koster på Koster?» Er det sand og skitt, eller er det fra hundre kroner og oppover?

    Å bestemme rett uttale er helt avhengig av en korrekt semantisk forståelse av teksten. Dette er er nært beslektet med automatisk oversettelse, som vi jo vet hvor «vellykket» kan være, særlig mellom språk med fulllstendig ulik grammatikk. En av de klassiske eksemplene er følgende sekvens av setninger:

    You are right.
    I am left.
    She is (?).

    Selv om vi gir konteksten: Uttalelsen faller på en tennisbane, med et halvt dusin mennesker som tydeligvis bare har det moro. Men hvis det siste ordet er ‘gone’, da er det en betroelse: «Du har rett. Jeg er forlatt. Hun har reist.» Avsluttes tredje setning med ‘in the middle’, da får de to første setningene fullstendig annen betydning – da er det å organisere tre par i en trippel på tennisbanen: «Du går til venstre, jeg til høyre, og hun går i midten.»

    For å ta en egenopplevd: Da jeg var i tenårene kjente jeg til steel-gitarer. På et plateomslag var musikerne listet opp, med en som spilte bly-gitar, «lead guitar», og jeg tok det som en humoristisk betegnelse på tung bassgitar. Da jeg påpekte humoren for mine venner trodde de at det var en spøk fra min side, de oppdaget slett ikke at jeg hadde feil-lest ordet og genuint misforstått. Du skal gjøre grundig semantisk analyse om du skal være 100% på å få riktig uttale av «lead».

    Engelsk er vanskelig nok: Gi meg et leseprogram som fikser http://pauillac.inria.fr/~xleroy/stuff/english-pronunciation.html uten feil – den velkjente «English is tough stuff» (om det er trøbbel med denne linken, gir et søk på titteen drøssevis av andre steder der den finnes). Selvsagt kan du, slik massevis av mennesker har gjort, skrive teksten i IPA fonetisk alfabet – men det å omskrive til IPA all tekst som skal leses opp krever flerdobbelt så mye tid som bare å lese det opp, gjøre et opptak som å kan brukes for avspilling.

    Norsk har et alvorlig tilleggsproblem: Tostavelses tonelag. Så lenge skrivemåten er ulik («bønder som dyrker bønner») er det greit å bestemme uttalen, ihverfall med en uttaleordbok, men hva med «hunder som biter i biter av kjøtt»? «Jeg vannet blomstene med vannet i bøtta». «Det første kastet gikk bra, da kastet jeg spydet 67 meter».

    Navn er et annet problem: Ofte kan de uttales ulikt for ulike personer. Kaller Paul seg for Pål, eller med diftong? Jeg har aldri møtt noen som skriver Kjetil og uttaler det Ketil, men mange som skriver Ketil uttaler det Kjetil. Så har du slekta i Nord-Trøndelag som antagelig lagt tilbake het Hovmo (en mo der man hadde et gudehov, et sted for religiøs tilbedelse i norrøn tid), men i dag har har v-en forsvunnet. Uttalen er fortsatt to-stavelses, som i hov-mo, men det skrives Homo, som jo ofte uttales med trykk på første stavelse.

    Det er i og for seg helt kurant at også «vanlige folk», ikke bare de med synshemminger, får mer allmen tilgang til syntetisk tale. Det vil kanskje også bidra til gi litt større forståelse for de problemene de synshemmede har opplevd i 20-30 år med uttale-problemer i samme klasse som det vi nå river oss i håret over når vi får Google Translate-oversatte brukerveiledninger for asiatiske produkter :-).

    Min erfaring med synshemmede er at de jamnt over har langt mer overbærenhet med totale skivebom i uttale enn det vi andre har med totale skivebom i oversettelser. Nå får vi se om vi synes det er greit å høre folk fortelle at de har pissa i fryseren og at noen nordtrøndere som presenterer seg ved etternavn kommer ut av skapet helt uten å mene det.

    Svar på denne kommentaren

  2. Et meget interessant felt.
    Jeg har i snart ti år brukt lydbøker så og si daglig mens jeg kjører bil, gjør husarbeid eller koser meg med min hobby, maling. Aldri et problem med å følge med.
    Siste året har jeg gjort om mone bøker på Kindel til lydbøker ved hjelp av TeztAloud. Legger de i iTunes som mp3 med metadata så iTunes husker hvor jeg sluttet sist.
    Litt riktig det med rettlinjet framføring. Det oppleves bedre å lytte til forderag som f.eks. Great Courses kjøpt via Audibel enn en ren lydbok, men det har mer med struktur og framføring enn selve lydbildet. Disse foredragene er ikke tatt opp med publikum til stede.
    Takk til dere i NRKbeta for arbeidet med ny teknologi.
    Og lyd er effektiv kommunikasjon. Ikke vanskelig å lytte til lydbok i 1.25 hastighet, og kan du be telefonen ringe opp en person for deg, kan du sikkert be den gjenta et avsnitt også.
    Vennlig hilsen

    Svar på denne kommentaren

    • 🙂

      Det er jo ikke forbudt å finne opp jula på nytt. Freia og Nidar gjør det jo i oktober, og så kommer de andre med sin jul de neste tre måneder.

      Men: Radio er en fin ting – men det finnes alternativer. Da en slektning av meg ble pensjonist rundt 1990 tok hun på seg jobben med å lese inn lokalavisa. Den ble masse-duplisert på kompaktkassetter og sendt ut med det ordinære avisbudet. Mange eldre sin ikke lenger hadde godt nok syn til å lese papirutgaven satte særlig stor pris på å høre lokalavisa lest opp på den lokale dialekten, av en person som hadde bodd i byen hele sitt liv og snakket dialekten naturlig og uanstrengt.

      I dag kunne naturligvis avisa Agder søkt om en lokalradio-lisens; det var lite aktuelt i 1990. CC-mediet hadde fordeler ved å gi avisleserne frihet til å lese/lytte når det passer dem selv.

      For de som sier: Kan man ikke bruke en app? eller laste ned postcasts til PCen? Jo, det kan man, også som synshemmet. Det er lett å teste ut: Slå av PC eller mobil fullstendig. Start så med å smøre inn brillene dine med et tjukt lag vaselin, på begge sider av glasset. (Hvis du ikke bruker briller, finn et par solbriller.) Sett brillene på nesa og start opp mobilien eller logg inn på PCen, vel å merke uten å kikke utenfor brillekanten. Finn fram til podcasten du vil høre, last den ned og spill den av.

      Vil du teste ut hvordan det er å være helt blind, smører du ikke inn brilleglassene. Du bare slår av strømmen til skjermen, eller legger en tett duk eller et håndkle over smarttelefonen før du slår på strømmen og logger inn.

      Hvis du har en gammel kassetspiller med mekaniske betjeningsknapper kan du hente en kassett i postkassa, stikke den inn i spilleren og starte avspilling. Det er ikke sikkert det var så veldig mye mer problematisk enn å laste ned podcasten. Kanskje tvert om.

      Svar på denne kommentaren

      • Det er derfor Telefonavisa til Blindeforbundet er basert på bruk av Telefon, det er et verktøy alle kan bruke – ikke minst eldre.
        I dag kan man tenke seg en APP der en kan si:
        «Les opp VG NETT» – det vil fungere greit selv med vaselin og solbriller.

        Svar på denne kommentaren

        • Man kan naturligvis ikke protestere på at det er mulig å tenke seg framtidige apper som ikke finnes i dag. Mange apper bruker mikrofonen, og bare vokabularet er lite nok er talegjenkjenning rimelig pålitelig.

          La oss likevel ikke være helt app-frelste. Hvis vi en gang møtes kan du få smøre på vaselin på brilleglassene, så skal du få prøve min mobil – helt fra avslått tilstand, med inntasting av PIN-kode etc. Du skal få finne appen på skjermen – i mangel av denne fremtidsapplikasjonen kan vi f.eks. bruke NRKs radio-app, og du kan finne fram til mP3.

          Ja, bare du får noen andre til å starte mobilen for deg, og du har garanti for at ingenting kan forflytte ikonene på skjermen, da kan du lære deg at NRK-appen ligger to fingerbredder ned og en fingerbredde inn fra høyre kant. Og at mP3 er det fjerde innslaget i lista.

          Men taktil input (og feedback) er ekstremt mye enklere når du er synshemmet.

          Dessuten skal vi ikke glemme at over 70% av synshemmede i Norge har tilleggshandicap, ofte av motorisk karakter. Selv med taktil input kan det være nødvendig med f.eks. en hullplate over tastaturet, for å hjelpe en skjelvende finger til å treffe rett tast, og ikke den ved siden av. Andre har kognitive svekkelser, og er ute av stand til å huske kompliserte fremgangsmåter, særlig hvis de ikke har noen taktile ‘knagger’ å henge operasjonene på. (Skal du ‘simulere’ motoriske problemer er tjukke strikkevanter på hendene når du betjener mobilen et godt triks. Eller å sitte i ti minutter på et kjølelager i 25 kuldegrader uten noe på hendene, og uten å stikke hendene i lommene, før du begynner å betjene mobilen.)

          Mobilen abstraherer mye som tidligere var konkret, og erstatter praktisk talt alt taktilt med visuelt. Til dels erstattes også lyd med visuelle tegn, eller de bortfaller: På kassettspilleren hørte du når lokket kneppet riktig på plass. Du kjente det hvis kassetten ble satt skjevt inn.

          Smarttelefonen slik vi ser den i dag er absolutt ikke noe framskritt for sterkt svaksynte og blinde. Om vi prøver å redde noen stumper ved å utvikle en og annen app, er det fortsatt som nødløsninger å betrakte.

          Vi hadde tilsvarende da PCene gikk over fra tekst-basert DOS til grafisk Windows. Det ble snekret mange halvdårlige nødløsninger, og i mange år foretrakk synshemmede å bruke DOS-programmer. Blant de mer avanserte ble Linux populær nettopp fordi Linux er ganske svak på gode grafiske applikasjoner; det meste er tekst-basert.

          DOS forsvant. Kompaktkassetter forsvant. Vi må bare leve med det. Men skal vi påstå at det vi lager reelt er praktisk og nyttig for synshemmede (eller andre funksjonshemmede), da bør vi kunne stille opp med en demo der minst tre personer med ulike former for sterke syns-handicap viser hvordan de helt på egen hånd (uten assistent-hjelp) benytter disse systemene, og hva de får dem til å gjøre for seg.

          Da kan man ikke f.eks. i Windows-programmet ha en ørliten trykknapp i øvre venstre hjørne med en tekst i 6 punkts skrift som forteller at «Har du behov for større skrift, klikk med musa på knappen». Ja, jeg har sett akkurat det! Og mange som er nesten like parodiske.

          «The proof of the pudding is the eating». Det er ikke nok at vi seende sier at vi har laget noe spesielt egnet for synshemmede, det er at de synshemmede selv strømmer til i flokk: «Dette var jo kjempeflott! Nå får jeg gjort alt jeg ønsker, uten problemer!»

          Det er dessverre ikke tilfelle med så mye av det vi gjør, spesielt det vi IT-folk lager. Titusenvis av programmerere har lest veiledninger om hvordan programmene skal gjøres egnet for synshemmede. Spør du om sammensettingen av testpanelet som ble brukt, skjønner de ikke hva du mener. De finner fram en avkryssings-liste som viser at 22 av 24 regler er fulgt, og de to siste kommer snart. Når reglene er fulgt, er det ikke behov for test-panel. Jeg har aldri i hele mitt yrkesaktive liv som programutvikler sett eller hørt om PC-applikasjoner (eller apper) utviklet for et generelt marked, som før release har blitt testet av bredt panel funksjonshemmede! (Spesialutvilket/tilpasset programvare faller naturligvis utenfor.)

          Mobilappen for å lese opp VG Nett overbeviser meg den dagen tre ulike sterkt synshemmede demonstrrer hvor lett det er å starte appen og finne fram i informasjonen, og forklare meg hvorfor det er en bedre løsing enn andre løsninger.

          Svar på denne kommentaren

          • Jeg har jobbet med mange blinde og sterkt svaksynte. Mange navigerer raskere enn jeg gjør. Det er fordi de har spesialutviklede løsninger (JAWS) som sammen med innebygget talesyntese og tastatur med blindeskrift gjør dette mulig.

            Uttale av en og ett kan lett ordnes.

            Svar på denne kommentaren

  3. Telefonavisa (80058600) ble lansert for 12 år siden. Løsningen er enestående i verden og brukerne kan browse gjennom 23 internettaviser samt en del annet stoff, eksempelvis Medisintelefonen som leser opp pakningsvedlegg. Det er alltid en utfordring å lage en god navigasjonsprosess, men erfaringen er at etter å ha brukt tjenesten en gang – så har få problemer med navigasjonen.

    Vi (VoiceASP AS) lanserte også for tre år siden en podcast tjeneste kalt Voice_feedcaster som kan ta enhver internett avis og gjøre den om til en podcast. Det kan tyde på at den lanseringen var for tidlig ute. Det å kunne lytte til ferske nyheter i bilen på vei til jobb via podcast – gjerne tilknyttet bilens radioanlegg – er veien å gå. Om et og annnet ord leses feil er uproblematisk.

    ca 300 kommuner og offentlige organisasjoner benytter opplesing av sine nettsider med syntetisk tale – det kommer forbausende få kommentarer tilbake om ord som leses feil. Feillesing kan raskt rettes opp dersom det er et ord som er gjenganger i nyhetsbildet. Et eksempel er Al Gore som var aktuell for noen år siden.

    Svar på denne kommentaren

    • Først må det understrekes: Syntetisk tale har blitt langt bedre med årene. Det har maskinell oversetting også. Men når du kjøper et asiatisk produkt med google-oversatt bruksanvisning, hvor ofte gidder du klage? De aller fleste synshemmede jeg har møtt er svært pragmatiske: Bare meningen kommer frem, er det nok. Klagingen kommer først når det blir uforståelig.

      At «feillesing kan raskt rettes opp» er en sannhet med modifikasjoner (eller mortikfikasjoner?). Rett uttale avhenger både av grundig semantisk analyse og kontekst-analyse. Sett f.eks. at en arbeider blir intervjuet:

      – Hva arbeider du med her?
      – Jeg lager bordene.

      Uttalen av «bordene» er avhengig av om intervjuet foregår i ei systue eller på et snekkerverksted. Verken syntaktisk eller semantisk tekst-analyse vil gi noe hint; taleprogrammet må fortså konteksten fullt ut, og ut fra den forstå om det er snakk om en bord eller et bord. Og det må kunne forstå når vi snakker om et helt bord med en dekorativ bord i lysere tre, felt ned langs kanten av bordet, og gi ulik uttale til de to bordene. Feil tolking her er ikke noe du raskt retter opp i taleprogrammet.

      Lytteren, dvs. den synshemmede, sitter som regel med en forståelse av både kontekst og semantikk. Kanskje lytterne irriterer seg over feil uttale omtrent på det nivået jeg irriterer meg når jeg ser og/å-feil, dvs. trekker litt hoderystende på skuldrene og tenker: Har de ikke lært seg det, enda? Men rapportere det? Nei.

      Jeg kjenner ikke Telefonavisa, men det høres ut som et svært interessant tilbud for synshemmede. Og nettopp fordi brukerene er såpass tolerante og vant med å ignorere feil, vil jeg tro at den har stor betydning for mange brukere. Men få klager er ikke noe bevis på at kvaliteten er god nok hvis du har andre alternativer – hvis du har normalt syn.

      (En kjapp to-minutters test av Telefonavisa: Den vet f.eks. når tallet 1 skal leses ‘en’ eller ‘ett’. Meningen kommer selvsagt frem, og få om noen synshemmede gidder å reagere. Men som normalt seende betrakter jeg det som en nødløsning i mangel av en oppleser som unngår slike feil.)

      Svar på denne kommentaren

  4. Hanna Beitrusten

    Norsk lyd- og blindeskriftsbibliotek (NLB)produserer i dag 48 lydaviser med egen talesyntese. dette er ett tilbud til alle som har problemer med å lese trykt tekst. Aftenposten, Fædrelandsvennen, Bergens Tidende og Stavanger Aftenblad er aviser vi har hatt en stund, og som har best kvalitet. De andre avisene er regional- og lokalaviser som vi forløbig har varierende kvalitet på. Vi jobber stadig med å få bedre kvalitet på vårt tilbud, og håper at både kvaliteten og kvantiteten blir beder etterhvert.

    Svar på denne kommentaren

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *

Betalest