nrk.no

Ufrivillig komisk og konspiratorisk oversettelse hos YouTube

Kategorier: Forskning & Moro


Selv om Google har blitt store og voksne klarer de å beholde litt eksperimentkultur. Og noen ganger deler de eksperimentene med oss brukere i form av tidlige tester som de lar oss ta del i.

Fotografen Philip Bloom snakker om terrorisme. Eller?

Mange kjenner Google Translate. Som sakte men sikkert blir bedre, men fremdeles har en vei å gå spesielt mot små språk som norsk.

Men visste dere at dere kan få automatisk teksting på YouTube-videoer? Google har et eksperiment gående der de bruker datamaskiner til å tyde det som blir sagt. Ordene blir så lagt på som «closed captions». Du kan aktivere funksjonen ved å klikke på det lille «cc»-ikonet som du finner under enkelte videoer på YouTube.

Velg så «transcribe audio» og takk høflig ja til meldingen om at dette er en eksperimentell tjeneste. Du skjønner fort at de har rett.

Jeg testet funksjonen på vårt intervju med fotografen Philip Bloom. Den automatiske oversettelsen er av og til ganske imponerende, men ofte temmelig langt fra det han sier. Og til tider bare komisk.

Men det slutter ikke der. Nå kan du aktivere den automatiske oversettelsen av teksten slik at du får den på norsk. Tilbake i «cc»-menyen velger du «translate captions» og norsk som språk. Da begynner det å bli skikkelig informativt.

Teksten blir nå stort sett bare ganske hjelpeløs. Men siden enkelte ord treffer, blir den likevel morsommere enn en rent tilfeldig samling ord.

Men etter å ha sett litt på Philip Bloom med automatisk norsk oversettelse begynte jeg å lure på hvilken ordbok det er Google bruker. Bloom snakker om fotografering i intervjuet. Mens oversettelsen så ut til å tvinge ham inn på et rent politisk spor.

Det ble forbausende kort mellom ord som «terrorist», «president», «Hamas», «Boris Jeltsin», «saudiarabere» og andre utenrikspolitiske vendinger. Det kan virke som om Bloom blir matet med manuskriptene til en samling taler fra George W. Bush.

Uansett hvor mye Philip Bloom prøver å snakke om kamera og foto blander oversetteren inn politi og dramatikk.

Og for de av dere som ikke gidder å klikke dere hele veien inn i YouTube og slå på «cc» får dere her en liten smakebit. Philip Bloom med automatisk norsk teksting.

Er det egentlig det store hvite huset som styrer YouTube? Eller er denne oversettelsen bare dønn ærlig og viser oss hva Philip Bloom egentlig sier? Ikke godt å si. Her er det åpent for konspirasjonsteorier!

Forøvrig: Når det gjelder automatisk oversettelse er vi fremdeles imponerte over applikasjonen Word Lens.

16 kommentarer

  1. Jeg tipper Google prøver å lage automatisk oversettelse ved å sammenlikne dokumenter som er oversatt manuelt. Hvis en (del-)setning er oversatt på en måte mange ganger, er det sannsynlig at den skal oversettes på samme måte neste gang også.

    Så hvor får man en stor samling dokumenter som er oversatt til flere språk, og som kan brukes vederlagsfritt? FN, EU og liknende organisasjoner, og der skriver de mye om politikk. 🙂

    Svar på denne kommentaren

    • Kevin Brubeck Unhammer (svar til Simen)

      Korrekt. For dei fleste språk i Europa har ein t.d. det fantastiske EuroParl-korpuset av EU-omsetjingar. Norsk er sjølvsagt ikkje representert der, men det finst mange liknande kjelder.

      Vel, Google nyttar statistisk maskinomsetjing, så det er ikkje akkurat delsetningar det er snakk om, men N-gram. N-gram er grupper av opptil N (t.d. N=3) ord som kjem etter kvarandre (utan ord imellom) i tekster. Med ein stor haug ferdig omsett tekst kan ein byggje opp ein tabell med sannsynlege par av N-gram, i tillegg til sjansen for at to N-gram kjem til å bytte plass i ei omsetjing, osb.

      Med låg N kan ein generalisere til uttrykk som ein ikkje har sett før sjølv med svært lite data, men det blir ofte feil. Høgare N krev meir data (og mykje meir datakraft), men det blir altså vanskelegare å generalisere, sidan uttrykka ein matcher på er lengre.

      Google nyttar altså ikkje ordboksinformasjon, i motsetning til regelbaserte maskinomsetjingssystem som Apertium, GramTrans osb. (regelbaserte system gir generelt oftare korrekt omsetjing, medan statistiske, som Google eller Moses, oftare gir omsetjing som høyrest meir flytande ut). Ein mellomting er eksempelbasert maskinomsetjing, t.d. OpenMaTrEx, som matchar på delsetningar i tidlegare omsett tekst, men i tillegg har ein del «reglar». Og så har ein hybridar, og…eh, det er eit stort felt…

  2. Det er ganske tydelig at Google har «lært norsk» av de norske nettavisene. De representerer mye av det indekserte norske innholdet på nett. Du ser det på formuleringene og ordvalget at det er nyhetssaker som blir brutt opp og brukt til å forstå innholdet.

    Med andre ord trenger vi flere norske bloggere og Wikipedia artikler om dagligdagse thing! Feed the Google … .

    Svar på denne kommentaren

  3. Børge A. Roum

    Jeg vil si at Universal Subtitles er et mye bedre opplegg! Det er et Friprog-system for å la frivillige sammarbeide om å tekste og oversette undertekster på alle videoer på nett[1], uansett om de ligger på YouTube eller en annen video-tjeneste, eller direkte på en privat server.

    Håper dere vil skrive om dette en gang, for det er virkelig et fantastisk og viktig arbeid!

    De har også en bitteliten kodesnutt man kan legge inn på nettsida si for å automatisk slå på Universal Subtitles på alle videoer som er embeded på sida. Det hadde vært veldig kult om NRKbeta la inn dette!

    [1] Dette er ikke helt sannt ennå, men de jobber med saken.

    Svar på denne kommentaren

    • Eirik Solheim (NRK) (svar til Børge A. Roum)

      Grunnen til at jeg rotet meg frem til YouTubes auto-oversetting var at jeg sitter og tester Universal Subtitles. Så du vil nok kunne lese om det her på NRKbeta om ikke så veldig lenge. 🙂

  4. Tekno episode 3 – Med blant annet sensorer i kroppen og direkte oversettelse av telefonsamtaler

    […] Som en liten fotnote kan dere jo også ta en titt på automatisk oversettelse som ikke fungerer så bra. […]

    Svar på denne kommentaren

Legg igjen en kommentar til Oledoledoff Avbryt svar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *. Les vår personvernserklæring for informasjon om hvilke data vi lagrer om deg som kommenterer.