GAudi er nok et skritt mot å fullbyrde Googles visjon om å gjøre  all informasjonen i verden universelt tilgjengelig og nyttig.

Hvordan fungerer Google Audio search?

Før valget i USA i 2008 analyserte Google politiske taler på YouTube ved hjelp av stemmegjenkjenningsteknologi. Denne teknologien  har nå modnet og lanseres som GAudi (må ikke forveksles med arkitekten). Du finner GAudi blant mange andre spennende tjenester på Google Labs.

Målet med Google Audio Indexing er i første omgang å gjøre det enklere for folk å søke i video og lydinnhold på YouTube. Tjenesten bruker stemmegjenkjenningsteknologi for å identifisere ord som sies i videoklipp. Du kan bruke tjenesten til å finne videoer der enkelte ord benyttes. Deretter kan du fortsette å søke seg frem til stedet i videoen der ordet blir brukt.

Tjenesten bærer preg av å være under utvikling og det oppstår en del morsomme feil.  I videoen «Barack Obama on the 40th Anniversary of the Prague Spring«, forveksles ordet «Czechoslovakia» med «tech also out there», og ordet «free» tolkes som «forty».

GAudi analyserer i første omgang kun lyd fra politikerkanalen på YouTube fordi politiske taler ofte er tydelig og enklere for stemmegjenkjenningsprogrammene å analysere. Etterhvert som teknologien modnes forventes det at Google vil analysere og indeksere alt audio- og videoinnhold på internett.

Istedenfor å fokusere på feilene i GAudi ser vi med spenning på hvordan Google kan dra nytte av teknologien, både til å gjøre det enklere for folk å finne informasjon, men også hvordan de tenker å tjene penger på det. Stemmegjenkjenningsteknologien gir Google mulighet til å indeksere alt fra musikk til nyhetsprogrammer. Etterhvert som mengden video- og lydinnhold på nett vokser, øker også behovet etter denne typen teknologi.

Stemmegjenkjenning i framtiden

Google voice

Google benytter stemmegjenkjenning i den nye tjenesten Google Voice (kun for spesielt inviterte) . Tjenesten gir Google mulighet til å analysere telefonsvarermeldinger, oversette dem til tekst, og sende dem til deg på SMS eller e-post. Dette kan være praktisk for privatpersoner, såvel bedrifter som mottar mange telefoner.

Studenter kommer også til ha stor nytte av stemmegjenkjenning i framtiden. Universiteter og høyskoler har allerede begynt å filme forelesninger og gjøre dem tilgjengelig på iTunes og internett. Ved hjelp av stemmegjenkjenning kan studenter nå søke gjennom forelesningene etter nøkkeltemaer. Dette vil spare både tid og øke kvaliteten på utdanningen.

Rettsvesenet burde også kunne dra nytte av teknologien. Hvis stemmegjenkjenning blir enda bedre, så vil alt som sies i en rettssal kunne dokumenteres og gjøres søkbart. Bedrifter kan spare tid og penger ved at alt som sies på konferanser, instruksjonvideoer og videomøter vil kunne indekseres og gjøres søkebart. Dette kan bidra til å redusere misforståelser og forbedre internkommunikasjonen. En muntlig avtale kan i fremtiden automatisk bli en skriftlig avtale!

Hvis Google klarer å indeksere alt lydinnhold på samme måte som de  indekserer all tekst på internett, vil det åpne seg nye muligheter for innovative webapplikasjoner hvis Google velger å gi utviklere API-tilgang til lydindeksene. Jeg utfordrer herved utviklere til å komme med applikasjons ideer knyttet til stemmegjenkjenning!

Hva kan stoppe Google?

Muligheten til å søke i lydinnhold setter tankene og kreativiteten i sving. Bruksområdene er mange og det eneste som kan sette en stopper for Googles planer er som vanlig opphavsrett og integritet. Konspirasjonsteoretikere vil muligens se på GAudi som enda et forsøk på å få kontroll på all informasjon på internet. De store plateselskapene og TV-selskapene kommer helt sikkert til å nekte Google adgang til sine musikk- og nyhetsdatabaser inntil de har sikret seg en del av inntektspotensialet.

Det finns som sagt en del etiske problem med å gjøre alt lydinnhold søkebart på internett.

Hvis man drar det ekstra langt, så kan det tenkes at teknologien brukes til å registrere alt som sies via Skype, IP-telefoni, videochatter på Messenger eller analysere mobilsamtaler, for så å legge ut innholdet i søkeresultatene til Google. Scenarioet er skremmende og tankene går til «storebror ser deg»  samfunnet som beskrives i Orwells bok 1984.

Hvordan stiller du deg til at Google indekserer dine private videoer og samtaler? Tekst og bilder som du legger ut på nettet er allerede søkebart. Kommer lydsøk til å gå utover privatlivets freden? Spørsmålet er hvor grensen går. Enn så lenge er det bare politikere som påvirkes!

Referanser

Gaudi: Google Audio Indexing

Google Audio Indexing by Alex Chitu

Google Audio Indexing: Keyword Searches for Political Videos by Frederic Lardinois