Microsoft har utviklet VALL-E – en tekst-til-tale AI-modell som etterligner enhver stemme bare ved å lytte til et lydeksempel på 3 sekunder.
Før du leser videre, vil jeg gjøre det klart at VAL-E er forskjellig fra WALL-E. Selv om noen av oss ville uttale begge ordene nøyaktig likt, er det mye forskjell mellom de to. WALL-E er en Disney-Pixar-animasjon utgitt i 2008, som inkluderte en søt og vennlig AI-robot.AI-faktoren er faktisk en likhet mellom VALL-E og WALL- E.
Hva vet vi om VALL-E?
I tekniske termer kaller Microsoft VALL-E for en "Neural Codec Language Model". På et enklere språk er VAL-E en AI-modell som kan generere lyd fra tekstinndata, samt etterligne stemmen til alle lydeksempler. Ved å høre en stemmeprøve så kort som tre sekunder, kan den imitere hvilken som helst stemme. VALL-E er ennå ikke allment tilgjengelig for allmennheten. Det kan ikke bare passe til stemmen, men også stemningen og akustikken i rommet. Det er moralske problemer med det, til tross for at det kan brukes på mange nyttige måter.
Opplæringsmodeller –
Forskere hevder å ha trent VALL-E på 60 000 timer med engelskspråklige, sammenlignet med 7000+ personer på Metas LibriLight-lydbibliotek. Stemmen til målhøyttaleren må likne treningsdataene for å kunne etterlignes. På denne måten kan almen bruke sin 'trening' til å forsøke og imitere den målrettede høyttalerens stemme.
Imiter følelser –
Det bør understrekes at Al-modellen kan simulere akustikken i rommet så vel som høyttalerens emosjonelle tone i tillegg til tonehøyde, skall og tekstur. Derfor vil VALL-E etterligne målstemmen som om den har en forstyrrelse hvis målstemmen har en.
I henhold til Microsofts forskningsteam, "Funnene av eksperimentene viser at VALL-E yter mye bedre når det gjelder talenaturlighet og høyttalerlikhet enn det mest avanserte zero-shot TTS-systemet. I tillegg oppdager vi at VALL-E kan opprettholde høyttalerens følelser og den akustiske konteksten til den akustiske prompten under syntese ".
Trusler –
The Al modellen kan brukes på robotikk, medieproduksjon og tilpassede tekst-til-tale-applikasjoner. Men hvis det brukes feil, kan det utgjøre en trussel. Virksomheten advarte at modellen kan misbrukes til å etterligne eller forfalske stemmeidentifikasjon fordi VALL-E kunne syntetisere tale samtidig som høyttaleridentiteten opprettholdes.
VALL-E kan for eksempel brukes til å generere spam-anrop som ser ut til å være legitime for å lure folk. Politikere eller noen med en respektabel sosial tilstedeværelse er også utsatt for etterligning, som demonstrert av bløff. Trusler kan komme til brukere som bruker programmer som trenger talekommandoer eller stemmepassord. Videre kan stemmeskuespillernes jobber elimineres av VALL-E.
Etisk posisjon –
I tillegg kommer virksomheten inkluderer en uttalelse om etikk som lyder: "Forsøkene i dette arbeidet ble utført under forutsetningen om at brukeren av modellen er måltaleren og har blitt akseptert av foredragsholderen." Protokollen for å sikre at foredragsholderen godtar å utføre endringen og systemet for å oppdage den modifiserte talen, bør inkluderes i stemmeredigeringsmodeller, heter det, når modellen er generalisert til alle høyttalere.
Hvordan er VALL -E forskjellig fra DALL-E?
DALL-E er en OpenAI-skapt maskinlæringsmodell som genererer grafikk fra tekstbeskrivelser. Forespørsler brukes til å beskrive disse tekst-til-bilde-beskrivelsene. Bare en beskrivelse av scenen er nok for at algoritmen skal produsere realistiske bilder. DALL-E er en nevrale nettverksteknikk som bygger presise bilder fra brukerangitte korte ord. Den lærer språk ved å bruke tekstlige beskrivelser og ved å "lære" data som brukere og utviklere har bidratt med til datasettene.
Hva synes du om VAL-E?Vi håper nå at du vet alt om VALL-E (tekst til lyd) sammenlignet med DALL-E (tekst til bilde). Det er ingen bestemt dato for når VALL-E vil være tilgjengelig for tilgang til og tatt i bruk av allmennheten. Når det gjelder DALL-E, er den allerede gjort tilgjengelig for alle.
Vennligst gi oss beskjed i kommentarene nedenfor hvis du har spørsmål eller anbefalinger. Vi vil gjerne gi deg en løsning. Vi publiserer ofte råd, triks og løsninger på vanlige teknologirelaterte problemer. Du kan også finne oss på Facebook, Twitter, YouTube, Instagram, Flipboard og Pinterest.
Les: 0