Il linguaggio macchina: come Siri raccoglie la vostra voce?
Makradar Della Tecnologia / / December 19, 2019
Google, Apple, Microsoft, e anche Amazon stanno attivamente sviluppando i loro servizi voce. Appena sfornato su iOS 7 è lo stesso Siri, solo nuove funzioni e... voce. Ti chiedi come è questo processo? Come i computer sono insegnate discorso? questo vera arte.
Per ciascuna delle voci Siri - il vostro attore. Una volta completato il suo ruolo nell'articolazione, il lavoro è appena iniziato... La voce dell'uomo continua il suo viaggio. La storia di questo viaggio, sia di uomo e robot - uno dei maggior parte dei processi tecnologici complessi, che non poteva essere effettuata anni dieci fa.
È tempo di familiarizzare con il direttore di progettazione e sviluppo di voce Nuance, è una delle più grandi società indipendenti in tutto il mondo che si occupano di riconoscimento vocale e text to speech. Brant Ward (J. Brant Ward) usato per essere un compositore, comporre il partito per quartetto d'archi di sintetizzatori, e ora si compone utilizzando voci sintetiche. Lavora nel settore della sintesi vocale nella Silicon Valley per oltre un decennio.
Text to Speech - un settore molto competitivo, ed i suoi dipendenti è molto riservato. Anche se il mondo e ritiene che Nuance crea la voce di Siri per, Ward e il suo collega David Vasquez (David Vazquez) evitare una risposta diretta. Tuttavia, hanno deciso di spiegare, almeno in termini generali, come il processo di creazione di una macchina stupefacente voti.
Inutile dire che, non c'è bisogno di articolare e scrivere ogni parola dal dizionario. Ma quando si tratta di l'applicazione, che dovrebbe essere legge le notizie nella tua newsletter, o trovare qualcosa per voi su Internet, è semplicemente obbligato a parlare ogni parola nel dizionario.
La maggior parte delle proposte sono selezionati su una "fonetica ricchezza" - cioè, essi contengono molte combinazioni diverse di fonemi. "Il fatto è, più i dati che abbiamo, il più realistico il risultato sarà," - dice Ward.
Dopo che il testo viene registrato doppiatore dal vivo (un processo noioso che può richiedere diversi mesi), molto duro lavoro inizia. Le parole e le frasi vengono analizzati, divisi per categorie e registrato in un database di grandi dimensioni. In questo complesso lavoro ha coinvolto un team di linguisti dedicati, così come utilizzare il proprio software di linguistica.
Quando tutto questo è fatto, l'unità di Nuance per tradurre il testo in parlato crea parole bit e frasi che l'attore può Non ho mai realmente pronunciato, ma suona molto simile al discorso dell'attore, perché tecnicamente è la voce attore.
Processo parlare è inconscia. Lo facciamo senza pensare a come si verifica questo processo: la situazione in cui è la nostra lingua, che i rapporti sono costruiti tra fonemi, e così via - in modo semplice ed efficace esprimere idee complesse e emozioni. Ma in modo che il computer raccolse il suono delle voci umane, tutti questi fattori devono essere presi in considerazione. Come un professore di linguistica, è il compito di "Titanic".
Non si deve pensare: "Sto parlando a un computer." In genere non c'è bisogno di pensarci.
"I miei figli interagiscono con dei Siri, come se fosse un essere vivente... Non sentono la differenza," - dice Ward.
Finora, e per l'amicizia tra umani e robot - come gli esseri umani. Molte persone vorrebbero se Siri in grado di riconoscere lo stato emotivo del parlante, e in qualche modo reagire ad essa (per esempio, includere una modalità voce calmante). Imagine - di parlare con il robot, che è moralmente si pacca sulla testa. Forse, Nuance sta già pensando a questo proposito ...