La tecnologia si sviluppa per risolvere
un problema, per attenuarne un altro, o per migliorare la qualità della vita.
Lo so, è una visione un po’ troppo idealizzata, dato che molte applicazioni per
noi comuni mortali, se non derivano dalla ricerca spaziale, giungono
direttamente da chi progetta strumenti di morte. Molte volte però ci interessa quanto
essa si posso avvicinare al nostro modo di interagire con il mondo che ci
circonda. Essere user-friendly,
insomma, come dicono gli amanti del british.
Dunque, una tecnologia che coinvolga i nostri sensi. Ad esempio l’udito.
La voce artificiale o sintetizzata fa ormai
parte di una vasta gamma di oggetti alla nostra portata, non solo computer e
smartphone, ma anche automobili e giocattoli, così come alcune famiglie di
robot casalinghi. La sintesi vocale è creata in diversi modi, tra i quali le
tecniche di più alta qualità si basano su una voce umana che viene utilizzata
per generare un database di parole e piccole frasi del discorso parlato, con
differenti toni ed espressioni. Un doppiatore può spendere da decine a
centinaia di ore per registrare un database. Dipende però anche dalla categoria
di prodotti ai quali è destinata: per gli sviluppatori di giocattoli
digitali gli errori di pronuncia o simili non sono determinanti, poiché
l'obiettivo è quello di intrattenere, anzi potrebbero essere un plus e fare
ridere gli utenti.
Tuttavia, per le voci che hanno lo scopo
di collaborare con gli esseri umani in situazioni pratiche e diventare un
importante ausilio, le sfide sono più sottili. E’ questo il motivo per cui una
nuova scienza del design sta emergendo per definire e realizzare quelli che
vengono chiamati "agenti di conversazione", software che comprendono
il linguaggio naturale e possono rispondere, mostrando una certa intelligenza,
a comandi vocali umani. Ma al momento non è possibile creare una voce
computerizzata indistinguibile da quella umana, se ci si riferisce a dialoghi
che vanno oltre le indicazioni stradali.
Al di là della pronuncia corretta, è anche necessario individuare correttamente
qualità tipicamente umane come l'inflessione e l'emozione nella voce. I
linguisti chiamano questo tema "prosodia", la possibilità di
aggiungere correttamente stress, intonazione o forme di sentimento nella lingua
parlata.
All’IBM, all'interno del progetto Watson
di intelligenza artificiale, una parte del team ha dedicato più di un anno alla
creazione di un enorme database di pronunce corrette. Hanno riscontrato
problemi con modi di dire, come carpe
diem, oppure nomi propri tipo champagne
brut , dove alcune regole della pronuncia saltavano facilmente. I
ricercatori hanno intervistato 25 doppiatori, alla ricerca di un particolare
suono umano da cui partire per costruire la loro voce artificiale migliore. Una
volta individuati 2 o 3 timbri migliori, hanno provato ad aggiustarne le
tonalità, giocando con la frequenze. Risultato: voce troppo artefatta o
addirittura con dei toni entusiastici quasi infantili, dunque poco accettabile
nelle comuni applicazioni. Così sono tornati a settare finemente una voce sintetizzata
che fosse più orecchiabile possibile, perfezionando il relativo software. Ne è
venuto fuori un timbro che ha chiaramente tratti tipici di una voce artificiale,
ma possiede alcuni caratteri riscontrabili nella voce umana.
Ad oggi, dunque, creare un computer con
un proprio timbro ed una sua personalità emotiva è ancora un traguardo lontano.
Ma il numero di applicazioni che interagiscono con noi, mentre siamo alle prese
con altre "faccende", sta crescendo in modo tale che le qualità di
una voce piuttosto che un'altra potrebbero, in futuro, divenire determinanti
nella scelta di un prodotto. E se la sfida si porrà in ambiti commerciali, gli
sforzi tecnologici saranno senz'altro adeguati.
(fonte
http://www.nytimes.com/2016/02/15/technology/creating-a-computer-voice-that-people-like.html?ref=technology&_r=0
; si ringrazia il sito http://www.intuitlabs.com/
per la gentile concessione della foto)
Nessun commento:
Posta un commento