...

Speech to Speech (STS): clonar con alma

speech to speech

En VOCES EN LA RED hemos sido los primeros en probar la tecnología Speech to Speech (STS) en español. Para nosotros representa el equilibrio entre lo natural y lo artificial, ya que es clonación que no excluye al ser humano de la ecuación. Para saber más sobre Speech to Speech (STS) sigue leyendo…

Speech to Speech (STS) vs Text to Speech (TTS)

Qué es Text to Speech

Como contamos con detalle en la entrada Voz artificial, el Text to Speech, o TTS, consiste en «leer» un texto con una voz sintética o artificial y ya lleva unos cuantos años con nosotros. El TTS es ideal para textos cortos y dinámicos en sistemas automáticos de información o telefonía: «Si quiere hablar …»

Ayer: voces «robóticas»

Si peinas canas recordarás que estas voces, que ahora suenan naturales, eran voces robóticas, como la del superordenador WOPR «Joshua», en la película Juegos de guerra: «Saludos profesor Falken…»

Hoy: voces neuronales

Para clonar una voz natural, tradicionalmente ha habido que entrenar a una inteligencia artificial (IA) con una gran cantidad de muestras o grabaciones de esa voz. Sin embargo, en apenas dos años hemos pasado de necesitar varias horas… ¡a solo 3 segundos! La razón es muy simple: gracias a las grabaciones que se han obtenido, con o sin nuestro conocimiento, de forma distribuida («neuronal») a través de todos los aparatos smart, la IA ya sabe cómo se pronuncian las palabras de forma genérica en cada idioma, lo que reduce enormemente el entrenamiento para imitar una voz en particular.

Qué es Speech to Speech

Speech to Speech (STS), tecnología que se ha estrenado a finales de 2022, clona únicamente el timbre y permite «montarlo» sobre otras grabaciones de voz natural que usamos de base, de las que hereda todo el resto de variables: volumen, velocidad, tono, idioma, pronunciación, acento… Así, si clonas tu voz con STS, puedes hacerla sonar en cualquier idioma y acento. Puedes escuchar ejemplos en este breve vídeo en el  que comparamos TTS y STS:

Cuándo usar Speech to Speech

Usa Speech to Speech cuando necesites interpretación o emoción.

Conseguir con TTS interpretar correctamente un texto complejo es prácticamente imposible, ya que se requieren instrucciones de volumen, velocidad, tono, etc. y aún así el resultado no es comparable al que consigue un locutor profesional. Si además buscamos una lectura coherente de un texto en varios idiomas, necesitaremos un realizador especializado en cada idioma para dar esas instrucciones. Por el contrario, con STS (Speech-to-Speech) solo necesitamos una grabación base correctamente interpretada en cada idioma y sustituir el timbre de voz.

La comparación entre TTS y STS nos recuerda a la escena de la película “El chip prodigioso”, en la que un brazo robótico, con el fin de insertar el chip en su sitio, ejecuta una interminable serie de movimientos (las instrucciones), y al final resulta más eficiente insertarlo con la mano (la grabación base del STS).

El Speech to Speech tiene alma

usos del speech to speech

No suena artificial

La grabación base, que está por debajo de la voz artificial, es una voz humana que aporta naturalidad y el resultado es indistinguible, para el oído humano, de una grabación con voz natural. El TTS ha mejorado de forma espectacular (hasta es posible introducir irregularidades e imperfecciones típicas del habla humana), pero aún no hay suficientes instrucciones para realizar interpretaciones exigentes y es posible detectar ciertas cadencias, especialmente en audios de larga duración.

No prescinde del humano

La aparición de plataformas que ofrecen voces TTS gratuitas está teniendo un impacto en el mercado de la locución, porque hay un porcentaje de consumidores poco demandantes de calidad y muy sensibles al precio. Por el contrario, el Speech-to-Speech va a modificar el mercado pero sin prescindir del humano, y se va a poder ofrecer 2 talentos diferentes: el timbre de voz y la capacidad de interpretación. Hay locutores que han sido agraciados con ambos talentos, pero ahora ya es posible combinarlos de forma independiente. Conocemos grandes intérpretes que no tienen un timbre bonito y timbres bonitos con pocos registros de interpretación. A partir de ahora, incluso particulares no profesionales podrán comercializar sus timbres de voz. Sin embargo, el protagonismo recae sobre los que denominaremos “realizadores STS”, (los intérpretes de las grabaciones base que determinan principalmente el resultado) y los modelos de remuneración deberían reflejarlo.

Ofrece nuevas posibilidades

Probablemente con el tiempo iremos encontrando nuevas aplicaciones, pero aquí adelantaremos algunas que nos parecen muy interesantes.

Preservar la voz de personas fallecidas o que perderán su voz.

Para preservar la voz de una persona fallecida o que prevé perder la voz, basta con tener unos minutos de grabaciones de calidad. Posteriormente, la persona que hace las grabaciones base, imita la manera de hablar de la persona cuya voz ha sido clonada. Evidentemente aquí hay intervienen aspectos legales, ya que es necesario contar con autorización de titulares, herederos o representantes. En cualquier caso, nos parece muy interesante «asegurar nuestra voz», contratando una sesión de grabación en estudio profesional de sonido, en la que hay que leer un corpus de texto formado por una selección de frases que contienen todos los fonemas. Si te interesa, nosotros ofrecemos este servicio por solo 150€. Es un regalo original que preservará una voz para siempre. Infórmate rellenando este formulario.

Doblar películas con la voz de los actores originales.

En los doblajes de películas, el director de doblaje procura encontrar voces lo más parecidas a la voz original, pero ya podemos clonar la voz del actor. Con el Speech to Speech la figura del actor de doblaje seguirá estando presente, ya que será el que «interpreta por debajo», en el idioma que necesita ser doblado, mientras que el timbre pertenecerá al actor original. Y también podemos completar escenas de películas que, por la censura, no se doblaron en su día.

Atender de forma personalizada sin tener que grabar.

Permitirá a los líderes atender personalmente con su voz a sus seguidores, sin tener que grabar ellos, ya que pueden delegar en alguien de su equipo o encargar grabaciones a empresas especializadas como VOCES EN LA RED.

Otras entradas