Voz artificial

enero 26, 2023

Tabla de contenidos

La voz artificial ya esta aquí. Ofrecemos locución profesional desde 2002, pero ya por entonces teníamos claro que la voz artificial llegaría (por eso nos llamamos VOCES EN LA RED y no LOCUTORES EN LA RED). Además la IA (Inteligencia Artificial) está acelerando su desarrollo y desde 2020 la mejora es tan grande, que tenemos que replantear nuestras formas de trabajo. Si quieres prepararte para afrontar los retos que nos plantea la voz artificial sigue leyendo.

Qué es la voz artificial

Voces artificiales

Voces artificiales o voces sintéticas: sus orígenes

La voz artificial es una voz creada y producida de forma artificial que imita el habla humana. Se utiliza en todo tipo de dispositivos: ordenadores, teléfonos móviles, asistentes, altavoces inteligentes, máquinas de servicios, ascensores, etc. Las primeras voces creadas artificialmente sonaban muy metálicas y se las conocía como voces sintéticas. Era una tecnología pensada principalmente para ayudar a personas con dificultades para utilizar su propia voz. Estas personas usaban unos aparatos llamados comunicadores. El usuario (Stephen Hawking fue probablemente el más famoso) escribía algo con un teclado y el aparato leía lo escrito. También se podía pulsar en iconos y pictogramas para reproducir frases completas. Al principio había muy pocas voces sintéticas distintas, voces adultas que no quedaban bien en los comunicadores de niños, así que ya con este sistema surgía la necesidad de voz artificial personalizada.

Por qué la voz artificial ha dado este salto de gigante

Impulsada, en un principio, por la necesidad de personalizar estas primeras voces sintéticas y después por los nuevos sistemas automatizados telefónicos, altavoces inteligentes y asistentes virtuales, surgen las nuevas voces artificiales, que empiezan a ser cada vez más similares a las voces humanas. Pero el salto de gigante viene cuando se incorpora la IA al proceso de clonación y creación de nuevas voces artificiales.

Qué son las voces artificiales neuronales

En los últimos dos años la voz artificial, debido a la incorporación de la IA, ha evolucionado más que en los últimos veinte. La IA necesita una ingente cantidad de datos y los cientos de miles de conversaciones, grabadas a través de todos los dispositivos de voz, se la han proporcionado. Todas estas conversaciones han servido para entrenarla y ha perfeccionado sus capacidades lingüísticas hasta niveles increíbles, dando lugar a las llamadas voces artificiales neuronales. Con este entrenamiento la IA ya «sabe» cómo se pronuncia cada palabra en todos los idiomas y sus variantes.

Qué es el TTS

El TTS (Text-To-Speech), o conversión de texto a voz, es una tecnología de voz artificial capaz de leer textos en cualquier idioma. El TTS ha estado con nosotros más de una década sin apenas mejorar. La voz en español más conocida es la voz de Jorge Loquendo, de la compañía Loquendo, que fue muy usada en vídeos de YouTube.

Qué es el STS

A finales de 2022 asistimos a la llegada de una nueva y revolucionaria tecnología llamada STS (Speech to Speech), que se traduce como Voz a Voz. Clonamos solo el timbre de tu voz y luego lo ponemos en cualquier otra grabación de voz natural. El STS sustituye el timbre, pero hereda todo el resto: volumen, velocidad, tono… idioma, pronunciación, acentos, ¡todo!… Incluso el sonido de las respiraciones. Esto le da una naturalidad increíble y mucha mayor facilidad para dirigir una locución, ya que dirigimos con una grabación base, es decir con la voz, en vez de facilitar al TTS un conjunto muy grande de instrucciones y comandos.

Voz artificial vs voz natural

Voz artificial

Cómo de natural es la voz artificial creada con la IA

La inteligencia artificial que da soporte a la versión de voz artificial de Google Assistant, ya pasó el «Test de Turing» en 2018. Esta prueba, desarrollada por Alan Turing, que para muchos es «el padre de la Inteligencia Artificial», determina si una IA es capaz de engañarnos haciéndose pasar por humano durante una conversación. Google Assistant realizó llamadas telefónicas y el interlocutor humano no se dio cuenta de que hablaba con una máquina. En este vídeo puedes escuchar una de las conversaciones. ¿Cuál es la voz real?

Cómo distinguir la voz artificial de la voz natural

En muchos casos, sobre todo en frases cortas en inglés, los humanos ya no somos capaces de distinguir la voz artificial de la natural. Por eso algunas empresas ya desarrollan programas, basados en inteligencia artificial, que sirven para detectar las voces artificiales.

Generación de voces artificiales mediante clonación de voz

Voz artificial

Cómo se genera una voz artificial clonada

Cada vez se necesitan menos datos para crear una voz artificial clonada. Antes de 2020 se necesitaban unas 10-12 horas de grabación en estudio de sonido profesional para poder generar una voz artificial de alta calidad. Ahora, con la incorporación de la IA, bastan 30-40 minutos de grabación usando un «corpus de texto» especializado, con frases que incorporan todos los sonidos del idioma del hablante, para conseguir esa voz artificial clonada de alta calidad. Y Microsoft ya está anunciando que en breve será capaz de clonar una voz, con calidad media, usando sólo 3 segundos de grabación de la voz original.

Qué implicaciones éticas tiene

La tecnología avanza más rápido que la legislación, de modo que existe un vacío legal y con toda seguridad vamos a ver multitud de usos fraudulentos. Como comentábamos anteriormente, tendremos que usar herramientas de inteligencia artificial para detectar la voz clonada, e incorporarlas lo antes posible en los sistemas de detección biométrica. También se nos plantea alguna duda metafísica: puesto que las tecnologías de detección de voz artificial están basadas también en IA… ¿podría suceder que algún día se pongan de acuerdo para engañarnos?

Voz artificial, ¿y ahora qué?

Generación de audio rápida y barata (pero sin alma) con el TTS

El TTS (Text-to-Speech) ha mejorado una barbaridad (especialmente en inglés). Ya podemos tener grabaciones realizadas con TTS y calidad suficiente para incorporarlas en vídeos como este:

Pero dirigir con precisión usando TTS (Text-To-Speech), requiere muchas instrucciones de volumen, velocidad, tono, etc. Si además quieres varios idiomas hace falta un especialista en cada idioma para dar esas instrucciones. Y todavía le falta «alma», porque es una lectura perfecta que carece de las variaciones y pequeños defectos de la entonación humana. Ya se están incorporando disfluencias (esos breves sonidos «eeemmm» que introducimos en nuestro discurso para pensar) y errores de pronunciación aleatorios, para que suene más natural.

Generación de audio con STS (el alma está por debajo)

Por el contrario, con el STS (Speech-To-Speech) solo hace falta una grabación correctamente interpretada en cada idioma y sustituir el timbre de voz por el tuyo. La grabación base que está por debajo de la voz artificial es una voz humana, y es la que aporta la naturalidad. Mira en este vídeo la diferencia entre las dos:

Los nuevos trabajos que surgen en el sector de la voz

Nuestra conclusión es que vamos a comercializar 2 talentos diferentes: el timbre de voz (que supone ingresos pasivos para su poseedor) y la capacidad de interpretación. Hay locutor@s con gran capacidad de interpretación (algunos son actores/actrices de teatro) pero que no tienen un timbre muy bonito y por otro lado hay locutor@s (y particulares) con timbres muy agradables, pero con pocos registros a la hora de interpretar. Por supuesto hay locutores agraciados con ambos talentos, pero gracias al STS (Speech-to-Speech) se pueden combinar de forma independiente, clonando timbres bonitos y sustituyéndolos en «grabaciones base» correctamente interpretadas por lo que llamaremos realizadores STS. Aunque es más caro por la necesidad de tener grabaciones base, el STS permite conseguir resultados mucho más complejos que el TTS a la hora de trabajar con voz artificial.

Si quieres más información (o si te has quedado con la duda de cuál era la voz artificial en el vídeo del test de Turing 🙂 no dudes en contactarnos haciendo clic aquí o en el botón de abajo:

Consúltanos aquí

Otras entradas

Clonar voz

Clonar voz: tipos de clonación, precios y evolución

La capacidad de clonar una voz, se ha convertido en una innovación asombrosa, que está transformando en muchos casos la

doblaje de vídeos

Doblaje de videos con voces naturales y con voces artificiales

Realizamos doblaje de videos y aquí encontrarás toda la información que necesitas para llevar a cabo un doblaje de un

locutor online

Locutor online: la experiencia es un grado

Con VOCES EN LA RED nace el concepto de locutor online. Llevamos desde 2002 ofreciendo servicios de locución online. Puedes