Microsoft puede regenerar tu voz con una muestra de sólo 3 segundos, VALL-E

48
0

Microsoft ha mostrado su último avance en el campo de la inteligencia artificial (IA) con un modelo llamado VALL-E que puede simular la voz de una persona con solo una muestra de audio de tres segundos. La herramienta no solo puede igualar el timbre de la voz, sino también el tono emocional del hablante e incluso los acústicos de un ambiente.

Sin embargo, los expertos en seguridad cibernética advierten que esta tecnología podría usarse para ataques de phishing más realistas y para difundir información falsa si no se implementan medidas de seguridad adecuadas. VALL-E es un modelo de síntesis de texto a voz basado en transformadores que puede recrear cualquier voz con solo una muestra de audio de tres segundos.

En un paper de investigación de la Universidad de Cornell, bajo la propiedad de Microsoft, se detalló el uso de VALL-E. La herramienta fue entrenada con 60,000 horas de datos de habla en inglés, siendo una posible aplicación futura para la síntesis de voz.

En resumen, VALL-E es una herramienta de síntesis de voz de Microsoft que puede simular la voz de una persona con solo una muestra de audio de tres segundos. Aunque tiene un gran potencial en aplicaciones de síntesis de voz, también representa un riesgo potencial si no se toman medidas de seguridad adecuadas. Es importante destacar que esta herramienta se encuentra en fase de investigación y aún no se ha puesto a disposición del público en general.

LEAVE A REPLY

Please enter your comment!
Please enter your name here