Competencia de voces clonadas: FlexClip, ElevenLabs, Descript, DaVinci Resolve Studio

Después del popular artículo Competencia de transcriptores: DaVinci Resolve, Descript, FlexClip, Premiere Pro (sin FCP) que publiqué recientemente (que es de voz a texto), hoy te presento el nuevo Competencia de voces clonadas: FlexClip, ElevenLabs, Descript, DaVinci Resolve Studio. Este nuevo artículo es de texto a mi voz clonada (o la tuya), que es lo contrario del primero sobre los servicios de transcripción. En este nuevo artículo sobre voces clonadas, la diferencia entre los resultados es mucho mayor entre los servicios que compiten. Lamentablemente, la mayoría no se reconocen como réplicas de la voz mía. Incluyo aquí el programa DaVinci Resolve Studio aunque éste requiere un paso externo adicional para lograr el objetivo, como explicaré más adelante. Al igual que en el anterior, sólo cubro los resultados en castellano aquí en Escuchalibros. Puedes encontrar los resultados y conclusiones en inglés en Cloned Voice Shootout en ProVideo Coalition.

Cómo cloné mi voz con cada servicio

Mi intención era enviar exactamente la misma muestra de grabación (una en cada idioma) a cada servicio. Sin embargo, eso resultó imposible, ya que ElevenLabs recomienda enviar una muestra de un mínimo de 30 minutos, aunque prefiere recibir entre 2 y 3 horas de voz limpia y congruente para obtener resultados óptimos. Aunque envié una muestra de 56 minutos a ElevenLabs, los demás no aceptaban una duración tan larga, por lo que tuve que enviar solo la primera parte de esa muestra completa a los demás. Aunque FlexClip indica específicamente que acepta un máximo de 90 segundos (por lo que subí los primeros 90 segundos que había enviado a ElevenLabs), Descript no era tan específico, así que escribí al servicio de asistencia para ver si podía subir 56 minutos. Ésta es la respuesta que recibí del departamento de asistencia de Descript:

Actualmente, no existe la opción de subir una muestra ampliada a una voz clonada existente para mejorarla. Así es como funciona el proceso y qué es posible hacer: al crear una voz IA personalizada, se proporciona una muestra de voz grabando la declaración de consentimiento requerida directamente en Descript, o subiendo una grabación de la misma declaración de consentimiento si actúas en nombre de otra persona. El modelo de voz se capacita sólo con esta muestra inicial. No hay ninguna función para subir muestras adicionales o ampliadas para capacitar o mejorar aún más una voz IA existente. Si deseas un estilo diferente o una calidad mejorada, puedes crear una nueva grabando una nueva muestra con el tono y entonación preferidos. Cada nueva grabación crea una voz independiente; no se puede añadir ni modificar una ya existente. Si buscas la posibilidad de cargar muestras más largas o adicionales para obtener un clon de voz más avanzada o «profesional», esta función no está disponible actualmente. Te animamos a que dejes tus comentarios o votes a favor de esta solicitud en nuestro foro de solicitudes de funciones: https://descript.canny.io/feature-requests

Afortunadamente, DaVinci Resolve Studio aceptó la muestra completa, aunque tardó más tiempo (casi 24 horas en mi MacBook Pro M4) en crear la voz clonada en cada idioma. Esto se debe en parte a que DaVinci Resolve Studio realiza la clonación de forma local, mientras que los demás lo hacen en su respectiva nube. Afortunadamente, con DaVinci Resolve Studio sólo es necesario realizar ese largo proceso (casi 24 horas) una vez para cada voz clonada, cada una en su respectivo idioma.

FlexClip

Aquí está la voz clonada renderizada en castellano a partir del mismo texto que había subido a todos los servicios. Si has escuchado mi voz humana en el reciente artículo Competencia de transcriptores: DaVinci Resolve, Descript, FlexClip, Premiere Pro (sin FCP), probablemente estarás de acuerdo en que mi voz clonada de FlexClip ni siquiera es reconocible como la de la misma persona. FlexClip hizo un trabajo mucho mejor con la transcripción que con la clonación de la voz.

ElevenLabs

Aquí está mi voz clonada en castellano de ElevenLabs, leyendo el mismo texto que envié a todos los servicios. Si has escuchado mi voz humana en el reciente artículo Competencia de transcriptores: DaVinci Resolve, Descript, FlexClip, Premiere Pro (sin FCP), probablemente estarás de acuerdo en que mi voz clonada de ElevenLabs es bastante similar a mi voz humana y es bastante reconocible como una réplica razonable de mi voz humana. De hecho, hasta la fecha, ElevenLabs es sólo uno de dos servicios que he probado que pueden clonar una voz en castellano con distinción, es decir, poder distinguir el sonido de la C suave y la Z en forma independiente del sonido de la S. La mayoría de los que he probado (con las excepciones de ElevenLabs y DaVinci Resolve Studio) convierten una voz con distinción en una seseante, es decir, una que pronuncian la C suave y la Z como si fueran la letra S. (El seseo es dominante en las Américas, las Islas Canarias y partes de Andalucía.)

Descript

Aquí está mi voz clonada de Descript en castellano, leyendo el mismo texto que envié a todos los servicios. Si has escuchado mi voz humana en el reciente artículo Competencia de transcriptores: DaVinci Resolve, Descript, FlexClip, Premiere Pro (sin FCP), probablemente estarás de acuerdo en que mi voz clonada de Descript ni siquiera es reconocible como la de la misma persona, aunque suena más humana que la voz clonada de FlexClip. Como aclaré en la sección anterior, Descript lamentablemente convierte las voces con distinción en una seseante. Descript hizo un trabajo mucho mejor con la transcripción que con la clonación de la voz.

DaVinci Resolve Studio

Arriba está mi voz clonada de DaVinci Resolve Studio, leyendo el mismo texto que envié a todos los demás servicios. Si has escuchado mi voz humana en el reciente artículo Competencia de transcriptores: DaVinci Resolve, Descript, FlexClip, Premiere Pro (sin FCP), probablemente estarás de acuerdo en que mi voz clonada de DaVinci Resolve Studio ni siquiera es reconocible como la de la misma persona, aunque suena más humana que la voz clonada de FlexClip. DaVinci Resolve Studio hizo un trabajo mucho mejor con la transcripción que con la clonación de una voz.

Como se indica en el párrafo introductorio, en la fecha de publicación de este artículo, aunque DaVinci Resolve Studio es totalmente capaz de clonar voces, (todavía) no puede renderizar una de sus voces clonadas directamente a partir de texto. Actualmente, está diseñado para renderizar una voz clonada a partir de audio, incluso si lo lee una persona completamente diferente. Por lo tanto, la solución alternativa que utilicé es la siguiente:

Grabar el audio del texto deseado utilizando cualquier otra voz de IA (hasta puede ser una de las incluidas con macOS), con el único propósito de introducirla en DaVinci Resolve Studio como audio para que pueda hacer su magia.
Importar el archivo de audio a DaVinci Resolve Studio.
Mover el archivo de audio a la línea de tiempo y seleccionarlo.
Hacer clic a la derecha en el clip seleccionado y en la línea de tiempo y seleccionar Conversión de voz…
Elegí Pista nueva para conservar el audio original.
En el menú desplegable Conversión de voz, seleccionar el modelo personalizado que se ha capacitado anteriormente. Seleccioné Allan-castellano para la que hice en castellano para Escuchalibros y Allan-English para la prueba en inglés de ProVideo Coalition.
Desactivé la opción Concordancia precisa a original, ya que no hay video en esta prueba.
Hice clic en Renderizar y DaVinci ResolveStudio generará el nuevo audio en una nueva pista. Silencié la pista original.

Conclusiones de la prueba en castellano

En mi opinión:

La mejor calidad es la de ElevenLabs. Es la réplica más convincente de mi voz humana. De hecho, hasta la fecha, ElevenLabs es uno de solo dos servicios que he probado que pueden clonar una voz en castellano con distinción, es decir, poder distinguir el sonido de la C suave y la Z en forma independiente del sonido de la S). El otro que puede clonar una voz con distinción es DaVinci Resolve Studio. Todos los otros servicios que he probado convierten una voz con distinción en una seseante, es decir, una que pronuncia la C suave y la Z como si fueran la letra S. Es una pena que, actualmente, para tener dos de las voces clonadas de mejor calidad en dos idiomas diferentes, debamos tener dos cuentas separadas de ElevenLabs, cada una por US$22 al mes, utilizando dos direcciones de correo electrónico diferentes. Pero es el precio que hay que pagar por esa calidad. Me gustaría que permitieran tener una sola cuenta para uso bilingüe del mismo individuo con la máxima calidad.
Diría que DaVinci Resolve Studio y Descript están casi empatados en segundo lugar si no te importa que una voz con distinción mantenga esa característica. De lo contrario, DaVinci Resolve Studio le gana a Descript, a pesar de su paso externo. Aunque ninguna de las dos (Descript y DaVinci Resolve Studio) es reconocible como mi voz humana, ambas son voces utilizables para determinados proyectos (con seseo en el caso de Descript). Sin embargo (como se indica previamente), actualmente se requieren pasos adicionales para realizar esta tarea con DaVinci Resolve Studio.
La voz clonada de FlexClip es la que suena más robótica en comparación con las demás. FlexClip hizo un trabajo mucho mejor con la transcripción que con la clonación de voz en su versión actual.

Para la clonación de voz en el idioma inglés, tengo otros resultados y otras observaciones en el artículo Cloned Voice Shootout en ProVideo Coalition. El enlace se encuentra a continuación:

Read this article in English

Cloned Voice Shootout: FlexClip, ElevenLabs, Descript, DaVinci Resolve Studio

Divulgación para la FTC

Ninguna de las organizaciones mencionadas en este artículo ha pagado por figurar en él. Blackmagic y FlexClip han enviado equipos o sóftwer NFR para su evaluación y reseñas. Algunas de las empresas mencionadas anteriormente han contratado a Tépper y/o TecnoTur.LLC para realizar consultorías y/o traducciones/localizaciones/transcreaciones. Algunos enlaces a terceros enumerados en este artículo y/o en este sitio web pueden beneficiar indirectamente a TecnoTur.LLC a través de programas de afiliados. Las opiniones de Allan Tépper son de él mismo. Allan Tépper no es responsable del mal uso o mala comprensión de la información que comparte.

3 comentarios

Memo Sauceda

2025-12-18 | Reply

Las compañías de IA muestarán en los demos de su sóftwer sólo los casos exitosos. En la práctica, la IA no está tan avanzada como quieren hacernos creer. Conozco casos en los que se han ido completamente a IA y después han tenido que regresar a usar humanos. Por ahora el propósito principal es vender, ¿pero a qué costo? Por otro lado mis hijos no soportan la inteligencia artificial. Vivimos en un época en que es difícil predecir lo que sucederá, lo que hace el momento presente muy interesante. Mi opinión personal es que la IA se utilizará para casos específicos, y la voz humana también. Veo un futuro en donde convivimos juntos. Claro que sólo nos toca esperar para ver si mi visión optimista es en realidad la ganadora. Gracias Allan por hacernos ver la realidad de lo que nos tratan de vender como algo excepcional, que en muchos casos no lo es.
- Allan Tépper
  
  2025-12-18 | Reply
  
  Hola Memo,
  ¿Sólo hablas de las voces IA o la IA en general? Estoy de acuerdo contigo con las voces IA. Sin embargo, al grabar mi voz humana, uso la IA para eliminar ruido y la reverberación en una fracción de lo que me tomaría hacerlo manualmente, pero sigue siendo mi voz humana. Favor confirmar a qué te refieres. Gracias.
Memo Sauceda

2025-12-18 | Reply

Al principio me refiero a las voces, pero después mi comentario de que va a haber un espacio para IA y un espacio para humanos, me refiero a todo lo que ha tocado la IA. Es una herramienta a fin de cuentas y de nosotros depende cómo usarla y para qué.