Crecen opciones de voces para audiolibros en 2025: profesionales vivos, profesionales clonados o la voz del autor, clonada

Las herramientas y fuentes de voces IA para audiolibros incluyen Google, ElevenLabs, Descript y Amazon (en fase ßeta). Cada una tiene diferentes puntos fuertes y débiles, como se explica a continuación.

Como ya he comentado anteriormente, la producción y el consumo de los audiolibros siguen creciendo con fuerza. Suelo explicar las crecientes opciones de voz con mis clientes autores que producen, publican y distribuyen libros, libros electrónicos y audiolibros a través de mi TecnoTur. Estas opciones varían en función de los gustos personales y el presupuesto. Algunos autores quieren contratar a un locutor profesional vivo y están dispuestos a pagar la tarifa correspondiente. Otros autores buscan un término medio y recurren a un locutor profesional que ha clonado su voz, ya que esto le permite disponer de ella a un precio mucho menor. Otros autores prefieren grabar toda la producción con su propia voz, mientras que otros eligen clonar su propia voz para mayor eficiencia en sus producciones de sus audiolibros actuales y futuros. Ya se trate de un locutor vivo en directo o de una IA, a menudo es necesario «dirigir» al locutor. De hecho, es posible «dirigir» a un locutor IA para mejorar los resultados. A continuación, compartiré ejemplos de dirección para conseguir la pronunciación ideal de nombres y términos propios, así como un mejor ritmo y velocidad, incluso cuando se trata de locutores IA, y compartiré algunas herramientas y técnicas. Recientemente lo hice al producir y dirigir el audiolibro en inglés de Why Fidel abandoned Che?, escrito por Alberto Müller y narrado por la voz IA que Alberto mismo eligió, Archie. A continuación, te daré ejemplos y te explicaré dónde se pueden distribuir actualmente los audiolibros narrados con voces IA.

En este artículo

  • Distribución de audiolibros mediante voces IA
  • Ventajas y desventajas de las voces IA de Google
  • Ventajas y desventajas de las voces IA de ElevenLabs
  • Ventajas y desventajas de las voces IA de Descript
  • Breve resumen del seseo frente a las voces distinguidas en castellano
  • Herramientas y técnicas para dirigir una voz IA
  • Conclusiones
  • Artículos relacionados
  • Read this article in English

Distribución de audiolibros con voces IA

Actualmente, las siguientes plataformas aceptan voces IA, aunque las fuentes de donde las aceptan varían:

  • Amazon (en ßeta, por invitación, detalles más adelante)
  • Audible.com (en ßeta, por invitación, detalles más adelante)
  • Audiobooks.com
  • Baker & Taylor
  • Bibliotecha
  • B&N audiobooks (Barnes & Noble)
  • Everand
  • Google (actualmente sólo con voces AI de Google, que yo sepa)
  • Kobo (Raketen Kobo)
  • Overdrive
  • Raketen Kobo
  • Spotify
  • TuneIn

Como tengo varios libros publicados, Amazon me ha invitado a ser probador ßeta. Sin embargo, las voces IA en castellano ofrecidos actualmente por Amazon son actualmente sólo seseo, no distinguidas, y la clonación no está disponible por el momento.

Ventajas y desventajas de las voces IA de Google

Entre las ventajas de las voces IA de Google se encuentran:

  • Se pueden distribuir en todas las plataformas mencionadas anteriormente (excepto Amazon y Audible).
  • Si el libro está en castellano, podemos elegir entre voces distinguidas o seseadas.
  • Google nos permite vender audiolibros creados con la voz IA de Google en otras plataformas (aparte de Google), siempre y cuando no se ofrezca un precio inferior en otras plataformas, es decir, en el sitio web del autor (para ventas directas) o en cualquiera de las otras plataformas.
  • Actualmente, Google no cobra por las voces IA.

La única desventaja de las voces IA de Google es que, actualmente, aún no es posible clonar nuestras propias voces.

Ventajas y desventajas de las voces IA de ElevenLabs

Entre las ventajas de las voces de ElevenLabs se encuentran:

  • Podemos clonar nuestra propia voz o la voz del autor, si lo deseamos.
  • Se pueden distribuir en todas las plataformas mencionadas anteriormente (excepto Amazon, Audible y Google).
  • Si el libro está en castellano, podemos elegir entre voces distinguidas o seseadas.
  • Los audiolibros producidos con las voces IA de ElevenLabs pueden ser producidos por usuarios que pagamos a ElevenLabs y venderse en cualquier lugar, a cualquier precio, y actualmente se aceptan en todos esos lugares excepto Amazon, Audible y Google.

Ya he clonado mi voz en dos idiomas (castellano e inglés) con ElevenLabs y pronto publicaré un artículo sobre esto.

Ventajas y desventajas de las voces AI de Descript

Entre las ventajas de las voces AI de Descript se encuentran:

  • Podemos clonar nuestra propia voz o la voz del autor, si lo deseamos.
  • Las voces están disponibles en diferentes idiomas, con las limitaciones que se mencionan a continuación.

Entre las desventajas de las voces AI de Descript, según mi conocimiento, se encuentran:

  • Las voces en castellano parecen ser actualmente solo seseo, sin distinción. No está claro si Descript permitiría clonar una voz en castellano con distinción (no seseo), aunque la otra desventaja que se menciona a continuación ya me hizo perder el interés para mi uso personal.
  • Aunque Descript nos permite utilizar la voz en cualquier lugar y a cualquier precio, la única plataforma que las acepta para audiolibros parece ser el propio portal web del autor (para venta directa), pero no en ningún otro sitio. Por eso decidí clonar mi voz con ElevenLabs.

Breve resumen del seseo frente a las voces con distinción en castellano

La palabra seseo describe las voces del idioma castellano en las que la C suave y la Z se pronuncian de forma idéntica a la letra S. Así es como pronuncian el castellano la mayoría de los hablantes nativos de América y de determinadas regiones de España, por ejemplo, partes de Andalucía y las Islas Canarias. Las voces con distinción en castellano son aquéllas de los hablantes (principalmente de España) que distinguen los sonidos de la C suave y la Z de la letra S.

El seseo es bastante diferente al ceceo. El ceceo es una pronunciación casi siempre involuntaria, en el que las tres letras mencionadas (C, S y Z) se pronuncian como la th suave en inglés. El ceceo rara vez es deseado y no se enseña en las escuelas de ningún país.

Herramientas para dirigir una voz IA

Incluso cuando una voz IA no ofrece herramientas discretas, siempre hemos podido añadir o quitar comas o puntos para añadir o quitar retrasos en una interpretación audible. También hemos podido escribir un nombre propio o un término desconocido fonéticamente para indicar a la voz IA que lo pronuncie debidamente.

Afortunadamente, al menos Google ha mejorado lo anterior recientemente de varias maneras:

Podemos seleccionar una palabra y escribirla fonéticamente. Alternativamente, podemos hacer clic en el símbolo del micrófono y «enseñar» al robot IA cómo queremos que se pronuncie la palabra. Después de hacer cualquiera de estas dos tareas, tenemos la opción de Aplicar una vez o Aplicar a todo para que la voz IA sepa pronunciarla así cada vez que ese nombre o término figura en el manuscrito.

Una vez hecho esto, el nombre o término figura subrayado para indicar que ha aprendido la pronunciación preferida de ese nombre o término, como se puede ver en la captura de pantalla anterior.

Puedes escuchar una muestra de este audiolibro, con la voz británica IA de Archie.

Mientras producía y dirigía el audiolibro de Why Fidel abandoned Che?, aprendí lo siguiente sobre estas nuevas herramientas:

  • Con aproximadamente el 88% de los nombres o términos, funcionó bien, de modo que los términos al menos sonaban como si el hablante conociera la pronunciación correcta, no hasta el punto de sonar como un hablante nativo de un nombre extranjero, pero lo suficiente como para sonar como una persona culta.
  • Archie es una voz IA británica y parecía saber de antemano que ciertos nombres castellanos deben pronunciarse con una H muda, pero no lo sabía en todos los casos. En esos casos, tuve que eliminar la H del nombre manualmente y configurarlo en «Aplicar a todo».
  • Archie también sabía que algunos nombres castellanos con doble L deben pronunciarse como una Y. Sin embargo, en otros casos, Archie no lo sabía, así que tuve que escribirlo fonéticamente con una Y y configurarlo en «Aplicar a todo».

Todavía no he utilizado estas herramientas de dirección con ElevenLabs, pero publicaré algo al respecto en el futuro.

Conclusiones

Tanto mi propia experiencia como la revista Forbes han demostrado que la producción y la compra de audiolibros están aumentando. Nos conviene que las herramientas y las opciones también se amplíen y mejoren con el tiempo. Aunque algunos locutores profesionales temían inicialmente que las voces IA les quitarían negocios, ahora se dan cuenta de que, al clonar su propia voz, pueden venderla exponencialmente más veces a un precio menor cada vez, controlando su uso como deseen. Eso es lo que trataré en al menos un nuevo artículo. Si necesitas ayuda con la producción, publicación o distribución de tu libro, libro electrónico o audiolibro, ponte en contacto conmigo a través de EditorialTecnoTur.com.

Artículos relacionados

Read this article in English

Audiobook voice options expand in 2025: professional live human, pro cloned, author voice or author cloned with AI

Divulgación para la FTC

Ninguna empresa mencionada en este artículo paga por este artículo. Algunas de las empresas mencionadas anteriormente han contratado a Tépper y/o TecnoTur.LLC para realizar consultorías y/o traducciones/localizaciones/transcreaciones. Algunos enlaces a terceros enumerados en este artículo y/o en este sitio web pueden beneficiar indirectamente a TecnoTur.LLC a través de programas de afiliados. Las opiniones de Allan Tépper son de él mismo. Allan Tépper no es responsable del mal uso o mala comprensión de la información que comparte.

 

Suscríbete gratuitamente a mis boletines por correo electrónico

Agrega tu dirección de correo electrónico aquí.

Seguir Allan Tépper:

Autor bilingüe, consultor, editor, especialista en podifusiones, activista lingüístico, publicista, reseñador y creador de sitios web vía TecnoTur.LLC. Para recibir sus boletines en castellano por correo-e, visita boletines.AllanTepper.com

6 comentarios

  1. Memo Sauceda

    ¡No sabía que ya estaba tan adelantada la IA! La voz de Archie me sorprendió, pero las entoncaciones son las mismas, algunas personas han comentado que después de escuchar una voz de IA se vuelve monótona por escuchar siempre la misma cadencia. Con esta fragmento no pude determinarlo. Estaré pendiente de el próximo artículo para conocer las herramientas de dirección de Eleven Labs. También sería interesante saber qué tanto menos cobra un locutor al usar su voz clonada para un audiolibro en lugar de grabarlo él. ¡Gracias por lo bien documentado que está este artículo!

  2. Fiorella Piccolo

    Allan, he leído con gran interés tu artículo sobre el creciente panorama de voces para audiolibros en 2025. Como profesional del marketing, encuentro tu análisis excepcionalmente útil. La distinción que haces entre las opciones de voces profesionales (humanas y clonadas) y la emergente posibilidad de la voz del autor replicada por IA es muy perspicaz y relevante para las estrategias de contenido de audio. Muchas gracias por esta valiosa perspectiva y análisis.

  3. Cc limardo

    Estimado Allan, esperaba con ansias este artículo y toda la información que compartes. Como locutora y narradora de audiolibros he sentido la amenaza con estas herramientas y la implementación de voces Artificiales para casi todo nuestro trabajo. Pero como siempre tú nos muestras el otro lado de la moneda, explicas muy bien cómo aprovechar y entender los avances tecnológicos para nuestro provecho. Investigaré a fondo a través de los enlaces que compartes. Me parece que la muestra con la voz de Archie es muy buena y me deja atónita de lo bien que puede llegar a sonar las voces clonadas. Quiero saber más y más y clonar mi voz. Esperaré por más información.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *