sonata / Piper Neural voices: Un sintetizador para NVDA que suena muy bien y utiliza inteligencia artificial

588 mensajes, 20 páginas:  1 2 3; 20 ↖ Volver a la lista de temas

Resultado: +28

1. Braille_and_Speak2000,

Nota: En este primer post intentaré poner todos los links que considere necesarios para el usuario que quiera probar y posteriormente desarrollar su voz.
Piper es una joyita relativamente nueva en el campo de los sintetizadores. se llamaba Piper, pero ahora se renombró a Sonata Neural Voices, ya que quieren integrar otros modelos tts neuronales. Se trata de un sinte de código abierto, que utiliza una síntesis por redes neuronales, funciona en local, o sea, sin Internet, y lo podemos usar en NVDA. También está para la Raspberry Pi y otras distribuciones GNU/Linux, pero a nosotros ahora mismo nos interesa usarla en NVDA.
piper aún está en una fase temprana de desarrollo. Tanto el sintetizador en sí, como el complemento. Utiliza TTS de extremo a extremo. Al ser software libre, lo que tenemos es que cualquiera de nosotros podría crear su propia voz, o la de otra persona, siempre de manera responsable. Tal vez en algún momento podamos debatir esta cuestión de la clonación de voces. Posteriormente, usarlas en NVDA; que era algo que siempre quise. Primero tuve esa fantasía de poder usar voces de personas tan mortales como nosotros, con sus expresiones y demás, y luego quise poder utilizar localmente voces que manejaran síntesis neuronal.
ahora mismo, Piper es como undergroun. Lo conoce poca gente, y mi idea e intención es que se popularice, siendo que ahí lo tenemos, gratis, al alcance de la mano y para NVDA, sin Internet. Sería una muy buena alternativa para cuando no se puede tener eloquence y no nos gustan otros sintetizadores, ya que a mi juicio, las voces salen muy buenas cuando se entrenan bien. El incombeniente, es que aún son lentas y a nosotros muchas veces nos interesa una buena velocidad de respuesta para navegar cómodamente, pero que eso no los desanime, muchachos. Se planea trabajar aún en la velocidad de respuesta, y hoy por hoy, en mi opinión son muy buenas para leer.
creo que serían una alternativa legal para usar un sintetizador extra en NVDA, apartando el tema del entrenamiento de voces que prefiero dejarlo para otro post.
Sin más, voy a dejarles links.

descargar e instalar lo necesario.

descarguen la última versión del complemento.
He aquí el repositorio directamente en las voces en español. Para mayor accesibilidad, pueden pulsar la l, de moverse rápidamente entre listas, y ahí tienen una lista bastante grande con unas cuántas voces para que descarguen. Solo tienen que dar enter en cada archivo, por ejemplo, voice-daila-es.tar.gz o similar.
Hay otro usuario que espero participe por acá cuando se conecte, que seguramente dejará su carpeta de drive también, ya que él ha desarrollado voces en español y algunas herramientas para que cualquiera de nosotros pueda entrenar sus propias voces. Ya podemos ver este mismo material en el hilo de sintetizadores, pero bueno. Para que quede todo al alcance.
Y ahora, si finalmente quieren aprender a crear sus propias voces, que sería genial, he aquí una guía muy completa, en texto, realizada por @rmcpantoja, quien además tiene cuadernos (incluídos en la guía) para entrenar voces, exportarlas y hacer inferencia:
accedan a la guía desde aquí

Instalación de Piper en NVDA.

Lo primero es descargar e instalar el complemento, que lo tendría que poner en mi carpeta de drive, también.
La primera vez que instalemos, tras reiniciar NVDA, como la lista de voces estará vacía nos va a preguntar si deseamos abrir el administrador de voces de Piper y descargar voces.
Tanto si sí como si no, si no se abrió, entramos al administrador de voces de Piper, que lo vamos a encontrar en el menú de NVDA. Ahora, como no hay voces instaladas, tenemos 2 opciones:

  1. Vamos a la segunda pestaña, para descargar voces, que el complemento las tomará del repositorio oficial. Hay unas pocas voces en español, pero en realidad los usuarios y personas tan mortales como ustedes habrán hecho muchas voces más, que ahí no están. Si vamos a descargar voces, tenemos un cuadro combinado para elegir el idioma y otro para elegir la voz. Podemos probar dicha voz, donde se va a reproducir un pequeño wav para que escuchen cómo suena, y tendrán el botón de descargar. el complemento les avisará que es necesario reiniciar NVDA para refrescar la lista de voces, pero en realidad no es necesario.
  2. Instalar una voz desde un archivo local, lo que quiero hacer yo. Tan fácil como seleccionar dicho botón en la primera pestaña anterior, donde la primera vez estará vacía de voces, y ahí sea briría el explorador de archivos, para así seleccionar el archivo con extensión .tar.gz que contiene la voz, y al dar enter se instala. No vamos a descomprimirlos, sino instalarlos como acabo de explicar. eso es todo. Luego, ya se puede salir de ahí y cambiar de sintetizador.
  3. Solo agregar que, además, ya se han realizado voces conocidas para muchos de nosotros. Pueden ser de Youtubers, tal vez algún desarrollador de juegos como Oriol, y... Bueno, más o menos lo que se esperaría tener en FakeYou, pero sin toda esa cantidad buenísima de celebridades, (por ahora) ya que de hecho hemos creado voces de personas tan desconocidas y comunes pero tal vez muy especiales para quienes las usamos, o simplemente por quienes queremos contribuir de alguna manera, para el uso en lectores de pantalla, o cómo no, para ofrecer alguna voz que quede a gusto de una persona con discapacidad oral, cosa que hice yo al entrenar mi voz tanto acá como para ElevenLabs.
    Iré editando el post a medida que fuese necesario. ahora, es cosa de que lo descubran, lo disfruten y con suerte comience a popularizarse, estar en la web de NVDA.es, en la wiki de voces extra de NV Access, y al menos cuando sea más responsivo, sea muy solicitado por los tiflo... tiflo.
    ahora es cada vez más responsivo, pero téngase cuidado con jugar con los parámetros extra. Todavía hay errores que corregir.
    ¡Hasta otra!

Resultado: +11

Última edición por Braille_and_Speak2000, 20.04.2024 15:58:47

2. mg42,

no like

Resultado: +0

3. El-Dragon,

alguno se copa y hace la de mariano closs. lo intenté y me di cuenta que soy un marmota para hacer estas cosas cósmicas

Resultado: +0

4. Aurorita-Dulce-y-Bonita,

no encuentro cómo descargar voces. no me aparece el botón para copiarlo todo en un zip, y tampoco ninguna otra cosa para bajar de algún modo el tar. solo aparece la carpeta pero con archivos individuales, sin posibilidad de unificarlos en un zip. como hago ahí? nótese que ya he bajado cosas antes, pero ahora no encuentro nada que me indique para poder hacerlo

Resultado: +0

5. Siervodejusticia,

La verdad probé Pipper y me gustó demasiado, solo que me gustaría muchísimo que al leer de corrido lo hiciera como sin cortar las frases, no sé.
Lo hallo bastante interesante, y creo que esto abre un mundo de posibilidades, sobre todo a quienes nos gusta trabajar con voces distintas. Estaría también genial que se hiciera un repocitorio con voces.

Resultado: +0

6. Aurorita-Dulce-y-Bonita,

el repositorio está, pero no encuentro como dige la forma de descargar voces.

Resultado: +0

7. Braille_and_Speak2000,

de todas maneras yo estuve pensando en un repositorio así general en serio, es decir, solo hay algunas voces en español ahí cuando nosotros en realidad tenemos o usamos muchas voces que por ahora solo están alojadas en drive.
Bueno, a m´isiempre me costó un huevo bajar las ovces desde ese repositorio, así ya comprimidas. a ver si logro buscarle la vuelta y les ayudo con esa parte, porque alguna forma de descargar los archivos ya armados tiene que haber.

Resultado: +0

Última edición por Braille_and_Speak2000, 10.02.2024 15:33:32

8. Siervodejusticia,

no me refiero a el oficial, me refiero a uno que, como dijo Caramelos, nos dé acceso a voces entrenadas por otros usuarios.

Resultado: +0

9. Def-Leppard,

no nos engañemos babies, una voz clonada, y o humana tiene un límite de velocidad, porque si no, deja de ser real, que creo es el objetivo. me da que muchos tendrán que bajar su velocidad de lectura. de momento lo hemos bajao, a ver que pasa

Resultado: +0

10. Braille_and_Speak2000,

Aprovecho a advertirles de algo que me dio dolor de cabeza hace unos días, si al igual que yo tiene más de una voz instalada.
El driver tiene un error en que si lo tratamos de usar con el cambio de idioma activado, no nos deja cambiar entre voces (yo tengo varias solo en español) aunque sí con una versión Alpha anterior no tenía este problema, pero en cambio no estaba todavía lo de multi speakers, y als voces sonaban algo más despacio.

Resultado: +0

11. Siervodejusticia,

Creo que cuando se hablaba de lentitud no se referían a la velocidad palabras por minuto, si no a la velocidad de respuesta. A mí me parece que, no es más lenta que las voces sapi5, por ejemplo.

Resultado: +0

12. meytcren ,

si, con respecto a velocidad si se busca realismo sí o sí se tendrá que bajar considerablemente, sobre todo a un nivel normal en sí, como una persona mortal, si es lo que se busca escuchar. yo acabo de probar el sintetizador y me gustó mucho, es realmente bueno para leer como bien dijo @caramelos felices. lo que sí sería de suma utilidad es que se mejorara la velocidad, pero no en habla, sinó más bien en navegación y respuesta al interactuar en sí con el ordenador, tanto al moverse como al teclear, pero ciertamente creo que tiene un muy buen comienzo, y futuro sobre todo. eso de poder entrenar voces uno mismo me viene como anillo al dedo jajsjs.

Resultado: +0

13. Aurorita-Dulce-y-Bonita,

hola. he bajado las voces del drive. lo he instalado, y funcionan. o bueno a medias. el nvda se vuelve re contra lentísimo. o bueno, no sé si sean las voces, o el nvda. tarda como un segundo más en leer cualquier cosa.

pero bueno, entiendo que todo esté en desarrollo reciente :)

Resultado: +0

14. meytcren ,

no es el nvda XD, como dices, son las voces, justo de lo que hablaba en el post anterior. la respuesta a interacción como tál. pero sí, es cuestión de que aún está en fase de desarrollo, es posible que eso se arregle más adelante.

Resultado: +0

15. escanor,

Posteo para que se me guarde el hilo, ayo esto lo más de interesante.

Resultado: +0

16. Def-Leppard,

será por la GPU? vamos es lo que se me ocurre, al usar las IA tantísima memoria de la tarjeta de vídeo. quien no tenga una decente, como me pasa a mí en este portátil pueees… a lo mejor le irá lento. tengo que probar en casa

Resultado: +0

17. Gross-Beat,

La velocidad de respuesta, es un asunto del sintetizador aún. No de las voces. Así lo esplica en la guía de los entrenamientos. Bueno creo que leí eso. Por un error de no se qué, que hace que el sinte sea operable y posiblemente mejore en una actualización. Ojalá que si

Resultado: +0

18. clapmauricio,

Hola, amigos!
Hace unos días, he posteado un enlace de mi voz entrenada en carácter experimental, usando un dataset demasiado pequeño y grabado en malas condiciones.
Agora vengo con una versión funcional, con más calidad y totalmente utilizável. Sé que todos aquí son espanohablantes, pero espero que esta voz en portugués sirva a alguien.
Mi única lástima es que mi timbre es muy solar, pero bueno... Es lo que tengo, jajaja.
Hago esto especialmente para agradecer a todos que postearon contenidos acerca de Piper, ayudando a empezar con todo eso de entrenar vozes.
https://drive.google.com/uc?id=1rN9fyQZI8HikHt2G42y9xz5HWxWrNqFN&export=download

Resultado: +0

19. Katniss_Prior ,

tb posteo para guardar hilo :3

Resultado: +0

20. Blas,

posteo para guardármelo también, está interesante

Resultado: +0

21. clapmauricio,

yo sugestiono que suscrebanse al tema, para buscar facilmente después

Resultado: +0

22. rmcpantoja,

¡Buenas!

Aquí la carpeta pública de mis modelos: https://drive.google.com/drive/folders/1zFJRTI6CpVw9NkrTiNYOKGga0yn4JXzv?usp=drive_link

En cuanto a la velocidad de respuesta, siempre se ha usado la CPU para la inferencia. En mis pruebas, usando el cuaderno de síntesis con la GPU activada, es capaz de generar un audio de 4 minutos en cuestión de 5 segundos o un poco más; sin embargo, NVDA no sería suficientemente capaz de ejecutar piper en una GPU, debido a algunos requerimientos, (a pesar de hacer algunos ajustes para soportarla), pero se están investigando más técnicas y alternativas mejores que VITS que prometan una velocidad de respuesta más rápidas en la CPU.

Aparte de que se pueda correr en NVDA, está las API de Python y C++ que permite ejecutar piper en cualquier proyecto que se desee implementar. En la página del repositorio se pueden encontrar los proyectos en donde este se usa, tales como asistentes de voz o plugins. Hasta ahora lo he implementado en VeTube e hice un bot completo de Discord en donde este se puede usar, junto a voces hechas por mí y algunos amigos.

Resultado: +0

23. Jay-Holt,

guardo hilo

Resultado: +0

24. el_caballero_peligroso,

interesante, guardando hilo

Resultado: +0

25. rodrigo,

me interesa eso de usarlo con apis para otros servicios. le echaré un ojo mas tarde

Resultado: +0

26. el_pichon,

Váis a flipar, pero yo le he dicho que quiero suscribirme, me aparece en suscripciones, y no tengo que andar escribiendo eso de "Guardo hilo". Probadlo, es genial!

Resultado: +0

27. arielfmeza,

de acuerdo con el pichón :D

Resultado: +0

28. Borja,

Teniendo en cuenta que las suscripciones están llenas de bugs...

Resultado: +0

29. Markk,

qué bugs?

Resultado: +0

30. alfred,

A mí me funcionan bien.

Resultado: +0

588 mensajes, 20 páginas:  1 2 3; 20 ↖ Volver a la lista de temas

Responder al tema

Usted debe estar conectado para poder postear.

¿Perdió su contraseña? Crear una cuenta