sonata / Piper Neural voices: Un sintetizador para NVDA que suena muy bien y utiliza inteligencia artificial

715 Nachrichten, 24 Seiten: 1…; 21 2223 24 ↖ Zurück zur Themenliste

~msgScore~: +32

661. katja , Oct 11 2024 14:10:51

oye simbian, cual era la voz de los Nokia con dicho sistema?

~msgScore~: +0

662. GingerFox, Oct 11 2024 14:27:55

Técnicamente hay varias voces, pero la más famosa es esa que suena estilo Eloquence que de echo es la que estoy entrenando. Por otro lado, me pregunto si esas voces artificiales se pueden entrenar con menos epochs, si alguien entiende un poco de esto que responda please. Como dije yo entreno con 6000 y me tiro mis cuatro días, y me preguntaba si se puede hacer con menos y puede salir bien. Por otro lado, parto del modelo este de Lesac o como se llame.

~msgScore~: +0

663. El-Megalovano, Oct 11 2024 17:49:35

O sea que estará hecha el lunes?
Bue, quería también la del Braille & Speak en español, y voces antiguas o quizá una database anterior que contenía voces Festival, ya que pues, sonarían bien. Mirad E.G. Con lo de Mary TTS, que tiene las mismas voces que las encontradas en inglés británico (vea Semaine)

~msgScore~: +0

664. Ren_Yamamoto, Oct 12 2024 03:46:10

em, fer hizo la de braille &speack no? Otra cosa. Según lo último que supe del maestraso del rmcpantoja ahorita no está muy enfocado en piper mas que en ayudar a este desarrollador con sonata en algunas cosas

~msgScore~: +0

665. GingerFox, Oct 12 2024 17:46:08

Tengo mi modelo listo, lo hice con WSL. Logré exportarlo, tengo un archivo .onnx y un .onnx.json. Lo traté de comprimir de varias formas, llegando a seguir la estructura que siguen otras voces, pero no lo acepta, da error al instalarlo en la línea 453 del download_voices.py. ¿Cómo puedo arreglar esto? El comando que usé (en Ubuntu) fue algo como: tar -zvf carpeta.tar.gz -C carpeta .
El directorio "carpeta" de ejemplo tiene los archivos .json y .onnx.

~msgScore~: +0

666. El-Megalovano, Oct 12 2024 21:31:26

Nó, no estoy seguro si alguien tiene el modelo de Braille & Speak.
En cuanto a tu problema... Soy beginner en Linux por ello no sé. Digo, havías hecho bien el procedimiento?
Nó sé si trataste de usar otros programas para comprimirlos y o ansí, o lograste crear una nueva carpeta con la estructura "idioma_región/país (opcional) -nombre+RT (para voces RT)-calidad"
E.G. mi voz "es-luisc-medium".

~msgScore~: +0

667. GingerFox, Oct 14 2024 12:33:55

Pregunta. Logré al final hacer funcionar mi TTS, pero ciertas palabras son pronunciadas de forma extraña, y también los nombres de las letras. Mi pregunta es, es posible hacer que cuando te mueves entre caracteres te dé una representación fonética del carácter? Por ejemplo, si sale una A que diga algo del tipo a, alfa. Sé que en NVDA se pensó poner algo así, pero no me acuerdo bien donde estaba.

~msgScore~: +0

668. El-Megalovano, Oct 14 2024 15:25:06

Es algo como retraso en las descripciones de caracteres o algo así

~msgScore~: +0

669. El_filosofaurio, Oct 14 2024 15:31:45

está en las opciones de NVDA control v.

~msgScore~: +0

670. hela, Oct 14 2024 19:19:59

nosé porque cuando yo uso una de esas voces la pc la siento lenta jaja, si alguien porfi me puede decir si hay alguna forma de cambiar eso

~msgScore~: +0

671. clapmauricio, Oct 14 2024 19:44:20

Para que Sonata/Piper no se quede lento, solo cambiando la PC. En verdad es complicado afirmar eso, pero si no hay memoria ram y CPU suficientes no hay mucho que hacer. Lo digo como un usuario de PC inferior. Em mi compu para uso profesional, Piper funciona sin gran delay.

~msgScore~: +0

672. PrincesoGuerrero, Oct 14 2024 19:53:49

Las voces en variante fast, o RT, deberían responder más rápido, pero bueno, es IA en cualquier caso así que de todas formas algo vamos a tener que bancarnos con la lentitud. No sé cómo lograron con Azure, pero tampoco responden súper rápido, más bien como cualquier otra voz Sapi 5 al menos en mi caso.
A ver, Symbian, nos mostrás tu modelo de voz? Mirá que yo lo recuerdo a ese sinte, también está en mi Nokia E5.

~msgScore~: +0

Zuletzt geändert von PrincesoGuerrero, Oct 14 2024 19:54:30

673. mi-papi-chulo, Oct 14 2024 22:11:24

chicos yo quiero escuchar la voz del teléfono Nokia dicen que era parecída al eloquence

~msgScore~: +0

674. Hermanos, Oct 15 2024 01:20:02

lo único que recuerdo de la voz de Nokia es que remplazava la r por la l cuando una palabra empezava con dicha letra, y que la l la decía medio raro xdddddd

~msgScore~: +0

675. GingerFox, Oct 15 2024 12:14:53

Bien, aquí os dejo la voz de NokiaTTS (esa voz robótica de los Nokia que sonaba parecida a Eloquence) lista para ser importada en Piper! Por cierto, agradecimientos al usuario @Willem por las grabaciones de voz que usé para crear el dataset.
https://www.mediafire.com/file/kl1q0vf88sbuhif/es-NokiaTTS-medium.tar.gz/file

~msgScore~: +0

676. PrincesoGuerrero, Oct 15 2024 21:29:36

suena piola eh! No te preocupes tanto ocn el deletreo, que pasa en muchas voces, hasta en la mía propia, pero lo hiciste muy bien! Recordá que hemos entenado la ovz de Keynote gold que suena medio parecida.

~msgScore~: +0

677. GingerFox, Oct 15 2024 22:44:01

quien vota por que entrene ahora la voz de wade de old eloquence para Piper?

~msgScore~: +0

678. PrincesoGuerrero, Oct 15 2024 22:57:48

Yo yo yo. El tema es que podrías hacer una multi speaker, para que entrenes la de español de España y la de español latinoamericano.

~msgScore~: +0

679. El-Megalovano, Oct 15 2024 23:13:15

Yo quiero mientras actualizen el OldEloquence para NVDA

~msgScore~: +0

680. PrincesoGuerrero, Oct 15 2024 23:25:23

Ay pobre jajaja, sabrás hacer eso Symbian? O te estamos pidiendo mucho.

~msgScore~: +0

681. GingerFox, Oct 16 2024 01:49:24

Técnicamente podría hacerla multiSpeaker, lo que sucedería es que quizás no pronuncien igual ambas voces, y además para entrenar la de NokiaTTS me tiré sus 4 días porque quise hacerlo en local y no tirar de Google Collab. Quizás tenga que ver si puedo hacer que entrene más rápido.

~msgScore~: +0

682. El-Megalovano, Oct 20 2024 04:01:34

Se podría si tienes una GPU decente o potente.
Altra causa (sí, está en neolatín) Nó sé si lo respondieron, pero si no saben, no solo Sonata funciona con NVDA. Según la repo del complemento, este utiliza el motor Sonata hecho en Rust: https://github.com/mush42/sonata
Este a su vez es multiplataforma, lo que significa que podrá soportar MacOS, Linux, Android, y hasta IOS.
Y dado que soportaría otros modelos de voz. Hojo aquí, ya que es donde viene la diferencia: Sonata en particular solo soportaría modelos TTS que sean tanto eficientes como livianos. Piper es uno de ellos, a demás del que en un futuro vendrá (OptiSpeech) Coqui, en cambio, no es tanto liviano como eficiente para que funcione. Otro como Tortoise TTS es demasiado pesado para un servidor de alta gama, y mucho menos para una computadora estándar o un dispositivo móvil.
Sonata está diseñado específicamente para ejecutarse en una CPU estándar y en un móvil.

~msgScore~: +0

683. GingerFox, Oct 20 2024 10:53:44

Oye, no logré ejecutar mi modelo en Android y eso que usé el MultiTTS. Traté de comprimirlo como zip pero el programa no lo reconoce. Por otro lado, traté de investigar si puedo convertir la voz a SherpaOnnx, pero el tutorial de la página es muy confuso, primero es como que pide Android Studio para poner el NDK y eso, y por otro lado los scripts sh son para Linux y los comandos tb son para Linux. Algún tutorial o algo que explique como se puede hacer desde Windows, o hacerlo directamente todo usando WSL sin depender de Android Studio en Linux?

~msgScore~: +0

684. katja , Oct 20 2024 19:16:43

oye simbian donde puedo encontrar tu modelo de voz para sonata, me interesó jaja.

~msgScore~: +0

685. Woss, Oct 20 2024 19:27:22

cito:
inicio de cita.
Bien, aquí os dejo la voz de NokiaTTS (esa voz robótica de los Nokia que sonaba parecida a Eloquence) lista para ser importada en Piper! Por cierto, agradecimientos al usuario @Willem por las grabaciones de voz que usé para crear el dataset.
https://www.mediafire.com/file/kl1q0vf88sbuhif/es-NokiaTTS-medium.tar.gz/file
fin de cita

~msgScore~: +0

686. clapmauricio, Oct 20 2024 20:02:01

Para usar las vozes de Sonata en MultiTTS, no es solo convertir en zip. Basta mirar la estructura de una voz sherpa para notar diferencias, aunque ambas usen el el mismo archivo.omnx. O sea, en teoría, podemos utilizar nuestros modelos en MultiTTS. En la práctica, no, pues nadie nos explicó objectivamente como hacerlo.

~msgScore~: +0

687. El-Megalovano, Oct 20 2024 20:21:25

A menos que se haga una implementación de si misma de Sonata en Android. No solamente Piper, también OptiSpeech estaría allí. Preguntaré al desarrollador cómo va el progreso de OptiSpeech.

~msgScore~: +0

688. GingerFox, Oct 20 2024 21:14:46

Aunque, técnicamente logré convertir el modelo a SherpaOnnx. La cuestión es, MultiTTS soportaría un zip como tal de una voz SherpaOnnx? Si es así, técnicamente podría tratar de pasar a zip el propio modelo de Piper convertido a SherpaOnnx y ver si MultiTTS se lo traga o tengo que hacer cosas extrañas para que funcione.

~msgScore~: +0

689. Ren_Yamamoto, Oct 21 2024 14:51:22

Esque no son los mismos archivos, por ejemplo hay un toquenizador raro. Yo una vez intenté copipastear los archivos faltantes pero no lo importé así que ni idea si funcione

~msgScore~: +0

690. Willem, Oct 23 2024 04:38:46

Hola! muy buen trabajo, Symbian. Podríamos intentar grabar ahora el Nokia HQ, la voz de lara (Español de España) Era bastante aceptable para la época, las demás terribles. jajajaja qué bueno que aún vive mi Nokia e5, y que podemos conectarlo a la pc mediante el auxiliar.

~msgScore~: +0

715 Nachrichten, 24 Seiten: 1…; 21 2223 24 ↖ Zurück zur Themenliste

Nach oben springen ↑
Zum Inhalt springen ↑

Auf das Thema antworten

Sie müssen angemeldet sein, um posten zu können