sonata / Piper Neural voices: Un sintetizador para NVDA que suena muy bien y utiliza inteligencia artificial

715 Nachrichten, 24 Seiten:  1; 21 2223 24 ↖ Zurück zur Themenliste

~msgScore~: +32

661. katja ,

oye simbian, cual era la voz de los Nokia con dicho sistema?

~msgScore~: +0

662. Symbian,

Técnicamente hay varias voces, pero la más famosa es esa que suena estilo Eloquence que de echo es la que estoy entrenando. Por otro lado, me pregunto si esas voces artificiales se pueden entrenar con menos epochs, si alguien entiende un poco de esto que responda please. Como dije yo entreno con 6000 y me tiro mis cuatro días, y me preguntaba si se puede hacer con menos y puede salir bien. Por otro lado, parto del modelo este de Lesac o como se llame.

~msgScore~: +0

663. El-Megalovano,

O sea que estará hecha el lunes?
Bue, quería también la del Braille & Speak en español, y voces antiguas o quizá una database anterior que contenía voces Festival, ya que pues, sonarían bien. Mirad E.G. Con lo de Mary TTS, que tiene las mismas voces que las encontradas en inglés británico (vea Semaine)

~msgScore~: +0

664. Ren_Yamamoto,

em, fer hizo la de braille &speack no? Otra cosa. Según lo último que supe del maestraso del rmcpantoja ahorita no está muy enfocado en piper mas que en ayudar a este desarrollador con sonata en algunas cosas

~msgScore~: +0

665. Symbian,

Tengo mi modelo listo, lo hice con WSL. Logré exportarlo, tengo un archivo .onnx y un .onnx.json. Lo traté de comprimir de varias formas, llegando a seguir la estructura que siguen otras voces, pero no lo acepta, da error al instalarlo en la línea 453 del download_voices.py. ¿Cómo puedo arreglar esto? El comando que usé (en Ubuntu) fue algo como: tar -zvf carpeta.tar.gz -C carpeta .
El directorio "carpeta" de ejemplo tiene los archivos .json y .onnx.

~msgScore~: +0

666. El-Megalovano,

Nó, no estoy seguro si alguien tiene el modelo de Braille & Speak.
En cuanto a tu problema... Soy beginner en Linux por ello no sé. Digo, havías hecho bien el procedimiento?
Nó sé si trataste de usar otros programas para comprimirlos y o ansí, o lograste crear una nueva carpeta con la estructura "idioma_región/país (opcional) -nombre+RT (para voces RT)-calidad"
E.G. mi voz "es-luisc-medium".

~msgScore~: +0

667. Symbian,

Pregunta. Logré al final hacer funcionar mi TTS, pero ciertas palabras son pronunciadas de forma extraña, y también los nombres de las letras. Mi pregunta es, es posible hacer que cuando te mueves entre caracteres te dé una representación fonética del carácter? Por ejemplo, si sale una A que diga algo del tipo a, alfa. Sé que en NVDA se pensó poner algo así, pero no me acuerdo bien donde estaba.

~msgScore~: +0

668. El-Megalovano,

Es algo como retraso en las descripciones de caracteres o algo así

~msgScore~: +0

669. El_filosofaurio,

está en las opciones de NVDA control v.

~msgScore~: +0

670. hela,

nosé porque cuando yo uso una de esas voces la pc la siento lenta jaja, si alguien porfi me puede decir si hay alguna forma de cambiar eso

~msgScore~: +0

671. clapmauricio,

Para que Sonata/Piper no se quede lento, solo cambiando la PC. En verdad es complicado afirmar eso, pero si no hay memoria ram y CPU suficientes no hay mucho que hacer. Lo digo como un usuario de PC inferior. Em mi compu para uso profesional, Piper funciona sin gran delay.

~msgScore~: +0

672. PrincesoGuerrero,

Las voces en variante fast, o RT, deberían responder más rápido, pero bueno, es IA en cualquier caso así que de todas formas algo vamos a tener que bancarnos con la lentitud. No sé cómo lograron con Azure, pero tampoco responden súper rápido, más bien como cualquier otra voz Sapi 5 al menos en mi caso.
A ver, Symbian, nos mostrás tu modelo de voz? Mirá que yo lo recuerdo a ese sinte, también está en mi Nokia E5.

~msgScore~: +0

Zuletzt geändert von PrincesoGuerrero, Oct 14 2024 19:54:30

673. mi-papi-chulo,

chicos yo quiero escuchar la voz del teléfono Nokia dicen que era parecída al eloquence

~msgScore~: +0

674. Hermanos,

lo único que recuerdo de la voz de Nokia es que remplazava la r por la l cuando una palabra empezava con dicha letra, y que la l la decía medio raro xdddddd

~msgScore~: +0

675. Symbian,

Bien, aquí os dejo la voz de NokiaTTS (esa voz robótica de los Nokia que sonaba parecida a Eloquence) lista para ser importada en Piper! Por cierto, agradecimientos al usuario @Willem por las grabaciones de voz que usé para crear el dataset.
https://www.mediafire.com/file/kl1q0vf88sbuhif/es-NokiaTTS-medium.tar.gz/file

~msgScore~: +0

676. PrincesoGuerrero,

suena piola eh! No te preocupes tanto ocn el deletreo, que pasa en muchas voces, hasta en la mía propia, pero lo hiciste muy bien! Recordá que hemos entenado la ovz de Keynote gold que suena medio parecida.

~msgScore~: +0

677. Symbian,

quien vota por que entrene ahora la voz de wade de old eloquence para Piper?

~msgScore~: +0

678. PrincesoGuerrero,

Yo yo yo. El tema es que podrías hacer una multi speaker, para que entrenes la de español de España y la de español latinoamericano.

~msgScore~: +0

679. El-Megalovano,

Yo quiero mientras actualizen el OldEloquence para NVDA

~msgScore~: +0

680. PrincesoGuerrero,

Ay pobre jajaja, sabrás hacer eso Symbian? O te estamos pidiendo mucho.

~msgScore~: +0

681. Symbian,

Técnicamente podría hacerla multiSpeaker, lo que sucedería es que quizás no pronuncien igual ambas voces, y además para entrenar la de NokiaTTS me tiré sus 4 días porque quise hacerlo en local y no tirar de Google Collab. Quizás tenga que ver si puedo hacer que entrene más rápido.

~msgScore~: +0

682. El-Megalovano,

Se podría si tienes una GPU decente o potente.
Altra causa (sí, está en neolatín) Nó sé si lo respondieron, pero si no saben, no solo Sonata funciona con NVDA. Según la repo del complemento, este utiliza el motor Sonata hecho en Rust: https://github.com/mush42/sonata
Este a su vez es multiplataforma, lo que significa que podrá soportar MacOS, Linux, Android, y hasta IOS.
Y dado que soportaría otros modelos de voz. Hojo aquí, ya que es donde viene la diferencia: Sonata en particular solo soportaría modelos TTS que sean tanto eficientes como livianos. Piper es uno de ellos, a demás del que en un futuro vendrá (OptiSpeech) Coqui, en cambio, no es tanto liviano como eficiente para que funcione. Otro como Tortoise TTS es demasiado pesado para un servidor de alta gama, y ​​mucho menos para una computadora estándar o un dispositivo móvil.
Sonata está diseñado específicamente para ejecutarse en una CPU estándar y en un móvil.

~msgScore~: +0

683. Symbian,

Oye, no logré ejecutar mi modelo en Android y eso que usé el MultiTTS. Traté de comprimirlo como zip pero el programa no lo reconoce. Por otro lado, traté de investigar si puedo convertir la voz a SherpaOnnx, pero el tutorial de la página es muy confuso, primero es como que pide Android Studio para poner el NDK y eso, y por otro lado los scripts sh son para Linux y los comandos tb son para Linux. Algún tutorial o algo que explique como se puede hacer desde Windows, o hacerlo directamente todo usando WSL sin depender de Android Studio en Linux?

~msgScore~: +0

684. katja ,

oye simbian donde puedo encontrar tu modelo de voz para sonata, me interesó jaja.

~msgScore~: +0

685. Woss,

cito:
inicio de cita.
Bien, aquí os dejo la voz de NokiaTTS (esa voz robótica de los Nokia que sonaba parecida a Eloquence) lista para ser importada en Piper! Por cierto, agradecimientos al usuario @Willem por las grabaciones de voz que usé para crear el dataset.
https://www.mediafire.com/file/kl1q0vf88sbuhif/es-NokiaTTS-medium.tar.gz/file
fin de cita

~msgScore~: +0

686. clapmauricio,

Para usar las vozes de Sonata en MultiTTS, no es solo convertir en zip. Basta mirar la estructura de una voz sherpa para notar diferencias, aunque ambas usen el el mismo archivo.omnx. O sea, en teoría, podemos utilizar nuestros modelos en MultiTTS. En la práctica, no, pues nadie nos explicó objectivamente como hacerlo.

~msgScore~: +0

687. El-Megalovano,

A menos que se haga una implementación de si misma de Sonata en Android. No solamente Piper, también OptiSpeech estaría allí. Preguntaré al desarrollador cómo va el progreso de OptiSpeech.

~msgScore~: +0

688. Symbian,

Aunque, técnicamente logré convertir el modelo a SherpaOnnx. La cuestión es, MultiTTS soportaría un zip como tal de una voz SherpaOnnx? Si es así, técnicamente podría tratar de pasar a zip el propio modelo de Piper convertido a SherpaOnnx y ver si MultiTTS se lo traga o tengo que hacer cosas extrañas para que funcione.

~msgScore~: +0

689. Ren_Yamamoto,

Esque no son los mismos archivos, por ejemplo hay un toquenizador raro. Yo una vez intenté copipastear los archivos faltantes pero no lo importé así que ni idea si funcione

~msgScore~: +0

690. Willem,

Hola! muy buen trabajo, Symbian. Podríamos intentar grabar ahora el Nokia HQ, la voz de lara (Español de España) Era bastante aceptable para la época, las demás terribles. jajajaja qué bueno que aún vive mi Nokia e5, y que podemos conectarlo a la pc mediante el auxiliar.

~msgScore~: +0

715 Nachrichten, 24 Seiten:  1; 21 2223 24 ↖ Zurück zur Themenliste

Auf das Thema antworten

Sie müssen angemeldet sein, um posten zu können

Passwort vergessen? Benutzerkonto erstellen