Síntesis por formantes: Entre eloquence y softvoice

277 mensajes, 10 páginas: 1  2 3 …  10 ↖ Volver a la lista de temas

1. chiptune-kunimatsu,

¡Hola!
En un tema que se habló sobre sintetizadores sobre NVDA, quiero hacer esta entrada especial para hablar de la síntesis por formantes, que aunque muchos no lo sepan, es la que estamos usando prácticamente todos, o la gran mayoría.
Si bien la síntesis de voz concatenativa consiste en sintetizadores basados en voz humana grabada, y tiene sus diferentes métodos, la síntesis por formantes no. No incluye voz humana grabada, ni siquiera hay un hombre o una mujer hablando, se realiza mediante modelos acústicos que simulan el habla, y esta es la razón de que no solo sean livianitos dichos sintes, sinó que además, tiene una gran ventaja sobre la síntesis concatenativa, que su velocidad de respuesta es superior, y su inteligilibilidad en algunos casos también, por ejemplo, eloquence o un sintetizador antiguo de un aparto (hardware) llamado Cyber, que se uusaba antes.
De hecho como les acabo de decir, ejemplos de síntesis por formantes son el mensionado eloquence, espeak, dectalk, softvoice (ahora les cuento qué es) keynote gold, los sintetizadores hardware que se usaban antes de la popularidad del jaws...
Y bueno, por supuesto la inteligibilidad varía en los diferentes idiomas que se hacen, y por eso al eloquence l entienden muy claro, el espeak los desespera dectalk parece un retrazado, softvoice no habla bien el español y es notablemente extrangero, y así sucesivamente.
Después de esta pequeña info, ahora quiero compartirles el softvoie para NVDA, y el eloquence, que salió nueva actualización.
Empezamos por el softvoice, es un sintetizador reeeee antiguo, de los 90, que se podía usar en un programa de texto a voz llamado Talk it! pero el mismo era inaccesible, y lo sigue siendo por supuesto. Todo, incluso lo correspondiente a la voz, debías controlarlo con el mouse. Cursor de jaws y navegador de objetos no logran ayudar en esta interfaz. Pero a Dios gracias, desde el año pasado se desarrolló el driver de softvoice para NVDA: http://grossgang.com/tts/synthesizers%20for%20nvda/softvoice.nvda-addon
Esta que es la última versión, cambia todos sus parámetros. Por cierto acá tienen muchas voces divertidas, desde hombre, mujer, niño, hombre gigante, mosca, hay 2 robots, marciano, anciana... hay 2 o 3 voces que incluso cantan al leer! Sí, cantan notas aleatorias, para que se rían un rato.
A este driver le pueden cambiar prácticamente todos los parámetros, velocidad, tono, entonación, perturbación, pueden hacerlas susurrar, cantar notas aleatorias, imagínense...
Y ahora eloquence, esta versión lo que incluye de novedad es, aparte de los nuevos idiomas asiáticos, a saber chino, japonés y coreano, 3 parámetros más que nunca jamás se pudieron cambiar antes ni en jaws, ni en NVDA, ni en los celulares.
Van a cambiar la carraspera, también con otro el nivel de susurro, y el otro consiste en la frecuencia del timbre. O sea, de 0% para arriba es más aguda y hasta el 100% se va poniendo cada vez más gruesa.
http://grossgang.com/tts/synthesizers%20for%20nvda/Eloquence.nvda-addon
Sin más, disfruten, cuenten qué les parece y hablemos de todos estos sintetizadores, en otro post de esta misma entrada les cuento otra cosa, feliz navidad!

2. Guorco,

YA LO ESTOY PROVANDO, Y AHORA ENTIENDO VARIAS COSAS CON RESPECTO A LA MÚSICA. EN VARIOS TEMAS USAN ESTA VOZ.

3. chiptune-kunimatsu,

Sí, otra gran ventaja que tiene la síntesis de formantes, aunque la hacés cantar, puede expresar interrogación y exclamación, puede cambiar la entonación. Estas son cosas que la síntesis concatenativa no puede, aunque ojo, la síntesis por dífonos sí puede tener ajustados algunos de estos parámetros, por ejemplo pueden cantar (pero cada sintetizador tiene que estar programado para poder cantar) podés cambiar la frecuencia del timbre, la perturbación de la voz, podés hacerla más ronca o hasta más susurrante, yo probé esto con etiquetas para sapi 4, que son muy diferentes de las etiquetas para sapi 5.
Síntesis por dífonos son vocaloid, mbrola, l&h tts 3000, festival (las voces que había para NVDA) elan speech, hasta algunas voces antiguas de acapela. Pero bueno, la síntesis de formantes tiene más ventajas como dije antes.

4. Guorco,

eso sí, haber si sale una interface accesible, para usarla con JAWS

5. chiptune-kunimatsu,

A esta altura ya difícil... pasa que este softvoice ya hace mil que no se desarrolla, lo que pasa que estos changos agarraron el sinte y crearon el driver, pero el sinte sigue siendo aquella versión de los 90, para jaws no la harían porque softvoice no tiene vínculo con nuance, directamente lo tienen tipo abandonware. Y bueno, por supuesto el talk it ya no se desarrolla desde aquellos años, lo que se podría hacer (aunque yo para esto no sirvo) es intentar crear scrips para jaws para la interfaz de talk it, así como existe un scrip para una versión de dectalk que de todos modos es un poco más accesible.

6. el_pichon,

Pero se sabe quién hace estos sintetizadores? Me encantaría colaborar con él traduciendo los parámetros. Hay, por así decirlo, alguna fuente conocida?
En cuanto a este nuevo Eloquence, me encanta. A veces hace más pausas que el anterior, pero no pasa nada. Le va a dar un buen dolor de cabeza al equipo de Code Factory.

7. BOFH,

dolor de cabeza? Por qué?

8. el_pichon,

Porque esta es más completa, y la otra cuesta 57 euros y encima usa ejecutables externos que consumen más recursos.

9. chiptune-kunimatsu,

Yo después te voy a decir por privado quien los hace, de hecho tengo muchas ideas. POr ejemplo, hay mucha gente a la que el google tts para android no le gusta, por cierto aunque es síntesis conccatenativa, pero a mí sí, cuando hablamos de la voz en español de Estados Unidos. De hecho se estuvo queriendo crearlo y ni idea si nunca se pudo o qué, y lo mismo con el Keynote Gold, este también era un sintetizador por formantes del año de los Windows antiguos.

10. Saniel_Morse,

¡Ah, voy a descargarlos para mi colección de sintes para el NVDA! Si quieren, yo les paso el dectalk, pero lo tengo sólo en inglés. ¡Un saludo y gracias por el aporte!

11. Guorco,

ese tts es bueno investigando todo eso, mis respetos

12. Padan_Fain ,

en realidad me parece que la gente lo que le ve de malo a la voz de google es que tarda en responder con talkback, lo que no pasa con eloquence. Eso claro si hablamos en un android.

13. chiptune-kunimatsu,

gracias man, el secreto es que ya más o menos me especializo en la síntesis de voz, pero sobre todo en este caso en particular me interesa que muchos que no conocen del tema sepan un poco de donde vienen toda la mano, de donde viene lo que estamos usando para poder manejar todos estos aparatejos.

14. Guorco,

eso sí, suena algo raro, pero es interezante

15. lizardon ,

a mí no me gusta la voz de google, es muy igual al hablar, tiene una entonación tan chillona que aaaaaaaaaa irrita, pero como no me vino la voz de sansum (perdón si lo escribí mal) Es que no se como se hace... Y, tengo que esperar qe a los de movistar se les ocurra mandar los mensajes de actibación de mi línea, que tuve que comprar otra.
Solo mandaron el pin...
De hecho si alguien me puede explicar, si tiene que ver con que yo haya bajado la voz de google para poder utilizar talk back con el tema de la actibación.

16. el_pichon,

No, no tiene nada que ver. Aquí en España la voz de google siempre está muy feliz y contenta. Me encanta escribir noticias tristes y ponerlas con esa voz para echarme unas risas de vez en cuando.
Por cierto, por qué no creamos la plataforma internacional de gente que odia Movistar? Lo único que hace es dar problemas y cobrar mucho!

17. Guorco,

yo me apunto para esa comunidad. jajajaja

18. BOFH,

¿Donde hay que firmar? xD

19. matar.desgarrar,

Venga, vamos! A mí ya me tienen cansado con sus tonterías, su cara dura y su inaccesibilidad que hacen pasar por accesibilidad.
Los españoles y españolas llevan ya tiempo dando líneas de baja porque están hasta los coj... de ellos y vuelven años después. No aprendemos.

Un saludo.

20. andres_nava ,

disculpen la vos de eloqquence habla así un poco mas baja que la anterior, y con eco?

21. luna-lovegood,

pero como se descarga esque tengo el maldito espich y lo odio

22. elitaliano,

amigo alto speech, yo estuve probando el eloquence que pasaste por acá, pero dime una cosita. yo lo puse supuestamente en chino, pero estuve tratando de leer una página china que me compartió un amigo de ese país, pero no me lee ningún caracter chino! parece que fallaron en la adaptación a ese idioma

23. Guorco,

les daré el mejor ejemplo artístico de cómo usaron un sintetizador de voz en la música. Busquen en youtube el siguiente tema: Venga voys - chiquibombo. se llevarán una sorpresa. el tema salió en el año 2000.

24. chiptune-kunimatsu,

Wooow man! eso hay que verlo!
Y te digo de paso qué habrán usado en aquellas épocas.
Para el otro amigo, de hecho sí, no te puedo asegurar con el japonés y el coreano, pero el chino si te fijás vien y lo hacés leer es como una variante del inglés americano, no sé si es error del driver, o un error del propio eloquence o no sé. Después yo con el japonés traté de leer los textos que salían en estos juegos japoneses y bueno, no te puedo asegurar que los esté leyendo bien, a mí me da la pequeña impresión de que está deletreando a lo loco, no te parece qeu justo en los idiomas asiáticos cambia ligeramente la voz?

25. Guorco,

sí, para que veas que se le dió buen uso a los sintetizadores.

26. Saniel_Morse,

Yo igualmente traté de leer algunos textos de prueba con el Google Translate con el Eloquence de NVDA en chino, japonés y coreano, pero igualmente no obtuve resultados. Eso no me ocurría en la demo del Eloquence en Sapi5 de CodeFactory; creo que tenemos que decírselo a quien ha actualizado el complemento. Y sí, de hecho, es posible leer textos en inglés usando el chino. Supongo que es algo hecho por parte de los mismos creadores del Eloquence, porque el inglés y el chino son de los idiomas más hablados. Como dato curioso, si introducen un texto en inglés sobre la voz en chino de Bing Translator, también es capaz de leerlos, y hasta eso que lo pronuncia como si esuviera aprendiendo inglés. Eso sí, el texto es inteligible. Si quieren les paso una demo.

27. elitaliano,

sí, eso sí lo he notado. y parece que sí es un error de quien hizo el driver, porque los números sí los lee en chino. lo que no lee son los caracteres chinos!

28. chiptune-kunimatsu,

de hecho, yo probé con las puras letras, y también las dice en chino, el problema viene al leer un texto, ya con una palabra, se agringa y se pudre todo o.o.

29. el_pichon,

Chicos, vamos paso a paso. Todo llegará. Como no he encontrado al autor original, he decidido ir por libre. Aquí está mi eloquence modificado:
http://superstream.co:8080/eloquence.nvda-addon
Novedades:
-Las 3 nuevas barras, así como la casilla de los backquote tags, se han traducido al español.
-La lista de idiomas y el manifest del complemento también están en español.
-El código se ha modificado para que la interfaz pueda traducirse a más idiomas.
-Se han solucionado muchísimos errores de codificación: importaciones repetidas, clases hijas que reemplazaban al constructor de la clase padre y no lo llamaban, etc.
A nivel de funcionamiento no vais a notar diferencias, pero sí en el diálogo de opciones de voz de NVDA. ¿Alguien quiere contribuir haciendo su traducción?
En cuanto al problema del chino, creo saber cuál es, pero lo contrastaré con otros usuarios antes de lanzar otra versión.
Ya me contaréis qué os parece.
Un saludo.

30. Saniel_Morse,

Si hablamos de inglés a español o vicebersa, cuenta conmigo; aunque no sé traducir a otros idiomas más.

277 mensajes, 10 páginas: 1  2 3 …  10 ↖ Volver a la lista de temas

Responder al tema

Usted debe estar conectado para poder postear.