Hilo oficial sobre los sintetizadores de voz

4357 Nachrichten, 146 Seiten: 1…; 134 135136 137 138…; 146 ↖ Zurück zur Themenliste

~msgScore~: +42

4051. ElMontarro, Apr 7 2024 09:15:43

¡Miren nada más lo que encontré! Esta es la historia de Eloquence para los que incluyéndome, no la conocían. Y para los que sí... bueno, ahí ta jaja.

Una narrativa personal.

Cuando comencé mis estudios de posgrado en Lingüística Germánica en el Departamento de Lingüística y Lenguas Modernas de la Universidad de Cornell en 1972, no tenía la menor idea del camino profesional que me esperaba. Como la mayoría de los estudiantes de lingüística en ese momento, imaginaba una carrera académica, pero pronto me desilusioné por el terrible mercado laboral y la perspectiva de terminar vendiendo zapatos o conduciendo un taxi. Al mismo tiempo, hice mi primer curso de informática. Nunca antes había tocado una computadora, pero, a pesar del tedioso proceso de perforar programas en tarjetas y los tiempos de espera de un día para ejecutar los programas (solo para encontrar un error y repetir el doloroso proceso), instantáneamente quedé cautivado con la idea. de compatibilizar mis intereses por la lingüística y la informática. Cambié mi especialización a lingüística general y agregué una especialización en informática.
Cuando llegó el momento de embarcarme en mi doctorado. En mi tesis de 1974, decidí añadir a la mezcla mi interés por la fonética, optando por explorar, a través de la síntesis del habla, cierta hipótesis que tenía sobre el cambio de sonido y, más en general, la interfaz entre fonología y fonética. Tuve la suerte de tener a mi disposición el Laboratorio de Fonética de Cornell (ver Historia del Laboratorio de Fonética de Cornell ), que albergaba una computadora DEC PDP 11/40 con un sintetizador de voz OVE IIId. El laboratorio tenía incluso un terminal de papel que, aunque era lento, ¡sin duda superaba a las tarjetas perforadas! Un laboratorio de este tipo totalmente equipado era un bien escaso en aquella época. Tenía uso casi exclusivo del laboratorio, ya que prácticamente no había ningún otro trabajo serio en fonología o fonética en la Universidad de Cornell en ese momento, y el laboratorio se convirtió en mi hogar lejos de casa durante muchos años.
Comencé mi doctorado. trabajo implementando un programa para probar mis hipótesis en el lenguaje de programación SLIP, una extensión de procesamiento de listas de FORTRAN 4. A pesar de las capacidades de procesamiento de listas de SLIP, rápidamente se hizo evidente que este lenguaje no era adecuado para la formulación de los tipos de reglas lingüísticas. involucrado en la síntesis; Los conceptos que podían plasmarse en unas pocas líneas de notación lingüística estándar a menudo requerían páginas de código en SLIP. Cada vez que revisaba mis hipótesis, era necesario un importante esfuerzo de programación para probarlas.
Para superar estas barreras, decidí desviar el tema de mi tesis del desarrollo de una teoría lingüística particular y, en cambio, centrarme en desarrollar una herramienta generalizada con la que los lingüistas pudieran probar fácilmente una amplia gama de teorías fonológicas y fonéticas. Con este fin, desarrollé SRS (Speech Research System), que incluía una notación especial orientada lingüísticamente para expresar reglas de síntesis. Con este sistema interactivo, los lingüistas podrían expresar y probar de manera eficiente reglas de síntesis para una variedad de idiomas.
En 1978, me aventuré a salir del Laboratorio de Fonética para asistir a mi primera conferencia, una reunión de la Sociedad Estadounidense de Acústica en Providence, Rhode Island. Allí presenté una charla sobre SRS y demostré sus primeras palabras. Después de la charla, varios investigadores y desarrolladores en fonética y síntesis de voz me invitaron a sus instituciones o me sugirieron que postulara a puestos de trabajo. Claramente mi decisión de pasar de la lingüística germánica a la investigación de la síntesis del habla había sido acertada.
De hecho, una persona de System Development Corporation en Virginia me ofreció un trabajo. Hasta ese momento no me había planteado una carrera comercial. Como no había terminado mi doctorado. trabajo, y aún inseguro de mi trayectoria profesional, rechacé el trabajo y en su lugar acepté un trabajo de consultoría a tiempo parcial para la empresa.
La oportunidad de consultoría me brindó lo mejor de todos los mundos. Podría continuar mi doctorado. trabajar, tener una idea de lo que era el mundo comercial e incluso ganar algo de dinero mientras lo hacía. Cuando obtuve mi doctorado. En 1979 decidí continuar por el camino que estaba siguiendo. Permanecí en el Laboratorio de Fonética, donde ocupé varios puestos a tiempo parcial enseñando e investigando en el área de síntesis del habla, y al mismo tiempo asesoré a varias empresas. Gran parte del desarrollo de la regla SRS que realicé fue financiado a través de mis actividades de consultoría.
Entre 1979 y 1983, utilicé SRS para desarrollar un conjunto de reglas de síntesis de texto a voz para inglés. En 1980, impartí una clase de síntesis de voz en la que mis alumnos utilizaban SRS para desarrollar conjuntos de reglas rudimentarias para alemán, holandés y español. En 1981, nació el primero de mis tres hijos, y mi hogar lejos del hogar se convirtió en una combinación de laboratorio y guardería con cambiador, parque y todo. (A pesar de haber oído más habla sintética que natural durante sus primeros seis meses de formación, me complace informar que mi hija se ha desarrollado con bastante normalidad.) En 1983, hice mi primer trabajo serio sobre el desarrollo de reglas de síntesis para una lengua distinta de Inglés, en colaboración con la Dra. Mary Beckman (entonces estudiante de posgrado en Cornell y ahora profesora de lingüística en la Universidad Estatal de Ohio) y el Dr. Osamu Fujimura (entonces jefe del Departamento de Lingüística y Análisis del Habla en los Laboratorios Bell y ahora profesor de Habla y Ciencias de la Audición en la Universidad Estatal de Ohio) sobre el desarrollo de reglas de síntesis basadas en SRS para japonés a partir de una entrada romanizada.
A pesar del formalismo de reglas orientado lingüísticamente y el entorno interactivo flexible proporcionado por SRS, a medida que aprendí más y más sobre la naturaleza del habla a través de mi trabajo con SRS, me quedó claro que el marco lingüístico particular integrado en el sistema estaba impidiendo el desarrollo. de modelos más sofisticados para una síntesis de voz de mayor calidad. Aunque a nivel fonético, SRS usó diferentes "flujos" para diferentes parámetros del sintetizador, los valores de los parámetros y las duraciones de los segmentos tuvieron que establecerse en relación con una única cadena lineal de segmentos del tamaño de un fonema en el nivel fonológico (lingüístico abstracto). Dado que SRS incluía un sesgo hacia este enfoque particular, el análisis de datos y la formación de reglas también absorbieron el sesgo. A medida que mi investigación descubrió alternativas preferibles, se hizo evidente la necesidad de una herramienta de desarrollo de reglas de síntesis más adaptable.
Los requisitos más claros para esta herramienta eran (a) una estructura de datos de varios niveles que pudiera hacer explícitas las relaciones entre todas las unidades fonológicas relevantes (definibles por el usuario) (por ejemplo, frases, palabras, sílabas, fonemas) y valores fonéticos cuantitativos, y ( b) un formalismo de reglas flexible para manipular esta estructura. En respuesta a estas necesidades, en 1983 comencé el desarrollo del Sistema Delta, en colaboración con dos científicos informáticos, Jim Kadin y Kevin Karplus. El sistema Delta fue diseñado para combinar las mejores características de los lenguajes de programación de propósito general y herramientas de desarrollo de reglas especializadas como SRS.
Mirando ahora en retrospectiva, queda claro cuán extremadamente ingenuo fui acerca de los recursos que se necesitarían para desarrollar el Sistema Delta. Había imaginado que podría continuar con mi estilo de vida fácil, obteniendo fondos suficientes para el desarrollo del Delta a través de trabajos de consultoría a tiempo parcial y puestos docentes a tiempo parcial en Cornell, mientras al mismo tiempo continuaba mi investigación básica en el área de síntesis. Si bien finalmente logré completar el desarrollo del sistema, fue un proceso de 10 años que requirió ingresos y horas mucho más allá de lo que jamás hubiera imaginado, y me llevó cada vez más al mundo comercial.
En 1983, comencé a hacer negocios como "Eloquent Technology", continuando mi trabajo de consultoría e impulsando el desarrollo del Sistema Delta a través de una combinación de ingresos por consultoría, inversiones privadas, ingresos por licencias de SRS y Delta, préstamos, subvenciones, contratos y otros ingresos. -actividades generadoras. Tres años más tarde, el Departamento de Lingüística y Lenguas Modernas se dio cuenta de que no iba a irme y me dieron un puesto a largo plazo como investigador asociado senior a tiempo parcial. En 1988 se incorporó Eloquent Technology y contraté a mis primeros empleados, que trabajaban fuera de mi casa.
Con el Sistema Delta, pude explorar nuevos modelos de síntesis, incluido el modelo de teléfono y transición para la expresión de generalizaciones relativas a la sincronización de patrones de formantes. Este modelo permite capturar mejor las regularidades acústicas subyacentes al habla que los modelos más convencionales de tipo SRS en los que se basan la mayoría de los sistemas de reglas de síntesis basados en reglas actuales, y conduce a una fácil división de las reglas de generación del habla entre aquellas que Son universales para todas las lenguas y aquellas que son específicas de un grupo de dialectos o de un dialecto en particular.
Entre los años 1990 y 1996, fui el investigador principal o director de proyectos en 13 subvenciones/contratos en el área de síntesis del habla (una para Cornell y 12 para Eloquent Technology, Inc.). En los diversos proyectos de subvención, mis colaboradores y yo investigamos una gran cantidad de idiomas fonéticamente diversos y cinco dialectos del inglés; desarrolló un enfoque modular para la síntesis de texto a voz en varios idiomas y dialectos; desarrolló reglas de síntesis para varios idiomas; y optimizó Delta y las reglas desarrolladas con él para una eventual productización. En nuestro enfoque modular, los componentes universales del idioma generan las propiedades fonológicas y acústicas comunes a todos los idiomas, los componentes universales del dialecto generan las propiedades comunes a todos los dialectos del idioma en cuestión, y los componentes específicos del idioma completan aquellos que son específicos del idioma. .
En 1995, Eloquent Technology, Inc. (ETI), con seis empleados, estaba a punto de reventar en su sótano y se mudó a una oficina exterior. El 26 de agosto de 1996, la empresa formó una asociación estratégica con IBM, que adquirió ciertas partes de la tecnología desarrollada por ETI y finalmente la incorporó a su línea ViaVoice de productos de voz. Este día fue trascendental no sólo para ETI, sino para mí personalmente, ya que finalmente, después de más de quince años, pude empezar a cobrar un salario que no tenía que volver a destinar a investigación y desarrollo. Entre 1996 y principios de 1998, con una plantilla de nueve personas, ETI desarrolló sistemas completos de conversión de texto a voz para cinco idiomas/dialectos adicionales (alemán, inglés británico, italiano, español castellano y francés parisino) y los incorporó al programa ETI-Eloquence. producto, ilustrando así el poder de la amplia base tecnológica en la que se basa el producto.
Desde el lanzamiento de su primera versión multilingüe de ETI-Eloquence en 1998, ETI ha agregado muchas características nuevas al sistema, ha mejorado la calidad de los idiomas y dialectos y ha agregado nuevos idiomas y dialectos, incluidos el portugués brasileño, el finlandés y el japonés. , chino mandarín, francés canadiense, español mexicano y coreano. ETI también ha optimizado el sistema para una utilización mínima de la memoria, de modo que sea más útil en general para aplicaciones integradas.
En enero de 2001, Eloquent Technology, Inc. se fusionó con SpeechWorks International, Inc., una empresa que cotiza en bolsa con sede en Boston. El grupo Eloquent, de aproximadamente quince personas, ha permanecido intacto en Ítaca. Su tecnología ahora se comercializará más ampliamente y se integrará en soluciones SpeechWorks de diversos tipos.
Susan.
Hertz2001

~msgScore~: +1

4052. nathalie , Apr 7 2024 13:50:52

buena historia mi estimado

~msgScore~: +0

4053. El-Megalovano, Apr 7 2024 16:43:27

Increible historia. Por su puesto que yo sé de quién fue la fundadora de ETI. Como dije hace posts atrás 2 años, ella ahora es presidenta de Sinfonica.

~msgScore~: +0

4054. nathalie , Apr 7 2024 22:20:21

una buena historia, con cuerdo jajsjajs

~msgScore~: +0

4055. el_brillante, Apr 7 2024 22:33:38

interesante la historia del mejor sintetizador para mi gusto. es rápido, liviano, y no imposible de pagar. y como jaws adquiere el sintetizador y lo convierte a la voz principal? hasta zoomtex tiene la misma voz

~msgScore~: +0

4056. Ricochet, Apr 8 2024 05:05:48

alguien me enseña porfa cómo atrapar la clave api para poder usar las voces de azure y cómo me puedo registrar para poder pagar por uso? Gracias!

~msgScore~: +0

4057. nathalie , Apr 8 2024 18:33:36

aguante eloquence, el papi de los sintetizadores. como que zoomtext? esa app nunca la escuché, jajaja

~msgScore~: +0

4058. Una-IA-andante, Apr 8 2024 18:44:03

zoomtest fue un magnificador de pantalla, no sé si aún existe, y en su momento tenía otro sintetizador integrado, L&H Truvoice que eran voces algo más antiguas que L&H 3000 que ya conocés. Pero como yo no tengo nada de resto visual nunca en mi ivda vi necesidad de usar magnificador de pantalla, así que no conozco más.

~msgScore~: +0

4059. nathalie , Apr 8 2024 18:49:56

aaa graciaas. hablando de tru voice, las escuché, y cuando por ejemplo, cuando se termina una oración, estas lanzan como mini beeps, no son todas las veces que se hacen este tipo de cosas, se diría como un 50% jaja

~msgScore~: +0

4060. El-Megalovano, Apr 9 2024 01:24:05

Fue? Creo que lo sigue ciendo si descargó Freedom Scientific Fusion, que tiene JAWS y ZoomText en él.

~msgScore~: +0

4061. el_brillante, Apr 9 2024 01:38:06

yo tengo zoomtex 10 y es compatible con la versión de Windows 10. tiene una de las variantes de eloquence y anda muy bien. no entré a las configuraciónes, así que no podría comentar sobre las voces. pero el variante de eloquence que se utiliza en zoomtex se llama carlos. zoomtex es un magnificador de pantalla como magic, o la lupa de Windows. pero yo le encontré algunas cosas fáciles, por ejemplo. con alt++ se aleja, y alt+menos se acerca. con un comando puedes dividir pantalla y el lector de pantalla lee muy poco

~msgScore~: +0

4062. Willem, Apr 10 2024 14:46:17

Brillante, el tal Carlos que dices no es la voz de IBM Viavoice para Sapi 4?

~msgScore~: +0

4063. nathalie , Apr 10 2024 14:49:38

ni idea jaja, quizás sea la voz de Carlos de eloquence para sapi4

~msgScore~: +0

4064. Borja , Apr 10 2024 14:50:50

No, carlos de eloquence es el reed de ahora.

~msgScore~: +0

4065. elsocodrilo , Apr 10 2024 15:23:24

hola alguien sabe como hacer funcionar el lhtts 3000 en NVDA?

~msgScore~: +0

4066. nathalie , Apr 10 2024 16:18:00

para @anianga, para hacer funcionar el l&h TTS en NVDA, tienes que ejecutar el mismo como administrador. saludos

~msgScore~: +0

4067. elsocodrilo , Apr 10 2024 17:14:44

gracias compañera

~msgScore~: +0

4068. Una-IA-andante, Apr 10 2024 17:29:09

La cosa entre variantes de Eloquence e IBM TTS es así, según mi oído claro:
Primero, tengamos en cuenta que, como suele pasar con otros sintetizadores por formantes, en cada idioma les ponen un nombre medio diferente, o medio similar, ya que en EecTalk suele pasar lo mismo.
Reed de Eloquence, es Carlos en IBM, en español de España, y José en español mexicano, si no recuerdo mal. no puedo recordar los nombres que les pusieron en español mexicano. Solo se me vino José.
Shelly (a saber por qué a estas versiones para NVDA le pusieron Shelley cuando en JAWS se llama Shelly) es Pilar, en IBM.
A Bobby le pusieron Pepe.
rocko no está, y de hecho me llama la atención que en IBM Carlos y default son la misma voz.Granthma y granthpa son Abuela y abuelo respectivamente, y después Glen y sandi no son más qe Reed y Shelly con tono más agudo y algo más de entonación.
Yo era chiuito, usaba JAWS y hacía un montón de juegos re imaginarios con todas esas variantes, como que eran una familia, Reed era el papá, rocko era un tipo malo que quería secuestrar a Bobby y lo quería ahogar, no recuerdo xd mucho xd. eso era cuando yo tendría 7 u 8 años.

~msgScore~: +0

4069. Willem, Apr 11 2024 14:40:27

jajajajaja yo nunca jugué con esas voces, pero efectivamente era José en español de México. abuelita y abuelito, no recuerdo más. y las de teléfono que cambiaban poquísimo. calos teléfono, (Adult Male) y pilar teléfono

~msgScore~: +0

4070. nathalie , Apr 11 2024 18:28:32

jajajajajajajajajajaj si

~msgScore~: +0

4071. ElMontarro, Apr 12 2024 02:03:02

Oigan, se me viene la duda. ¿Como por que el complemento de Eloquence se llama IBMTTS? ¿tiene que ver con la adquisición que tuvo en su tiempo IBM a Eloquence?

~msgScore~: +0

4072. nathalie , Apr 12 2024 20:28:56

por mi pensamiento, si. sería por eso lo que dices

~msgScore~: +0

4073. rodrigo, Apr 15 2024 18:33:23

hola chicos una consulta.
saben que voz es esta?
https://www.youtube.com/shorts/4OHwVim2Wwg

~msgScore~: +0

4074. Yisuslavestia, Apr 15 2024 18:58:19

Es Eleven Labs. Una de las tantas voces de Eleven Labs y la más usada por TickTok.

~msgScore~: +0

4075. nathalie , Apr 15 2024 21:13:56

bue y no se suponía que la voz más usada de tiktok era una voz que se llamaba alex? Bue, ya cambió todo jaja

~msgScore~: +0

4076. El-Megalovano, Apr 17 2024 21:02:30

Extra Extra! Estimados usuarios de Vocalizer para NVDA,

Nos complace anunciar una nueva versión de Voces para NVDA, desarrollada por AccessMind en plena colaboración con Tiflotecnia, disponible a partir del 1 de mayo de 2024.

Esta versión se comercializará y distribuirá como Tiflotecnia voices 4.0.
La siguiente es una lista de los cambios en la nueva versión:

Mejora significativa del rendimiento y la estabilidad gracias a una arquitectura de motor completamente nueva.
Acceso a versiones modernas de Cerence TTS (Vocalizer) con todas las últimas voces disponibles, con actualizaciones continuas.
Una utilidad de gestión de voces que permite descargar, instalar y eliminar voces con unos pocos clics.
Un nuevo sistema de gestión de licencias con la opción de activación offline, y prueba del producto antes de la compra.
Una futura ampliación con nuevas funciones que se anunciará a finales de este año.

Con este anuncio, también llegan algunos cambios importantes para los usuarios actuales de Vocalizer for NVDA:

Hemos sido informados por CodeFactory acerca de sus planes de discontinuar su complemento Vocalizer/Eloquence. Esto significa que no se proporcionarán correcciones de compatibilidad más allá de NVDA 2024.1. Lamentablemente, esto también significa que Eloquence para NVDA no se mantendrá. Rayos, va a empezar a llover, eso sí, otra vez Eloquence se va del camino legal. A ver Cerence Microsoft porqué no lo reviven? A finales de este año, lanzaremos una nueva versión de nuestro motor que soportará la carga de los diccionarios de usuario existentes de CodeFactory, para facilitar la migración, y seguiremos cooperando con CodeFactory para asegurarnos de que todos tengamos la mejor experiencia posible.
Tiflotecnia ha decidido dejar de mantener las versiones actuales de Vocalizer Automotive y Vocalizer Expressive así que, se acabaron las actualizaciones de controladores. Adiós diego de españa, por su puesto.

Las futuras actualizaciones sólo llegarán para los clientes de la versión 4.0.
Debido a la necesidad de desarrollar un motor y un sistema de gestión de licencias completamente nuevos, no podemos ofrecer actualizaciones gratuitas como esperábamos. En su lugar, estamos ofreciendo un precio reducido de actualización de 50 euros a todos los clientes existentes de Tiflotecnia y CodeFactory.

Sentimos las molestias que estos cambios puedan causar.

Esperamos que disfrute utilizando nuestra nueva versión de Voices para NVDA.

El precio para el usuario final será el mismo de Vocalizer Expressive, es decir, 90,00 euros.

Reciban un cordial saludo,

Los equipos de Tiflotecnia y AccessMind

~msgScore~: +0

4077. elsocodrilo , Apr 17 2024 23:18:49

hola necesito el tutorial para hacer afinar al IBM TTS GRACIAS

~msgScore~: +0

4078. El-Megalovano, Apr 18 2024 01:07:39

No se si recuerdo, pero posts atrás o más adelante creo.

De todas formas qué opinan del nuevo aporte? De seguro que Eloquence legalmente se juvilaría otra vez? Qué pasaría con nuestras voces? Habrá esas nuevas voces de Cerence que habían mencionado, como esa voz de Ecuador que no recuerdo el nombre? Después de casi 11 años con Vocalizer Expressive y al tiempo que me dí cuenta que tenían voces Loquendo (obvio porque esta fue comprada por Nuance Communications, INC.) Y de seguro suenan algo expresivas, de todas formas a esperar hasta el día de la internacional.

~msgScore~: +0

4079. elsocodrilo , Apr 18 2024 01:20:19

opino que... ando pobre así que...

~msgScore~: +0

4080. El-Megalovano, Apr 18 2024 11:08:47

Lo sé, me incluyo, y eso que aún no salió, a esperar hasta el día de la internacional para saber. Pero de lo que escuché cuesta el mismo precio que Vocalizer Expressive. Vaya discusión con la legalidad de Eloquence, y eso que dige anteriormente que Eloquence se iría de lo legal, pero lo único que tengo de legal es utilizar como motor SAPI5 namá.

~msgScore~: +0

4357 Nachrichten, 146 Seiten: 1…; 134 135136 137 138…; 146 ↖ Zurück zur Themenliste

Nach oben springen ↑
Zum Inhalt springen ↑

Auf das Thema antworten

Sie müssen angemeldet sein, um posten zu können