4051. ElTaquero,
¡Miren nada más lo que encontré! Esta es la historia de Eloquence para los que incluyéndome, no la conocían. Y para los que sí... bueno, ahí ta jaja.
Una narrativa personal.
Cuando comencé mis estudios de posgrado en Lingüística Germánica en el Departamento de Lingüística y Lenguas Modernas de la Universidad de Cornell en 1972, no tenía la menor idea del camino profesional que me esperaba. Como la mayoría de los estudiantes de lingüística en ese momento, imaginaba una carrera académica, pero pronto me desilusioné por el terrible mercado laboral y la perspectiva de terminar vendiendo zapatos o conduciendo un taxi. Al mismo tiempo, hice mi primer curso de informática. Nunca antes había tocado una computadora, pero, a pesar del tedioso proceso de perforar programas en tarjetas y los tiempos de espera de un día para ejecutar los programas (solo para encontrar un error y repetir el doloroso proceso), instantáneamente quedé cautivado con la idea. de compatibilizar mis intereses por la lingüística y la informática. Cambié mi especialización a lingüística general y agregué una especialización en informática.
Cuando llegó el momento de embarcarme en mi doctorado. En mi tesis de 1974, decidí añadir a la mezcla mi interés por la fonética, optando por explorar, a través de la síntesis del habla, cierta hipótesis que tenía sobre el cambio de sonido y, más en general, la interfaz entre fonología y fonética. Tuve la suerte de tener a mi disposición el Laboratorio de Fonética de Cornell (ver Historia del Laboratorio de Fonética de Cornell ), que albergaba una computadora DEC PDP 11/40 con un sintetizador de voz OVE IIId. El laboratorio tenía incluso un terminal de papel que, aunque era lento, ¡sin duda superaba a las tarjetas perforadas! Un laboratorio de este tipo totalmente equipado era un bien escaso en aquella época. Tenía uso casi exclusivo del laboratorio, ya que prácticamente no había ningún otro trabajo serio en fonología o fonética en la Universidad de Cornell en ese momento, y el laboratorio se convirtió en mi hogar lejos de casa durante muchos años.
Comencé mi doctorado. trabajo implementando un programa para probar mis hipótesis en el lenguaje de programación SLIP, una extensión de procesamiento de listas de FORTRAN 4. A pesar de las capacidades de procesamiento de listas de SLIP, rápidamente se hizo evidente que este lenguaje no era adecuado para la formulación de los tipos de reglas lingüísticas. involucrado en la síntesis; Los conceptos que podían plasmarse en unas pocas líneas de notación lingüística estándar a menudo requerían páginas de código en SLIP. Cada vez que revisaba mis hipótesis, era necesario un importante esfuerzo de programación para probarlas.
Para superar estas barreras, decidí desviar el tema de mi tesis del desarrollo de una teoría lingüística particular y, en cambio, centrarme en desarrollar una herramienta generalizada con la que los lingüistas pudieran probar fácilmente una amplia gama de teorías fonológicas y fonéticas. Con este fin, desarrollé SRS (Speech Research System), que incluía una notación especial orientada lingüísticamente para expresar reglas de síntesis. Con este sistema interactivo, los lingüistas podrían expresar y probar de manera eficiente reglas de síntesis para una variedad de idiomas.
En 1978, me aventuré a salir del Laboratorio de Fonética para asistir a mi primera conferencia, una reunión de la Sociedad Estadounidense de Acústica en Providence, Rhode Island. Allí presenté una charla sobre SRS y demostré sus primeras palabras. Después de la charla, varios investigadores y desarrolladores en fonética y síntesis de voz me invitaron a sus instituciones o me sugirieron que postulara a puestos de trabajo. Claramente mi decisión de pasar de la lingüística germánica a la investigación de la síntesis del habla había sido acertada.
De hecho, una persona de System Development Corporation en Virginia me ofreció un trabajo. Hasta ese momento no me había planteado una carrera comercial. Como no había terminado mi doctorado. trabajo, y aún inseguro de mi trayectoria profesional, rechacé el trabajo y en su lugar acepté un trabajo de consultoría a tiempo parcial para la empresa.
La oportunidad de consultoría me brindó lo mejor de todos los mundos. Podría continuar mi doctorado. trabajar, tener una idea de lo que era el mundo comercial e incluso ganar algo de dinero mientras lo hacía. Cuando obtuve mi doctorado. En 1979 decidí continuar por el camino que estaba siguiendo. Permanecí en el Laboratorio de Fonética, donde ocupé varios puestos a tiempo parcial enseñando e investigando en el área de síntesis del habla, y al mismo tiempo asesoré a varias empresas. Gran parte del desarrollo de la regla SRS que realicé fue financiado a través de mis actividades de consultoría.
Entre 1979 y 1983, utilicé SRS para desarrollar un conjunto de reglas de síntesis de texto a voz para inglés. En 1980, impartí una clase de síntesis de voz en la que mis alumnos utilizaban SRS para desarrollar conjuntos de reglas rudimentarias para alemán, holandés y español. En 1981, nació el primero de mis tres hijos, y mi hogar lejos del hogar se convirtió en una combinación de laboratorio y guardería con cambiador, parque y todo. (A pesar de haber oído más habla sintética que natural durante sus primeros seis meses de formación, me complace informar que mi hija se ha desarrollado con bastante normalidad.) En 1983, hice mi primer trabajo serio sobre el desarrollo de reglas de síntesis para una lengua distinta de Inglés, en colaboración con la Dra. Mary Beckman (entonces estudiante de posgrado en Cornell y ahora profesora de lingüística en la Universidad Estatal de Ohio) y el Dr. Osamu Fujimura (entonces jefe del Departamento de Lingüística y Análisis del Habla en los Laboratorios Bell y ahora profesor de Habla y Ciencias de la Audición en la Universidad Estatal de Ohio) sobre el desarrollo de reglas de síntesis basadas en SRS para japonés a partir de una entrada romanizada.
A pesar del formalismo de reglas orientado lingüísticamente y el entorno interactivo flexible proporcionado por SRS, a medida que aprendí más y más sobre la naturaleza del habla a través de mi trabajo con SRS, me quedó claro que el marco lingüístico particular integrado en el sistema estaba impidiendo el desarrollo. de modelos más sofisticados para una síntesis de voz de mayor calidad. Aunque a nivel fonético, SRS usó diferentes "flujos" para diferentes parámetros del sintetizador, los valores de los parámetros y las duraciones de los segmentos tuvieron que establecerse en relación con una única cadena lineal de segmentos del tamaño de un fonema en el nivel fonológico (lingüístico abstracto). Dado que SRS incluía un sesgo hacia este enfoque particular, el análisis de datos y la formación de reglas también absorbieron el sesgo. A medida que mi investigación descubrió alternativas preferibles, se hizo evidente la necesidad de una herramienta de desarrollo de reglas de síntesis más adaptable.
Los requisitos más claros para esta herramienta eran (a) una estructura de datos de varios niveles que pudiera hacer explícitas las relaciones entre todas las unidades fonológicas relevantes (definibles por el usuario) (por ejemplo, frases, palabras, sílabas, fonemas) y valores fonéticos cuantitativos, y ( b) un formalismo de reglas flexible para manipular esta estructura. En respuesta a estas necesidades, en 1983 comencé el desarrollo del Sistema Delta, en colaboración con dos científicos informáticos, Jim Kadin y Kevin Karplus. El sistema Delta fue diseñado para combinar las mejores características de los lenguajes de programación de propósito general y herramientas de desarrollo de reglas especializadas como SRS.
Mirando ahora en retrospectiva, queda claro cuán extremadamente ingenuo fui acerca de los recursos que se necesitarían para desarrollar el Sistema Delta. Había imaginado que podría continuar con mi estilo de vida fácil, obteniendo fondos suficientes para el desarrollo del Delta a través de trabajos de consultoría a tiempo parcial y puestos docentes a tiempo parcial en Cornell, mientras al mismo tiempo continuaba mi investigación básica en el área de síntesis. Si bien finalmente logré completar el desarrollo del sistema, fue un proceso de 10 años que requirió ingresos y horas mucho más allá de lo que jamás hubiera imaginado, y me llevó cada vez más al mundo comercial.
En 1983, comencé a hacer negocios como "Eloquent Technology", continuando mi trabajo de consultoría e impulsando el desarrollo del Sistema Delta a través de una combinación de ingresos por consultoría, inversiones privadas, ingresos por licencias de SRS y Delta, préstamos, subvenciones, contratos y otros ingresos. -actividades generadoras. Tres años más tarde, el Departamento de Lingüística y Lenguas Modernas se dio cuenta de que no iba a irme y me dieron un puesto a largo plazo como investigador asociado senior a tiempo parcial. En 1988 se incorporó Eloquent Technology y contraté a mis primeros empleados, que trabajaban fuera de mi casa.
Con el Sistema Delta, pude explorar nuevos modelos de síntesis, incluido el modelo de teléfono y transición para la expresión de generalizaciones relativas a la sincronización de patrones de formantes. Este modelo permite capturar mejor las regularidades acústicas subyacentes al habla que los modelos más convencionales de tipo SRS en los que se basan la mayoría de los sistemas de reglas de síntesis basados en reglas actuales, y conduce a una fácil división de las reglas de generación del habla entre aquellas que Son universales para todas las lenguas y aquellas que son específicas de un grupo de dialectos o de un dialecto en particular.
Entre los años 1990 y 1996, fui el investigador principal o director de proyectos en 13 subvenciones/contratos en el área de síntesis del habla (una para Cornell y 12 para Eloquent Technology, Inc.). En los diversos proyectos de subvención, mis colaboradores y yo investigamos una gran cantidad de idiomas fonéticamente diversos y cinco dialectos del inglés; desarrolló un enfoque modular para la síntesis de texto a voz en varios idiomas y dialectos; desarrolló reglas de síntesis para varios idiomas; y optimizó Delta y las reglas desarrolladas con él para una eventual productización. En nuestro enfoque modular, los componentes universales del idioma generan las propiedades fonológicas y acústicas comunes a todos los idiomas, los componentes universales del dialecto generan las propiedades comunes a todos los dialectos del idioma en cuestión, y los componentes específicos del idioma completan aquellos que son específicos del idioma. .
En 1995, Eloquent Technology, Inc. (ETI), con seis empleados, estaba a punto de reventar en su sótano y se mudó a una oficina exterior. El 26 de agosto de 1996, la empresa formó una asociación estratégica con IBM, que adquirió ciertas partes de la tecnología desarrollada por ETI y finalmente la incorporó a su línea ViaVoice de productos de voz. Este día fue trascendental no sólo para ETI, sino para mí personalmente, ya que finalmente, después de más de quince años, pude empezar a cobrar un salario que no tenía que volver a destinar a investigación y desarrollo. Entre 1996 y principios de 1998, con una plantilla de nueve personas, ETI desarrolló sistemas completos de conversión de texto a voz para cinco idiomas/dialectos adicionales (alemán, inglés británico, italiano, español castellano y francés parisino) y los incorporó al programa ETI-Eloquence. producto, ilustrando así el poder de la amplia base tecnológica en la que se basa el producto.
Desde el lanzamiento de su primera versión multilingüe de ETI-Eloquence en 1998, ETI ha agregado muchas características nuevas al sistema, ha mejorado la calidad de los idiomas y dialectos y ha agregado nuevos idiomas y dialectos, incluidos el portugués brasileño, el finlandés y el japonés. , chino mandarín, francés canadiense, español mexicano y coreano. ETI también ha optimizado el sistema para una utilización mínima de la memoria, de modo que sea más útil en general para aplicaciones integradas.
En enero de 2001, Eloquent Technology, Inc. se fusionó con SpeechWorks International, Inc., una empresa que cotiza en bolsa con sede en Boston. El grupo Eloquent, de aproximadamente quince personas, ha permanecido intacto en Ítaca. Su tecnología ahora se comercializará más ampliamente y se integrará en soluciones SpeechWorks de diversos tipos.
Susan.
Hertz2001
~msgScore~: +1