[Solar-tecnica] Idioma castellano para festival 100% libre: se necesitan voluntarios.

Mar Nov 7 10:12:56 CET 2006

Hola Marcos:

El lunes, 06 de noviembre de 2006 (22:37:11), usted escribió:

MG> El Mar 07 Nov 2006 03:15, Ricardo M. Morales escribió:

>> entiendo que por un lado está el motor de síntesis de voz, por otro los
>> estudios fonéticos de lenguajes y metalenguajes ... y una vez resuelta
>> toda la lógica y la matemática básica de eso, entonces se puede ver
>> cómo sintentizar la voz, o grabar los fonemas básicos (miles), etc.-

MG> No tengo problemas en grabar miles de fonemas básicos, si de ese modo incluso
MG> queda más humana la voz. Preferiría hacerla así que inventar la rueda con
MG> parámetros de síntesis.

hay "diccionarios" de fonemas básicos, ya están hechos, sé que existen
porque ya existían hace 20 o 30 años, pero no me dedico a eso desde
ese tiempo, por lo que no se mucho más de lo que comento.-

el tema (lo complejo) es traducir grafía (letras) en fonemas (sonidos),
no es tan simple como parece, y si se usan esquemas simplificados,
el nivel de error es muy alto, aunque una forma de simplificarlo,
para empezar, es por ejemplo usar sistemas "entrenables" como los
que aplican (se basan en el concepto de) redes neuronales.-

digamos en pocas palabras, para empezar hay que detectar las sílabas,
que por "definición" son los equivalentes en grafía a los fonemas, si
la cosa quedara ahí sería relativamente simple, aunque ya tendríamos
algunos miles de fonemas ... pero luego hay que contextualizar la
sílaba, ya que muchas veces su sondo depende de lo que la rodea ...
o de la forma en la que se la está usando, y ahí se complica un poco
la cosa, sin mencionar entonaciones y otros factores ...

pero si lo dejamos a nivel de fonemas básicos, aislados, entonces hace
falta un detector de sílabas (lo más confiable posible, porque sería
siempre la etapa crítica) y un transcriptor a fonemas (en lo que la
única dificultad, teniendo el diccionario de fonemas, sería grabarlos,
almacenarlos y disponerlos de modo accesible con relativa agilidad.-

para dar una idea de complejidad inicial, cada fonema representaría una
sílaba posible (imaginen la combinatoria en nuestro dulce y rico idioma).-

algo que se hacía ya hace tiempo, y se sigue haciendo, es unificar
grupos de sílabas fonéticamente similares en fonemas únicos, eso se
hacía sobre todo en dispositivos reducidos.-

también, algo que se hace y hacía, es reducir la expresión a vocabularios
limitados, es decir, tomar el concepto de que en la práctica, y más en
ciertos temas, realmente no se usan tantas palabras, y grabar esas
palabras, o fragmentos predecibles del microvodiccionario elegido.-

por ejemplo, en sistemas que incluyen lectura numérica (como los que
dicen la hora, y los controladores de ciertos dispositivos), los fonemas
básicos son apenas unas docenas, eso achica mucho el universo :-)

la dificultad luego al grabar los fonemas es unificar la entonación, y
anticipar algunas posibles combinaciones, ya que aunque no se quiera hay
que contextualizar en lo que sea posible ... ¿o no les suena raro algunas
veces la forma en que algunos aparatos leen la hora? que en mitad de la
expresión suena como si la estuviera finalizando :-) [sonrisa]

si llevamos esto a la computadora, podría elaborarse un sistema de
macros, o scripts, que integre expresiones comunes, como descriptores
de menús, íconos, etc, y que se vaya expandiendo con las plantillas
necesarias para ciertos programas, deletreando cuando no haya una
expresión específica prevista o conocida ... es más o menos la base
del sistema gestual de los sordos, tiene expresiones para conceptos o
palabras, y deletrea cuando no se tiene o no es sabe la expresión,
por ejemplo al encontrar un nombre, o una expresión en otro idioma.-

sobre la síntesis, el esquema básico, una vez determinado el esquema
de fonemas a utilizar, en su formato de almacenamiento es algo
asimilable al esquema de los midis (aunque algo más complejo,
digmos que es una descripción que puede integrar conceptos de
fractales y algo de mp3 para sonidos muy específicos) ...

no es algo del otro mundo, ni termina de llegar a este ... requiere mucho
tiempo total, lo que SI es alcanzable con el esquema de trabajo de la
comunidad, es decir, no "buscar" miles de horas de pocas personas, sino
pocas horas de miles o millones de personas, trabajando colaborativamente :-)

>> alguien en el equipo pensó que podría intentarse un motor básico de
>> síntesis de voz en español, un primer estudio lo determinó inviable,
>> al menos con los recursos que podíamos disponer entonces (1987/88),

MG> cambió todo.

en realidad no tanto, apenas aumentó un poco la capacidad de
procesamiento y comunicacional, pero los esquemas matemáticos y
sicolingüísticos esenciales apenas avanzaron ... casi nada ...

aunque lo que si cambió es crítico, y hace mucho más viable el tema.-

por eso es que algunos lo están encarando ... o lo intentan seriamente :-)

MG> Desde ya eso supondría ni siquiera usar festival, sino diseñar otro programa,
MG> pero a la vez sería lento, porque BASH es lento en parte pero más que nada
MG> porque procesar audio en wav u ogg, sería lento en determinados equipos...
MG> así y todo, lo considero viable.

por velocidad operativa, creo que tendría que ser algo compilado, o
precompilado, ... pienos que algo interpretado sería demasiado lento.-

MG> Pero esa es otra idea, no sería un motor para festival sino algo nuevo.

ambas ideas son razonables y apuntn a soluciones aceptablemente útiles.-

MG> No te creas, entiendo que me estás dando una experiencia vivida, y todo, pero
MG> yo me lo imagino más sencillo el asunto.

el nivel de complejidad es relativo a cómo se lo mire, creo que ahora
es mucho más accesible que antes, pero no es soplar y hacer botellas,
ni tampoco reinventar la pólvora.-

tal vez no esté a mi alcance real aportar mucho más de lo que ya dije, porque realmente
ya no me dedico ni me puedo dedicar al tema, no en la etapa de desarrollo ni nada similar,
aunque si en alguna otra cosita, tal vez, pero serían aportse muy puntuales ... espero que
al menos esto pueda servir como para ir impulsando el tema y que varios lo sigan.-

la experiencia y/o contactos de unos cuantos pueden servir de base para continuar.-

>> ahí es donde cabe la once (organización de ciegos de españa), que
>> finalmente, y luego de varios años, recientemente empezó a impulsar algunos
>> proyectos relacionados con motores de síntesis de voz adecuados a usuarios
>> en español.-

MG> ¿Libres?

la distro de linux hasta donde recuerdo sería libre, costó mucho convencer a la once
de impulsar iniciativas de desarrollo libre, porque el esquema tradicional de la once
estaba (está aun) demasiado relacionado con lo privativo (como modelo de negocios)
si recuerdan mis chinches de hace algunos años (los que me conocen de antes)
justamente apuntaban por ese lado ... y el mundo siguió girando :-)

no recuerdo ni tengo a mano ahora las referencias del proyecto, pero podrían ponerse en
contacto con gente de foal (delegación de once para américa latina) y faica (federación
argentina de ciegos) o bac (biblioteca argentina para ciegos) usando los datos que
indiqué hace unos meses, y que ya había comentado antes ...

lo que puedo hacer es decirva este diálogo, con algunos comentarios, para contextualizar,
a usuarios ciegos, que son referentes y o colegas en estos temas, en ese entorno.-

en argentina los principales están digamos en baires city, la plata y córdoba ...
que es donde por razones históricas se terminan concentrando muchos recursos :-)

sobre la once, para contextualizar un poco, y recordar comentarios anteriores (mios)
es la que está/estuvo a cargo de buena parte de la migración a accesibilidad de windows,
lo que se logró luego de una "charla" con don bill gates ... en la que según cuenta la
leyenda, el hombrecito este quiso mostrarles lo faŽcil que era usar la computadora
entonces le apagaron el monitor y le dijeron algo como, "ahora muestre, así es la
computadora para nosotros" ... respuesta: "chicos, quedan contratados" ... :-) [sonrisa]

la unidad tecnológica (R&D) de la once es el CIDAT/UTT.-

la once en la práctica es el principal (o uno de ellos) entidad de
movilización global de recursos y desarrollos para y por discapacidad.-

po eso la menciono, porque si se hace algo con discapacidad, sobre todo relacionado con
ciegos, antes o después se termina integrando con la once ... ¡¿bien para todos?!

chaucito y abrazotes ...

ps: 6 am, salgo a dar clases en varias escuelas, regreso a la noche ...