miércoles, 23 de junio de 2010

DISEÑO Y DESARROLLO DE PROTOTIPOS:

“DISEÑO Y DESARROLLO DE PROTOTIPO DE SISTEMA DE TRADUCCION INSTANTANEA DE HABLA Y TRANSMISION EN TIEMPO REAL, SOBRE EL PROTOCOLO RTP UTILIZANDO TECNOLIGIAS DE RECONOCIMIENTO DE VOZ.”

ESPECTRO DE LA PALABRA AUDIO









RESUMEN

Este documento propone el desarrollo de un prototipo de sistema de traducción de habla. Este consiste básicamente en la captura de flujo de voz del emisor integrando tecnologías de reconocimiento de voz avanzada, traducción instantánea, y comunicación sobre el protocolo internet RTP (protocolo de transporte de tiempo real) para enviar en tiempo real la información al receptor. Este prototipo no transmite imagen, solo aborda la etapa de audio.

INTRODUCCION

Actualmente internet brinda distintas y eficientes formas de comunicarnos casi instantáneamente y sin importar que tan lejanas se encuentren las personas. No obstante en el tema de video conferencia y específicamente en comunicaciones por voz, todavía quedan obstáculos que dificultan una plena comunicación, uno de ellos es la diferencia de lenguas e idiomas. “ESTE ES EL TEMA EN EL CUAL SE ENFOCA LA SOLUCION PROPUESTA EN ESTE DOCUMENTO.”

Palabras Claves - habla, reconocimiento, síntesis, RTP, traducción, tiempo, VoIP, voz.

EL PROCESO DE RECONOCIMIENTO DE VOZ SE PUEDE EXPLICAR EN DOS PASOS:
1. Extracción de fonemas: Los fonemas son unidades lingüísticas, sonidos que al agruparlos forman palabras. Son la unidad fonológica más pequeña en que puede dividirse un conjunto fónico; por ejemplo la palabra /páso/ “paso”, está formada por una serie de cuatro fonemas, ya que el máximo de unidades mínimas en que puede ser dividida es /p/+/a/+/s/+/o/ [2]. .
2. Conversión de los fonemas en palabras identificables: Este proceso se puede realizar con ayuda de métodos topológicos, probabilísticos y de redes neuronales. Cada uno de ellos se detallarán en el punto 2.3 “Métodos de reconocimiento de voz”

FUNDAMENTOS SOBRE RECONOCIMIENTO DE VOZ
La capacidad auditiva de un ser humano se caracteriza por percibir audio en un rango de 16Hz a 16Khz [1], y por diferenciar y comprender fácilmente distintos tipos de fuentes sonoras. Sin embargo, para que las máquinas logren tener esta última habilidad, se está trabajando durante muchos años. Dichos esfuerzos, han culminado en resultados que ya están presentes en el mercado mundial, y que se integran poco a poco al diario vivir
Ramas del Reconocimiento de voz:

Las técnicas de reconocimiento de voz se dividen en tres ramas principales [3]:
1. Reconocimiento de voz o Reconocimiento del habla: proceso que consiste en convertir un mensaje hablado en texto. Es la rama que más ha crecido en los últimos años.
2. Conversión texto-a-voz: generación de audio que emule la voz humana (síntesis de voz, TTS del inglés Text-To-Speech) a partir de información en formato texto digital.
3. Reconocimiento de Locutores: identificación o verificación de la persona que le habla a un sistema; su uso se proyecta como parte de medidas de seguridad.
La codificación de voz, también se postula como una rama del reconocimiento de voz; aunque pudiese considerarse un tema complementario al estar más relacionado con los canales de comunicación y el aprovechamiento del ancho de banda
Un tipo de HMM especialmente apropiado para reconocimiento de voz son los modelos "de izquierda a derecha" (
Fig. 2.3.2-1); modelos en los que una vez abandonado un estado ya no se puede volver a él. Su plantilla se conforma de vectores que se obtienen en cada uno de los nodos recorridos; cada nodo visitado genera un vector [6].

MODELO DE IZQUIERDA A DERECHA SIMPLIFICADO


REDES NEURONALES

El empleo de redes neuronales en el reconocimiento de voz se justifica debido a que estas redes intentan emular complejos procesamientos cerebrales, y uno de ellos es precisamente el reconocimiento del habla. Además, su gran capacidad de resolver problemas que con otros métodos requieren mucha carga para los computadores, como son: el reconocimiento de patrones, evaluación de hipótesis y predicción.
Las redes neuronales organizan sus neuronas en capas (
Fig. 2.3.3-1). Existe una capa de entrada y una de salida. La capa de entrada procesa directamente los vectores o plantillas, si el resultado de la operación de cada neurona supera un umbral predefinido la neurona realiza sinapsis con sus neuronas post-sinápticas. De esta forma, el resultado de la aplicación de una función de transformación no lineal a la combinación lineal de todos los puntos de la plantilla de entrada se traspasa a las neuronas siguientes.