23/11 Work in Progress: 20231115

Oct 30, 2023

Hand alphabet recognition and translation

(gl) Recoñecemento e tradución do alfabeto dactilolóxico en lingua de signos (es) Reconocimiento y traducción del alfabeto dactilológico en lengua de signos

Student

Yolanda Escolante de la Torre

Final year project, BSc in Computer Science, UDC
(TFG Grao en Enxeñería Informática, UDC)

Supervision

Ester Martínez Martín (Universitat D’Alacant)
Emilio José Padrón González (UDC)

Breve descripción

Alrededor del 5% de la población mundial padece de pérdida de audición incapacitante, creando una barrera a la hora de comunicarse con otras personas que puede llevar a la exclusión social. Este proyecto nace con el objetivo de ayudar a las personas a superar dicha barrera mediante la investigación y desarrollo de una herramienta que permita efectuar la traducción en tiempo real de LSE (Lengua de Signos Española) a lenguaje escrito.

Dicha traducción constaría de dos partes: por un lado el procesamiento y análisis de imagen, por el otro el procesamiento de lenguaje ya que en la mayoría de los casos no existe una traducción directa entre una frase construida con LSE y una frase en español. En el análisis de imagen es necesario identificar ambas manos y el rostro de la persona que esté signando, pues necesitaremos tener en cuenta su expresión facial y el movimiento de ambas manos.

En este proyecto se limitará la identificación al alfabeto dactilológico, que tiene correspondencia directa con el abecedario y cuyo uso no está determinado por la expresión facial pero sí está conformado por signos tanto estáticos como dinámicos. Mediante el análisis e investigación de diferentes técnicas de deep learning y análisis de imagen, se buscará la técnica que consiga una mayor tasa de éxito a la hora de analizar vídeos de diferentes personas signando sus nombres. Al buscar una traducción en tiempo real, tendremos restricciones adicionales sobre los modelos a utilizar, pues tendrán que ser capaces de procesar cada frame entre 40-50ms como mucho. Se intentará que el dataset sobre el que se hagan las pruebas sea lo más heterogéneo posible y que idealmente se componga tanto de personas diestras como zurdas con distinta calidad de imagen.

Objetivos concretos

Análisis e identificación del movimiento de ambas manos en cualquier vídeo donde se encuentre una persona de frente a la cámara, detectando cualquier signo que forme parte del alfabeto dactilológico.
Traducción signo a signo de alfabeto dactilológico al abecedario con el objetivo de formar una palabra que se corresponda con la signada en el vídeo.
Investigar y evaluar distintas técnicas de Deep Learning hasta dar con la que mejores resultados proporcione a la hora de analizar un dataset conformado por vídeos de distintas personas signando sus propios nombres en tiempo real.

Método de trabajo

Se llevará a cabo el uso de una metodología iterativa e incremental, realizándose la memoria progresivamente con el desarrollo e investigación de las distintas técnicas. Se llevará también un seguimiento del proyecto mediante reuniones periódicas con ambos tutores.

Fases principales

Partiendo de un dataset variado donde se encontrará sujetos utilizando signos más complejos que el alfabeto dactilológico, realizar el preprocesamiento y análisis de las imágenes para realizar la detección y seguimiento de ambos brazos.
Una vez logrado el seguimiento de los brazos, se identificarán los signos empleados en busca de aquellos que se correspondan con el alfabeto dactilológico.
Aplicación de distintos modelos de Deep Learning para realizar la identificación de signos en cuestión. Se partirá de la utilización de una combinación de redes recurrentes con transformers en primer lugar y unidades GELU (Gaussian Error Linear Units) posteriormente, con la posibilidad de expandir la investigación a otras técnicas.
Finalmente, se aplicarán los modelos sobre un dataset conformado por vídeos de distintos sujetos signando sus nombres y se procederá a hacer un análisis y comparación de los resultados para determinar la aproximación con mayor porcentaje de acierto.

Material y medios necesarios

PC para realizar el desarrollo e investigación y acceso a una máquina con la capacidad de computación necesaria para entrenar los modelos. Se trabajará principalmente con Python y Keras.

Teaching and Researching in Computer Science/Engineering

My research interests include High Performance Computing (HPC) and Computer Graphics.