Audiovisual Analysis of the Verbal and Nonverbal Communication Channels

 

Resumen

Abstract

Objetivos

Goals

Actividades de I+D+i

R&D&I Activities

Bases de Datos

Datasets

Publicaciones

Publications

Difusión

Dissemination

Resumen

Este proyecto profundizará en la investigación y el desarrollo de técnicas que permitan allanar el camino hacia una plena comprensión y explotación de los canales de comunicación verbal y no verbal que utilizan la expresión facial, el lenguaje corporal y la expresividad de las manos como sus fuentes de señales. El equipo está formado por miembros del GTM y una persona del grupo UVIGO GRADES (Gramática, Discurso y Sociedad).

La comunicación no verbal es un área interdisciplinaria en la que lingüistas, psicólogos, antropólogos, sociólogos y neurocientíficos desarrollaron una plétora de teorías. El estudio de la comunicación no verbal encuentra campos de aplicación en la seguridad, la aplicación de la ley, el reclutamiento, la negociación, la investigación sobre el consumidor, la práctica médica o la psiquiatría. La comunicación no verbal puede definirse como la transferencia e intercambio de mensajes en todas y cada una de las modalidades que no implican palabras. Las modalidades son tan diversas como las expresiones faciales, los gestos y los movimientos corporales, las locuciones no verbales, el comportamiento en el espacio interpersonal e incluso la fisonomía (cara, cuerpo, ropa). La mayoría de los avances de investigación realizados por los ingenieros en torno a estas modalidades tenían por objeto mejorar la interacción entre el hombre y la computadora y la computación afectiva, por lo que hay grandes resultados de investigación sobre el reconocimiento de gestos y expresiones faciales de emoción.  Las lenguas de signos se basan principalmente en los gestos de las manos y otras partes del cuerpo, y tienen una gramática visual, por lo que muchas de las técnicas desarrolladas para las aplicaciones de reconocimiento de gestos y del habla se han aprovechado para el reconocimiento de la lengua de signos (RLS). Sin embargo, las expresiones faciales y los movimientos corporales, siendo cruciales para el RLS, no han recibido aún la atención merecida en este escenario. 

Por lo tanto, el objetivo global del proyecto es desarrollar nuevos algoritmos, sistemas y conjuntos de datos, basados en el procesamiento del habla y del vídeo, y en técnicas de aprendizaje automático, para extraer información multimodal que permita decodificar los canales de comunicación verbal y no verbal de las lenguas habladas y de signos. 

Abstract

This project will delve into the research and development of techniques that would allow paving the path to a full comprehension and exploitation of the verbal and non-verbal communication channels that use facial expression, body language and hands expressivity as their signal sources. The team consists of members of GTM and Carmen Cabeza Pereiro of the  UVIGO GRADES (Grammar, Discourse and Society) group.

Nonverbal communication is an interdisciplinary area where linguists, psychologists, anthropologists, sociologists and neuroscientists developed a plethora of theories. The study of non-verbal communication finds application fields in security, law enforcement, recruitment, negotiation, consumer research, medical practice or psychiatry. Non verbal communication can be defined as  the transfer and exchange of messages in any and all modalities that do not involve words. The modalities are as diverse as facial expressions, gestures and body movements, nonverbal vocals, behavior in interpersonal space, and even physiognomy (face, body, clothes). Most of the research advances done by engineers around these modalities were intended to improve Human-Computer Interaction and Affective Computing, so there are large bodies of research on gesture recognition and facial expressions of emotion.  Sign Languages are primarily based on hand gestures and other body parts, and have a visual grammar, thus, many of the techniques developed for gesture recognition applications and speech recognition have been leveraged for Sign Language Recognition (SLR). However, facial expressions and body movements, being crucial for SL, haven’t received the deserved attention in this scenario yet. 

Therefore, the project global objective is developing new algorithms, systems and datasets, based on speech and video processing, and machine learning techniques, to extract multimodal  information to allow decoding verbal and nonverbal communication channels from Spoken and Sign Languages. 


Objetivos

Este proyecto se plantea varios objetivos bien diferenciados tanto en tipo de alcance (I/D/i) como en horizonte temporal para su consecución:

  1. Desarrollar técnicas de reconocimiento de expresiones faciales más allá de las 6 expresiones básicas de emoción: emociones compuestas y expresiones faciales comunicativas no emocionales (< 3 años).
  2. Diseño y desarrollo de algoritmos de reconocimiento de signos manuales en imágenes estáticas y en flujos de vídeo dinámicos (< 3 años).
  3. Construcción de un dataset progresivamente amplio para LSE y herramientas de anotación para ser usado dentro del paquete ELAN (< 3 años).
  4. Diseño y desarrollo de una herramienta de codificación para traducir trayectorias de manos, brazos, tronco y cabeza, y expresiones faciales en información lingüísticamente interpretable en LSE y en modificadores prosódicos para ASR (> 3 años).
  5. A partir de los resultados del Objetivo 1, diseño y desarrollo de técnicas audiovisuales para una mejor detección de claves emocionales y lingüísticas útiles para un mayor enriquecimiento del subtítulo: preguntas, risas, tristezas, sollozos, doblajes, turnos, etc. (> 3 años).
  6. Lanzamiento de un concurso internacional de benchmarking sobre LSE utilizando el conjunto de datos adquiridos (< 3 años).

Goals

This project pursuits several goals with different R/D/I scope and time horizon for their achievement:

  1. Developing facial expression recognition techniques beyond the 6 basic expressions of emotion: compound emotions and communicative non-emotional facial expressions (short-term objective).
  2. Design and development of hand-sign recognition algorithms on static images and dynamic video streams (short-term objective).
  3. Building a progressively large dataset for Spanish SL and annotation tools to be used within the ELAN package (short-term objective).
  4. Design and development of a coding tool to translate trajectories of hands, arms, troncal and head, and facial expressions into linguistically interpretable information in Spanish SL and into prosodic modifiers for ASR (long-term objective).
  5. Starting from outputs of Goal 1, design and development of audiovisual techniques for enhanced detection of emotional and linguistic cues useful for a richer closed-caption: questions, laughter, sadness, sobbing, dubitation, turn-taking, etc. (long-term objective).
  6. Launching an international benchmarking contest on Spanish SL using the acquired dataset (short-term objective).

Actividades de I+D+i

Para alcanzar los objetivos a corto plazo y avanzar hacia los objetivos a largo plazo se planearon las siguientes actividades. Siga los links si le interesa obtener más información.

 

Actividad 1: Comprensión y descripción de los canales de comunicación no verbal

Actividad 2: Recopilación de una Base de Datos de Lengua de Signos Española

Actividad 3: Desarrollo de herramientas de reconocimiento de expresiones faciales en para escenarios comunicativos

Actividad 4: Desarrollo de una herramienta de reconocimiento de signos manuales

Actividad 5: Fusión multimodal e interpretación de los canales de comunicación no verbal

Actividad 6: Difusión de resultados

 

R&D&I Activities

 

The following activities were planned to achieve the short-term objectives and move towards the long-term objectives. Should you want to delve into details, follow the links.

Activity 1: Understanding and describing nonverbal communication channels.

Activity 2: Compiling a dataset of Spanish SL

Activity 3: Developing facial expression recognition tools in communicative scenarios

Activity 4: Developing a hand-based signing recognition tool

Activity 5: Multimodal fusion and interpretation of nonverbal communication channels 

Activity 6: Result Dissemination


 

Bases de Datos

La actividad más larga y difícil desde un punto de vista logístico es la creación de una Base de Datos de videos en Lengua de Signos Española para propósitos de investigación y desarrollo de técnicas de reconocimiento automático. La complejidad habitual de conseguir signantes para la creación de una Bases de Datos se incrementa por la particularidad de la tarea: personas sordas con un manejo fluido de la Lengua de Signos Española y que estén dispuestas a donar su tiempo sin recibir nada a cambio.

La implicación de las asociaciones de personas sordas es fundamental para conseguir romper la barrera inicial de comunicación y convencer a los y las signantes que su aportación al proyecto servirá para desarrollar tecnología que les acabe facilitando la vida en muchos ámbitos y ayudará a las personas oyentes a comunicarse con más fluidez con ellos.

En este proyecto se están recopilando dos Bases de Datos de naturaleza bien diferenciada: la LSE_Lex40_UVIGO y la LSE_TVGWeather_UVIGO:

  • LSE_Lex40_UVIGO: Esta Base de Datos pretende ser la referencia futura para la investigación y desarrollo de tecnología de reconocimiento de signos española. Es una Base de Datos en entorno controlado y con grabaciones de palabras y frases escogidas con un criterio científico y de usabilidad, repetidas por varios signantes. Se está grabando con la colaboración de la Federación de Asociaciones de Personas Sordas de Galicia (FAXPG) que aglutina 7 asociaciones gallegas y se ha llegado a un acuerdo para realizar sesiones de grabación en todas ellas. Más información en el enlace.

           

  • LSE_TVGWeather_UVIGO: Esta Base de Datos pretende ser una réplica en Lengua de Signos Española de la Base de Datos más utilizada internacionalmente en la investigación de reconocimiento de lengua de signos para grandes vocabularios, la alemana RWTH-PHOENIX-Weather T14 dataset. Se compone de grabaciones de la sección del tiempo en el telediario de la TV autonómica gallega, y contiene tanto la imagen de la locutora como de la intérprete.

           

El avance de la recogida de ambas Bases de Datos, las anotaciones y la segmentación de cara y manos se explica en este artículo presentado en la conferencia LREC'2020.

 

Datasets

The longest and most difficult activity from a logistic point of view is the creation of a Database of videos in Spanish Sign Language for research and development of automatic recognition techniques. The usual complexity of getting signers for the creation of a Database is increased by the particularity of the task: deaf people with a fluent Spanish Sign Language and who are willing to donate their time without receiving anything in return. 

The involvement of Deaf Associations is essential to break the initial barrier of communication and convince signers that their contribution to the project will serve to develop technology that will end up facilitating their lives in many areas and will help hearing people to communicate more fluently with them.

In this project, two databases of a very different nature are being compiled: the LSE_Lex40_UVIGO and the LSE_TVGWeather_UVIGO:

  • LSE_Lex40_UVIGO: This Database aims to be the future reference for the research and development of Spanish sign recognition technology. It is a database in a controlled environment with recordings of words and phrases chosen with a scientific and usability criteria, repeated by several signers. It is being recorded with the collaboration of the Federation of Deaf People's Associations of Galicia (FAXPG) which brings together 7 Galician associations and an agreement has been reached to carry out recording sessions in all of them. More information in the link.
  • LSE_TVGWeather_UVIGO: This database aims to be a replica in Spanish Sign Language of the most internationally used database in sign language recognition research for large vocabularies, the German RWTH-PHOENIX-Weather T14 dataset. It consists of recordings of the weather section in the Galician regional TV news, and contains both the image of the speaker and the interpreter.

The progress of the collection of both databases, the annotations and the segmentation of face and hands is explained in this article presented at the LREC'2020 conference.


Publicaciones / Publications

  1. Darío Tilves Santiago, Carmen García Mateo, Soledad Torres Guijarro, Laura Docío Fernández, José Luis Alba Castro, “Estudio de bases de datos para el reconocimiento automático de lenguas de signos”, Revista HESPERIA (Univ. de Vigo), vol 22 (2019),  DOI: https://doi.org/10.35869/hafh.v22i0
  2. Torres, S., García, C., Cabeza, C. y Docío, L. (2020). “LSE_Lex40_UVIGO: Una base de datos específicamente diseñada para el desarrollo de tecnología de reconocimiento automático de LSE”. Revista de Estudios de Lenguas de Signos REVLES, 2: 151-172.  http://www.revles.es/index.php/revles/article/view/44/34.
  3. Laura Docío-Fernández, José Luis Alba-Castro, Soledad Torres-Guijarro, Eduardo Rodríguez-Banga, Manuel Rey-Area, Ania Pérez-Pérez, Sonia Rico-Alonso, Carmen García-Mateo, “LSE_UVIGO: A Multi-source Database for Spanish Sign Language Recognition”, Proceedings of the 9th Workshop on the Representation and Processing of Sign Languages, pages 45–52. Language Resources and Evaluation Conference (LREC 2020), Marseille, 11–16 May 2020. https://www.aclweb.org/anthology/2020.signlang-1.8/

Difusión

En este proyecto se va a dedicar una atención especial al apartado de difusión, tanto de los resultados científico-técnicos del proyecto como de sus objetivos a medio y largo plazo. Además se buscarán alianzas con actores importantes en la integración plena de la comunidad sorda en todos los ámbitos socio-económicos. 

El 22 de Julio de 2020 se celebró el primer seminario web (on-line debido a la pandemia) sobre cómo la tecnología puede ayudar a tender puentes entre la comunidad sorda y la de oyentes. A continuación se puede encontrar más información y las charlas del evento:

Página del Webinar

Anuncio seminario web 22/07/2020 en LSE

Dissemination

In this project, special attention will be given to the dissemination section, both of the scientific-technical results of the project and of its medium and long term objectives. In addition, alliances will be sought with important stakeholders in the full integration of the deaf community in all socio-economic areas. 

On July 22nd 2020, the first web seminar was held (on-line due to the pandemic) on how technology can help to build bridges between the deaf and hearing communities. More information and talks from the event can be found below (in spanish and LSE, sorry, neither english nor ASL/BSL):

Web page of the webinar

Call for the 22/07/2020 webinar in Spanish Sign Language

Funded by: 
Ministerio de Ciencia, Innovación y Universidades
Partners: 
Grupo GRADES (Maria del Carmen Cabeza Pereiro)
Start date: 
2019/01/01
End date: 
2021/12/31
Reference: 
RTI2018-101372-B-I00
Number of investigators: 
7
Type: 
National