Descripcion LSE_Lex40_UVIGO

Corpus LSE_Lex40_UVIGO

Una de las principales barreras para el avance del reconocimiento automático de lenguas de signos es la escasez de recursos lingüísticos especialmente diseñados para el entrenamiento de algoritmos de inteligencia artificial. Esta carencia aplica también a la lengua de signos española (LSE).

Con del corpus  LSE_Lex40_UVIGO pretendemos contribuir a reducir esta brecha generando un corpus de LSE con vídeos de signos aislados, anotados y segmentados temporalmente.

El diseño, grabación y eqtiquetado es un proyecto conjunto de los grupos de investigación de la Universidad de Vigo GTM y GRADES.

Para la realización de este proyecto se cuenta con la colaboración de la Asociación de Personas Sordas de Vigo (ASORVIGO).

El proyecto ha sido presentado en el Congreso CNLSE de la Lengua de Signos Española celebrado entre el 19 y el 20 de septiembre de 2019.

Pinchando  aquí se va video de la presentación en el congreso CNLSE 2019.

Pincha en la imagen para ver un ejemplo de una grabación.

 

Léxico del corpus

Está formado por 40 signos agrupados en cuatro bloques: (cada signo va enlazado a un video con una realización del signo según el diccionario Spread The Sign o a una realización propia del grupo GRADES)

Signos estáticos

Signos monomanuales Signos bimanuales simétricos

Signos bimanuales asimétricos

w0001: Uno

w0011: Bien

w0021: Bicicleta w0031:Intérprete

w0002: Dos

w0012: Otro w0022: Ganas w0032: Carácter

w0003: Tres

w0013: Barato w0023: Asociación w0033: Deporte

w0004:Cuatro

w0014: Colegio w0024: Trabajar w0034: Arroz

w0005: Cinco

w0015: Contento w0025:Integración w0035: Lunes

w0006: Seis

w0016: Mujer w0026: Sufrir w0036: Viernes

w0007: Siete

w0017: Hombre w0027: Abril w0037: Árbol

w0008: Ocho

w0018: Gallego w0028: Oscuro w0038: Hasta

w0009:Nueve

w0019:Identidad w0029: Ayudar w0039: Ascensor

w0010: Diez

w020:Sentir w0030: Ensalada w0040: Calle

 

La agrupación por bloques se ha hecho  teniendo en cuenta criterios de articulación manual: utilización de una o dos manos y, en el caso de usarse dos manos, cómo interaccionan. A mayores facilita las grabaciones permitiendo que por cansancio o cualquier otra razón, se grabe uno o varios bloques sin necesidad de que una persona grabe todo de una vez.

Plataforma de adquisición

La adquisición de los videos se ha realizado con dos sistemas simultaneamente:

1) Un sensor Kinect v2 que capta videos RGB y de profundidad (3D)

2) Una cámara Nikon D3400 que capta videos RGB a 50 imágenes por segundo y con obturación de 1/240 seg. para congelar el movimiento.

La aplicación está programada en Matlab y permite gestionar la adquisición de forma cómoda mientras se comprueba la calidad de las grabaciones.

Para cada signante nuevo se rellena una ficha con sus datos a partir de la grabación en video de una entrevista.

En el siguiente enlace (¡Gracias, Claudia!) se puede visionar la entrevista con un signante correspondiente a los siguientes metadatos:

Nombre y, al menos, un apellido

Año de nacimiento

Sexo de la (del)  signante

Correo electrónico de la (del) signante, si lo tiene

Cuál es su mano dominante

Si la persona es sorda u oyente

Si es sorda, a qué edad se quedó sorda

A qué edad aprendió Lengua de Signos Española

Dónde residen

Adónde fueron al colegio

 

Codificación de la estructura de directorios

La estructura de ficheros donde se almacenan los videos y metadatos parte de un directorio raiz con el nombre de la base de datos. Dentro de este directorio, está cada una de las sesiones grabadas en forma de carpetas independientes. Dentro de cada sesión hay una carpeta para cada signante grabado y dentro de la carpeta de cada signante hay una carpeta para cada signo grabado.

Dentro de la carpeta de cada signo habrá tres archivos:

  1. el vídeo grabado con la Kinect,
  2. el vídeo grabado con la cámara Nikon y
  3. los metadatos de la Kinect.

Ejemplo: LSE_Lex40_UVIGO/s0001/p0003/w0013/

representa el corpus (LSE_Lex40_UVIGO), en su primera sesión (s0001), del tercer signante (p0003)  y el signo Barato (w0013) grabada por ese signante.

Cada carpeta de sesión se nombrará con una s seguida de cuatro dígitos dependiendo de la sesión (s0001), las sesiones se incrementan automáticamente al darle a nueva sesión en el programa.

Cada nuevo signante añadido se creará un código automáticamente con el siguiente código disponible. El código del signante es una p seguida de cuatro dígitos (p0001). La carpeta del signante dentro de la sesión solo se genera cuando este signante graba algo, no se crea al añadir un nuevo signante.

Los signos a grabar tienen un código de cuatro dígitos precedidos por la letra w, es decir, w0001. La carpeta de cada signo grabado dentro de la carpeta de la signante sólo se crea cuando este signante graba algo.

Hay 40 signos organizados en grupos de 10 según la forma de realizarlos, por lo que los códigos varían de w0001-w0040. Como excepción a esto, cuando se graba la entrevista al añadir un signante nuevo, esta entrevista se guarda con el código w0000 y en la carpeta creada w0000.

Consentimiento informado

A cada persona interesada en participar en las grabaciones se le envía un correo electrónico personalizado del tipo:

Te enviamos este correo electrónico porque has participado o vas a participar en una grabación que va a usarse para investigar sobre la LSE. Necesitamos respetar la  normativa de Protección de Datos, LOPDGDD (Ley Orgánica de Protección de Datos y Garantía de los Derechos Digitales), y también el RGPD (Reglamento General de Protección de Datos). Para cumplirlos, te pedimos que nos des el consentimiento expreso al tratamiento de tus datos con las finalidades que se explican en el video. Es necesario para continuar con nuestra investigación. Muchas gracias por colaborar.

Por favor, visualiza este video hasta el final 

(si no funciona el enlace del video copia y pega esta dirección en tu navegador https://www.youtube.com/watch?v=SOkrLgG3IHQ)

PINCHA AQUÍ PARA DAR TU CONSENTIMIENTO  

(si no funciona el enlace del formulario de consentimiento copia y pega esta dirección personalizada en tu navegador  https://forms.gle/JdxcpNdiT7TG4iUx8)

(En caso de NO dar tu consentimiento, no podremos seguir usando las imágenes para investigar)

Grupos GRADES y GTM de la Universidad de Vigo

-------------------------------------------------------------------------------------

Protección de Datos Personales y Garantía de los Derechos Digitales

Los grupos GRADES y GTM de la Universidad de Vigo se obligan a posibilitar en todo momento al afectado el ejercicio de los derechos fundamentales de acceso, rectificación, cancelación, oposición, limitación del tratamiento y portabilidad sobre los datos objeto de tratamiento.

El ejercicio de los derechos por parte de los INTERESADOS, aquellas personas cuyos datos de carácter personal son objeto de tratamiento, viene regulado en el CAPÍTULO II, Art. del 12 al 18. Ejercicio de los derechos, de la Ley Orgánica 3/2018, de 5 de diciembre, de Protección de Datos Personales y Garantía de los Derechos Digitales.

Los consentimientos de los participantes de las grabaciones se almacenan de forma segura. Mediante el procedimiento ARCO (pincha aqui para verlo)  en cualquier momento un participante en las grabaciones puede ejercer sus derechos de acceso, revocación, cancelación y oposición.