Isabel Ferri Mollá

Ontinyent / Valencia
Año de nacimiento: 1999

Multimodal Interaction and Semantic Augmented Reality through Deep Learning in Assistive Systems for Dependent Individuals

Este proyecto aborda uno de los desafíos sociales más apremiantes que vamos a enfrentar en las próximas décadas, como es el caso del creciente envejecimiento de la población y la falta de herramientas inclusivas y adaptativas para mejorar la calidad de vida y la autonomía de personas con limitaciones cognitivas. En Europa, la proporción de adultos mayores podría alcanzar el 30% de la población total para 2050, según proyecciones de Eurostat, lo que agrava la escasez crítica de cuidadores profesionales. Las estimaciones indican que el sistema actual de cuidados no será suficiente para atender la creciente demanda, incrementando la necesidad de soluciones tecnológicas accesibles. A pesar del rápido avance tecnológico, persisten importantes barreras que dificultan que estas innovaciones lleguen a los colectivos más vulnerables, especialmente en áreas fundamentales como la comunicación y la asistencia personal.
El proyecto que presento propone una solución innovadora mediante la integración de inteligencia artificial (IA) y realidad aumentada (AR). Su objetivo es mejorar la calidad de vida y la autonomía de personas en las primeras etapas de dependencia, ya sea por edad o enfermedad, facilitando sus actividades diarias. Este sistema busca proporcionar asistencia personalizada que permita a estos individuos mantener su independencia el mayor tiempo posible, adaptándose a sus necesidades específicas y contextos diversos.
La solución presentada es un sistema de asistencia multimodal diseñado para facilitar las tareas cotidianas de los usuarios. Este enfoque adopta una perspectiva holística, combinando modelos de IA que integran capacidades de procesamiento del lenguaje natural, visión por computador y reconocimiento del habla, complementados con el uso de realidad aumentada, creando un sistema formado por múltiples módulos especializados, para ofrecer respuestas y soluciones personalizadas, basadas en la combinación de datos del entorno visual del usuario y un documento estructurado que contiene información relevante sobre sus rutinas, preferencias, medicación, dieta y ubicación de objetos en su entorno doméstico. Este documento, creado con la colaboración de los familiares del usuario, actúa como un repositorio de conocimiento clave que se utiliza para proporcionar respuestas contextualizadas.
El funcionamiento del sistema se inicia cuando el usuario formula una pregunta, ya sea mediante texto o voz. En el caso de preguntas por voz, se incorpora un módulo de reconocimiento del habla especialmente entrenado para personas con problemas de pronunciación, como aquellas con afasia. Este módulo no solo ha sido adaptado para mejorar la transcripción de usuarios con dificultades en el habla, sino que también emplea información visual capturada del entorno del usuario para generar transcripciones que reflejen con mayor precisión lo que desean expresar, incluso cuando su comunicación verbal sea limitada.
El sistema procesa las entradas del usuario a través de su capacidad de análisis multimodal, utilizando información del el entorno visual y técnicas avanzadas de Retrieval-Augmented Generation (RAG) para integrar información del documento de rutinas. A partir de esta información, genera una respuesta detallada que incluye una guía paso a paso para que el usuario pueda completar su tarea. Además, el sistema identifica una lista de objetos con los que el usuario debe interactuar para cumplir su objetivo. Esta lista pasa a un segundo módulo que, mediante algoritmos avanzados de detección de objetos, determina las coordenadas específicas de cada elemento en la imagen del entorno. Posteriormente, esta información se transfiere a un tercer módulo que utiliza realidad aumentada para resaltar los objetos pertinentes, guiando al usuario de forma clara y visual hacia las interacciones necesarias.
El sistema está diseñado para ser compatible con dispositivos accesibles como móviles y tabletas, aprovechando su cámara y pantalla para ofrecer una experiencia inmersiva. Aunque también podría implementarse en gafas de realidad aumentada, esta opción se considera menos viable en la actualidad debido a las limitaciones tecnológicas y de adopción por parte de usuarios de edades avanzadas.
Un aspecto diferenciador del proyecto es su módulo específico para personas con dificultades en la pronunciación. Este módulo ha sido entrenado con datos específicos para adaptarse a distintos tipos de afasia, incluyendo aquellos casos en los que los usuarios tienen dificultades tanto para pronunciar como para expresar sus ideas de manera coherente. En estos casos, el sistema no solo transcribe lo que dice el usuario, sino que, mediante el análisis del entorno visual y el uso de un modelo de lenguaje adaptado, interpreta y reformula sus palabras para expresar con mayor claridad lo que el usuario realmente quiere comunicar.
Esta funcionalidad, además de estar integrada en el sistema de asistencia multimodal, puede utilizarse como herramienta independiente, facilitando la comunicación de los usuarios con afasia en contextos cotidianos como hacer compras o participar en interacciones sociales.
La implementación inicial de este módulo de reconocimiento del habla formó parte de mi TFM, que ha sido reconocido con varios galardones, como el primer premio en los premios DIVERStem o el premio a mejor TFM de inteligencia artificial en los I Premios ValgrAI Comunitat Valenciana.
El proyecto presentado forma parte de mi futura tesis doctoral, que estoy desarrollando actualmente. Aunque el sistema se encuentra en fase de desarrollo y refinamiento, ya contamos con publicaciones científicas que avalan su funcionamiento y resultados preliminares [1, 2].
Además, el proyecto de tesis doctoral ha recibido reconocimiento a nivel nacional, obteniendo el premio SCIE-ZONTA-SNGULAR este 2024. Actualmente, los esfuerzos de desarrollo se centran en mejorar la integración de los diferentes módulos y consolidar el sistema definitivo, ampliando las capacidades de algunos componentes para ofrecer una solución más completa y robusta.
El proyecto tiene un enorme potencial para mejorar la calidad de vida de personas con necesidades específicas. Las tecnologías desarrolladas no solo tienen aplicaciones prácticas inmediatas en entornos sociales, sino que la capacidad del sistema para adaptarse a diferentes contextos y necesidades garantiza su aplicabilidad en una amplia variedad de escenarios. Este enfoque interdisciplinar y centrado en el usuario representa un paso significativo hacia la construcción de una sociedad más equitativa, donde la tecnología actúe como una herramienta transformadora al servicio de quienes más la necesitan.

Referencias:
1. Ferri-Molla, I., Izquierdo-Domenech, J., Aliaga-Torro, C., & Linares-Pellicer, J. (2024, September). Multimodal Assistance System for the Care of Individuals in Early Stages of Dependency Using Augmented Reality and Artificial Intelligence. In International Conference on Extended Reality (pp. 254-261). Cham: Springer Nature Switzerland.
2. Ferri Mollá, I. (2023). Exploring multimodal foundation models to improve interaction for people with speech impairments.

El proyecto de Isabel Ferri Mollá