SABERMED | Data Science Lab URJC

El objetivo fundamental del proyecto SABERMED consiste en encontrar una solución al problema que a día de hoy plantean los contenidos digitales fraudulentos en el ámbito sanitario. Se pretende que dada la identificación de un contenido digital sanitario, de una página web, un blog, contenido de redes sociales, etc., SABERMED sea capaz de determinar la reputación de dicho contenido y en caso de ser determinado como fraudulento, detectarlo y comunicarlo.

Este objetivo funcional se alcanzará mediante la consecución de los siguientes objetivos tecnológicos:

Desarrollo de un sistema inteligente de Recuperación de la Información, que permita extraer contenido selectivamente de aquellas direcciones que podamos considerar susceptibles de fraude, bien por estar en las listas internacionales de webs fraudulentas o bien por estar en nuestra base de datos, por haber detectado pistas de que el contenido puede ser fraudulento con el analizador social web previamente descrito. Dicho contenido puede presentarse de formas muy heterogéneas, imágenes, textos no estructurados, etc. En general hablaremos de datos estructurados y datos no estructurados. Para llevar a cabo este sistema necesitaremos aplicar tecnologías de Big Data para la extracción, el procesamiento y la indexación de la información.
Desarrollo de un módulo de Consolidación del Conocimiento que permita trabajar en tiempo real con toda la información capturada. Este módulo será el encargado de almacenar la información adquirida en el Módulo de Recuperación de la Información.
Desarrollo de un módulo de Inteligencia Artificial que realice el análisis de los datos almacenados de manera distribuida y escalable. Para ello, el objetivo es desarrollar un componente de Aprendizaje Máquina, basado en Aprendizaje Profundo, que entrene los múltiples modelos de identificación de características fraudulentas. Así mismo, se desarrollará un componente de Inteligencia de Enjambre que permita la generación de indicadores clave que nos ayude a entender la actividad fraudulenta mejorando nuestras labores de búsqueda y detección de fraude en el futuro.
Desarrollo de una Interfaz Gráfica que una vez encontrados contenidos posiblemente fraudulentos automatice el envío de avisos y/o denuncias tanto a las webs que los alojan como a los buscadores más relevantes para que procedan a su eliminación.

Asimismo, la evaluación automática de reputación web de contenidos web relacionados con la Sanidad conlleva el desarrollo de una serie de elementos innovadores que podemos resumir como sigue: SABERMED background

Recolección e integración de datos heterogéneos procedentes de distintas fuentes de información en un repositorio integrado que facilite su preparación, análisis y gestión.
Diseño y validación de un sistema de caracterización de los recursos detectados a partir de la combinación de múltiples factores descriptivos, utilizando técnicas de Inteligencia Artificial para facilitar su clasificación, así como la creación de métricas y factores sintéticos para detección de casos que requieran una actuación.
Desarrollo de sistemas de Procesamiento de Lenguaje Natural que sean capaces de recuperar la información que se presente en formato texto, de modo eficaz y eficiente.
Desarrollo de un componente de Aprendizaje Máquina Dinámico que permita la clasificación progresiva de los datos a partir de flujos continuos de recolección de información, adaptando dinámicamente los resultados de dicha clasificación para detectar cambios en las relaciones subyacentes que sean detectadas. Se entrenarán modelos basados en Aprendizaje Profundo para el desarrollo de estos sistemas.
Desarrollo de un componente de Inteligencia en Enjambre capaz de combinar las tareas llevadas a cabo por una batería de agentes inteligentes autónomos que cumplan la misión de evaluar aspectos concretos de la reputación del contenido web y la probabilidad de que un recurso detectado sea fraudulento, a partir de las métricas y factores sintéticos previamente definidos.
Desarrollo de un componente Controlador que gestione la comunicación y toma de decisiones dinámicas relativas a la relación entre las componentes de Aprendizaje Máquina e Inteligencia de Enjambre. Este componente tomará las decisiones de reentrenar los modelos de Aprendizaje Máquina en base a los resultados proporcionados por la Inteligencia en Enjambre.
Diseño y validación de una Interfaz Gráfica que proporcione información, tanto gráfica como numérica, sobre la reputación web de los contenidos analizados.

Latest from blog

Nueva publicación en Nursing in Critical Care

La tesis de Marina Cuesta en el boletín de la SEIO

El DSLAB impulsa la investigación en IA generativa en el congreso internacional IDEAL 2025

Propuestas de TFG 2025-2026

Contact us