El objetivo fundamental del proyecto SABERMED consiste en encontrar una solución al problema que
a día de hoy plantean los contenidos digitales fraudulentos en el ámbito sanitario. Se pretende
que dada la identificación de un contenido digital sanitario, de una página web, un blog,
contenido de redes sociales, etc., SABERMED sea capaz de determinar la reputación de dicho
contenido y en caso de ser determinado como fraudulento, detectarlo y comunicarlo.
Este objetivo funcional se alcanzará mediante la consecución de los siguientes objetivos
tecnológicos:
- Desarrollo de un sistema inteligente de Recuperación de la Información, que permita extraer
contenido selectivamente de aquellas direcciones que podamos considerar susceptibles de
fraude, bien por estar en las listas internacionales de webs fraudulentas o bien por estar
en nuestra base de datos, por haber detectado pistas de que el contenido puede ser
fraudulento con el analizador social web previamente descrito. Dicho contenido puede
presentarse de formas muy heterogéneas, imágenes, textos no estructurados, etc. En general
hablaremos de datos estructurados y datos no estructurados. Para llevar a cabo este sistema
necesitaremos aplicar tecnologías de Big Data para la extracción, el procesamiento y la
indexación de la información.
- Desarrollo de un módulo de Consolidación del Conocimiento que permita trabajar en tiempo
real con toda la información capturada. Este módulo será el encargado de almacenar la
información adquirida en el Módulo de Recuperación de la Información.
- Desarrollo de un módulo de Inteligencia Artificial que realice el análisis de los datos
almacenados de manera distribuida y escalable. Para ello, el objetivo es desarrollar un
componente de Aprendizaje Máquina, basado en Aprendizaje Profundo, que entrene los múltiples
modelos de identificación de características fraudulentas. Así mismo, se desarrollará un
componente de Inteligencia de Enjambre que permita la generación de indicadores clave que
nos ayude a entender la actividad fraudulenta mejorando nuestras labores de búsqueda y
detección de fraude en el futuro.
- Desarrollo de una Interfaz Gráfica que una vez encontrados contenidos posiblemente
fraudulentos automatice el envío de avisos y/o denuncias tanto a las webs que los alojan
como a los buscadores más relevantes para que procedan a su eliminación.
Asimismo, la evaluación automática de reputación web de contenidos web relacionados con la
Sanidad conlleva el desarrollo de una serie de elementos innovadores que podemos resumir como
sigue:
- Recolección e integración de datos heterogéneos procedentes de distintas fuentes de
información en un repositorio integrado que facilite su preparación, análisis y gestión.
- Diseño y validación de un sistema de caracterización de los recursos detectados a partir de
la combinación de múltiples factores descriptivos, utilizando técnicas de Inteligencia
Artificial para facilitar su clasificación, así como la creación de métricas y factores
sintéticos para detección de casos que requieran una actuación.
- Desarrollo de sistemas de Procesamiento de Lenguaje Natural que sean capaces de recuperar la
información que se presente en formato texto, de modo eficaz y eficiente.
- Desarrollo de un componente de Aprendizaje Máquina Dinámico que permita la clasificación
progresiva de los datos a partir de flujos continuos de recolección de información,
adaptando dinámicamente los resultados de dicha clasificación para detectar cambios en las
relaciones subyacentes que sean detectadas. Se entrenarán modelos basados en Aprendizaje
Profundo para el desarrollo de estos sistemas.
- Desarrollo de un componente de Inteligencia en Enjambre capaz de combinar las tareas
llevadas a cabo por una batería de agentes inteligentes autónomos que cumplan la misión de
evaluar aspectos concretos de la reputación del contenido web y la probabilidad de que un
recurso detectado sea fraudulento, a partir de las métricas y factores sintéticos
previamente definidos.
- Desarrollo de un componente Controlador que gestione la comunicación y toma de decisiones
dinámicas relativas a la relación entre las componentes de Aprendizaje Máquina e
Inteligencia de Enjambre. Este componente tomará las decisiones de reentrenar los modelos de
Aprendizaje Máquina en base a los resultados proporcionados por la Inteligencia en Enjambre.
- Diseño y validación de una Interfaz Gráfica que proporcione información, tanto gráfica como
numérica, sobre la reputación web de los contenidos analizados.