En artículos anteriores exploramos la posibilidad de montar un sistema de alerta temprana de dos fases para detectar lo antes posible, un posible futuro brote de epidemia que denominábamos COVID-20. Vimos como estos días, o quizás una semana, de detección precoz, podían salvar multitud de vidas y reducir en miles el número de infectados. La primera fase avisaba de registros anómalos respecto de las enfermedades infecciosas más conocidas y con la segunda fase entrenábamos un clasificador con esas primeras muestras anómalas junto con muestras del COVID-19 y potencialmente de otros virus similares como el SARS o el MERS, a fin de discriminar perfectamente los distintos grupos, a pesar de que el número de muestras anómalas fuera mucho más pequeño que las de los restante grupos, particularmente del COVID-19 (en una proporción de  1:100 o 1:1000).

Pero para que este esquema fuera posible, ya avanzamos en otro artículo que, previamente,  debería existir un repositorio de información, a ser posible global, pero como mínimo de ámbito europeo, en el cual almacenar los datos de síntomas y de resultados clínicos, a fin de poder alimentar el avisador de muestras anómalas.

Sistema de alerta temprana para el COVID-20. Fuente: elaboración propia.

Precisamente, lo que podríamos denominar la fase 0, el repositorio de información de médica altamente sensible que ponga en marcha todo lo anterior. Ya dijimos que, pese al alto grado de protección de información que el Reglamento Europeo de Protección de Datos (REPD), otorga a la información sobre la salud de las personas, este texto legal permitía excepciones por motivos de emergencias de salud pública como la que nos encontramos ahora. Lo que echábamos en falta era la ausencia de alguna ley española o mejor un reglamento comunitario que regulara las condiciones específicas de su uso y sus límites de utilización, para que no fuera de forma discrecional e indefinido.

También avanzamos en aquel artículo que, una solución para lograrlo mientras no existan estos desarrollos legales que lo aborden los aspectos prácticos del REPD de esta habilitación, era la llamada privacidad diferencial y de esto es, precisamente de lo que quiero hablar hoy.

La anonimización de los datos personales ya no es suficiente

Pero antes de hablar del cómo tenemos que conocer el problema al que nos enfrentamos. Tradicionalmente se ha pensado que el proceso de anonimización de los datos personales era suficiente para permitir su uso con otros propósitos distintos a los originales con los que fueron recogidos, preservando el derecho a la privacidad de la información de carácter íntimo o privado. Pero en la era del aprendizaje automático y del big data, cada vez está más claro que los métodos tradicionales de anonimización son insuficientes, ya que existe una cosa que se denomina privacidad estadística y que básicamente quiere decir que con suficiente agregación de datos de fuentes distintas podemos identificar a cualquier persona individual con una alta probabilidad.

A partir de sólo tres datos personales (código postal, sexo y edad) ya se ha demostrado es posible re-identificar a una persona de un base de datos anonimizada con una tasa de éxito del 81% (en EEUU, en España probablemente se necesitan algunos más -pero no muchos más-, porque las estadísticas oficiales de fuentes públicas no son tan detalladas como en EEUU) y con 15 datos demográficos la re-identificación alcanza una tasa de éxito del 99,98% en Massachusetts (EEUU, nuevamente en España hacen falta, probablemente, algunos más -pero nuevamente no muchos más-).

Para ello los investigadores usaron una base de datos de 210 conjuntos de datos diferentes de cinco fuentes, incluido el censo de población y hogares de EEUU. Los investigadores introdujeron estos datos en un modelo de aprendizaje automático, que aprendió qué combinaciones son más particulares y cuáles menos, para luego asignar la probabilidad de una identificación correcta, con los resultados arriba comentados.

Otro  estudio de 2007 mostró que bastan unas pocas calificaciones de películas en Netflix para identificar a una persona de forma tan sencilla como a partir de su número de la seguridad social, por ejemplo. Y hay muchos más ejemplos.

En definitiva, el hecho de que el conjunto de datos esté incompleto ya no protege la privacidad de las personas y esto es algo tan serio que está obligando a replantearse el proceso de recogida de la información que se va a utilizar con vistas a la elaboración del censo de población y hogares 2020 en los EEUU. Seguramente, el resto de los países, o se lo están planteando, o lo van a hacer en los próximos años en sus respectivos censos. Y claro, el caso que planteamos aquí podría permitir la identificación de patologías o predisposiciones genéticas en personas concretas y eso puede tener enormes repercusiones en temas como seguros médicos, seguros de vida o en hipotecas.

¿ Es la solución la privacidad diferencial?

La privacidad diferencial (PD) es una técnica que permite a los investigadores y analistas extraer información útil de bases de datos personales pero que ofrezcan una protección fuerte a la privacidad individual introduciendo una serie de pequeñas inexactitudes en las respuestas que mantengan la privacidad al tiempo que sigan proporcionando información útil a los investigadores y analistas.

Puesto de otra forma, imaginemos que nos piden rellenar una pequeña encuesta sobre un tema que consideramos inocuo, pero que, a pesar de ello, nuestra privacidad fuera importante para nosotros en esta materia. Estaríamos dispuestos a rellenarla, si como resultado de hacerlo tuviéramos la seguridad de que nuestra identidad no sería revelada. Es decir, que el hecho de rellenarla no aportara información adicional sobre nosotros al encuestador. Pero desde el punto de vista de este último, si eso fuera exactamente así, ¿qué sentido tendría rellenarla si no nos aporta información útil sobre la persona encuestada?

Por definición todo estudio o análisis útil ha de aportar información, es decir, algo que no sabíamos antes de hacerlo, de manera que, para que pueda aportar valor real a sus clientes se pueda traducir en la toma de decisiones y en el emprendimiento de acciones concretas. De manera que nos hemos de mover entre estos dos estrictos límites, no relevar información personal y revelar información útil para el objeto del estudio.

La PD funciona interponiendo un software entre el investigador y la base de datos, o como veremos a continuación, las bases de datos de los hospitales y centros de salud. Los investigadores nunca tienen acceso directo a las bases de datos médicas. Este software actúa como garante de la seguridad que evalúa las implicaciones combinadas de una pregunta y de las precedentes.

Funcionamiento de la privacidad diferencial. Fuente: Microsoft Corporation | Differential Privacy for Everyone, 2012

La PD toma la respuesta de la base de datos y la cambia para que sean ligeramente imprecisas (técnicamente se dice que inyecta una cantidad de “distorsión” o “ruido“ que está calibrado de acuerdo con el riesgo para la privacidad, antes de enviar la respuesta al investigador o analista). Si el riesgo es bajo estas distorsiones son pequeñas y no afectan a la calidad de las respuestas, pero que son lo suficientemente grandes para proteger la privacidad de las personas, pero si el riesgo se juzga alto para la privacidad, se aumenta el nivel de distorsión, hasta un nivel en que la respuesta puede llegar a no ser útil, de manera que el investigador puede hacer una pregunta más general o dejar de interrogar a la base de datos.

La privacidad diferencial es compatible con el aprendizaje automático, pero tiene un coste

Desde el punto de vista de nuestro avisador de muestra anómalas y, sobre todo, del clasificador del COVID-20 que venimos discutiendo (fase 2), es importante saber como encaja la PD con el aprendizaje automático.

Nos gustaría que los algoritmos de aprendizaje automático (ML) codificaran patrones generales como “los pacientes con tos y fiebre mayor de 38ºC, mayores de 60 años, es probable que tengan COVID-20” en vez de hechos concretos de las muestras individuales de entrenamiento, como “Fulanito de tal tiene COVID-20”. Desafortunadamente, por defecto los algoritmos de ML no aprenden a ignorar estos hechos. Si queremos hacer un Sistema de clasificación del COVID-20 lo que hacemos es publicar el modelo de aprendizaje, pero al hacer eso de forma inadvertida podríamos estar relevando información sensible sobre el conjunto de datos usado para el entrenamiento del modelo de aprendizaje.

La idea de la PD aplicada al ML es que si la participación de un paciente determinado, digamos Juan García (que me disculpen los aludidos), no afecta al resultado final del aprendizaje del algoritmo de ML, entonces los registros de dicho paciente no pueden ser “memorizados” por el sistema (se dice así, cuando el sistema está sobreajustado –overfitting– y el sistema “delira” y no sabe generalizar clasificando correctamente muestras con las que no ha sido entrenado). La probabilidad de ser re-identificado se relaciona con el denominado presupuesto de privacidad, ε (privacy budget), que viene a ser cuánto “ruido” (en términos de inexactitud) introducimos en las respuestas para preservar la privacidad. Pequeños presupuestos de privacidad corresponden gracias al uso de PD a garantías más fuertes de privacidad. Es decir, que la probabilidad de aprender algún conjunto determinado de parámetros sea en líneas generales la misma si cambiamos una simple muestra de entrenamiento (pero no exactamente la misma probabilidad, ya que de otra manera no podríamos aprender nada porque no revelamos ninguna información como hemos visto de forma intuitiva antes).

Pero es importante saber que el mantenimiento de la privacidad conlleva un coste, conocido como «pérdida por privacidad» (privacy loss). Por ejemplo, el mejor clasificador sin privacidad de imágenes (tomemos el clásico de perros y gatos) el mejor algoritmo hoy en día (con millones de muestras de entrenamiento), puede obtener una precisión del 96,5%, pero con privacidad diferencial, la precisión del mejor clasificador baja al 86%, lo cual quiere decir un 10,5% de pérdida por privacidad. Si en vez de perros y gatos lo que tratamos de clasificar es entre que hay COVID-20 o no lo hay, entonces parece pertinente plantearse si nos podemos permitir o no esa reducción de privacidad en este caso. De ahí la importancia de la vía que deja abierta el REPD para estas emergencias sanitarias, que nos permitiría eliminar, en situaciones muy controladas, esta privacidad diferencial.

Es decir, existe un equilibrio entre privacidad y precisión como se ilustra en el siguiente ejemplo:

Fuente: Privacy in Pharmacogenetics: An End-to-End Case Study of Personalized Warfarin Dosing. Matthew Frederikson et al., 2014

Se trata de un estudio de la privacidad de la farmacocinética, en los cuales se utiliza el modelo de aprendizaje automático para guiar los tratamientos, en particular la dosis de anticoagulante de los pacientes usando sus antecedentes y su genotipo. Estos modelos tienen problemas de privacidad porque es posible invertir el modelo de manera que dada cierta información geográfica sobre el paciente y su dosificación de anticoagulante (warfarin), es posible predecir los marcadores genéticos de un paciente concreto (sólo un 5% peor que un sistema entrenado específicamente para predecir esos marcadores genéticos concretos). El estudio trata de determinar si la privacidad diferencial puede eliminar este problema.

En la figura de arriba se estudió el riesgo de mortalidad (relativo a la práctica clínica actual) para la dosificación con Warfarin y el riesgo de revelación del genotipo VKORC (lo que es un riesgo de privacidad genómico), para cinco valores de ε, la regresión lineal con privacidad diferencial (para el resto de los valores la curva está interpolada). Las líneas de puntos corresponden a la regresión lineal normal.

Las conclusiones (a través de simulaciones de ensayos clínicos) es que si se incrementa demasiado la privacidad diferencial (ε aumenta) para evitar el problema anterior, se expone al paciente a riesgo de infarto, sangrado e incluso muerte (de ahí la simulación).

Sólo una elección cuidadosa de épsilon puede prevenir el riesgo de revelación de información genómica lo suficiente manteniendo su eficacia clínica. En la figura para que la reducción de eficacia no sea superior al 10%, ε~3 y la mejora de privacidad está en torno al 7%).

Usar privacidad diferencial para el covid-20 o no usarla…difícil cuestión

Todo lo cual, aplicado al caso del COVID-20, nos indica que la privacidad diferencial puede ser una solución parcial a nuestro sistema de detección temprana, pero que para determinar cual es su sensibilidad en el caso del COVID-20 deberíamos ajustar la sensibilidad del sistema a ε , como la de la figura del estudio anterior, con todas las muestras que ya hay para el COVID-19 y realizar simulaciones para saber si tal sistema sería tolerable para un desconocido COVID-20, siempre suponiendo, que no se comporte de forma demasiado diferente al COVID-19 como para tener una curva de épsilon completamente distinta, pero lo suficientemente como para que podamos separar el COVID-20 del COVID-19, como vimos en los artículos anteriores, ya que de otra manera el detector de anomalías podría no funcionar correctamente.

Y con todo esto ya sólo nos hace falta hablar de la IA causal que presenté en un artículo anterior, para tener todos los elementos que necesitamos para completar un sistema de alerta de temprana global de enfermedades infecciosas, que ya no nos ayudará con el COVID-19, pero sí podría hacerlo con el COVID-20.

Pero eso será cuestión de materia para otro artículo…..buen aislamiento a todos.

Posted by santiago

Deja un comentario