La acción y el aprendizaje de una tarea son independientes

Los seres humanos no diferenciamos entre la acción y el aprendizaje que se produce como resultado de la acción. Para nosotros constituyen una experiencia simultánea, aunque conceptualmente no resulta complicado dividirla. Los sistemas de aprendizaje automático más utilizados hoy en día, los basado en el aprendizaje supervisado, no trabajan así: aprenden por un lado y usan lo aprendido de forma independiente.

Esto en sí es una desventaja y una falta de flexibilidad muy grandes de estos sistemas respecto del aprendizaje humano. Y también es una de las causas de su fragilidad y de la gran cantidad de datos que exige para aprender una tarea concreta (y sólo una o una pocas, a diferencia del aprendizaje humano). El entrenamiento de modelos exige muchos datos y esfuerzo de computación y se hace previamente a la puesta en servicio del sistema de IA, pero la predicción con el modelo necesita mucho menos esfuerzo computacional y se produce después, posiblemente en un dispositivo y ubicación completamente diferente de donde se entrenó, en nuestro caso, en el teléfono móvil. En todo caso la potencia de cálculo necesaria está claramente al alcance de los teléfonos móviles modernos.

Pero incluso si los modelos entrenados tuvieran demasiados parámetros de manera que llegaran a ralentizar demasiado una respuesta desde nuestro móvil, siempre se podrían almacenar en la Nube y, simplemente, usando el propio móvil provocar que hiciera la predicción interrogando al modelo usando una API de programación. Y esta opción abriría otras opciones de aprendizaje continuo (como los seres humanos, pero sin esa flexibilidad que nos caracteriza), usando técnicas de aprendizaje por refuerzo (reinforcement learning), que lamentablemente, no vamos a explorar en este artículo para no alargarlo excesivamente.

Realizando el chequeo de salud covid-19

Al final del artículo anterior, establecimos un sistema de IA para chequear la salud respecto del covid-19 basado en nuestro teléfono móvil y la realización de pruebas baratas y relativamente precisas y específicas, aunque fueran bastante peores que las de laboratorio. En principio, cada persona -de cualquier edad- se podría realizar la prueba 15 veces en los próximos 6 meses asistiéndose para ello de una aplicación móvil del ministerio de sanidad (que no existe por ser una ficción de Crónicas de un humano en la era digital). Esto supone una prueba cada 2 semanas. Los cuestionarios se rellenarían el día programado para la prueba o siempre que la persona detectara nuevos síntomas que no tenía la última vez que se pasó el cuestionario.

La secuencia de este chequeo sería la siguiente:

Fuente. Prueba serológica rápida del fabricante Hales (Biogen.es); Mujer tosiendo (autora Annie Spratt), Chateando por Maxim Ilyahov, ambas en Unsplash

Hacer prueba rápida  –> tomar muestra sonora de tos (si se tiene)  –> rellenar cuestionario –> Obtener la evaluación y las alternativas recomendadas –> decidir qué hacer el usuario en función de las anteriores.

Haciéndose… ¿qué prueba rápida?

Naturalmente el principio de medición de la prueba impone restricciones en lo que se puede predecir y por lo tanto en lo que se puede evaluar y, en última instancia, recomendar. Resumiendo, hay dos tipos de pruebas:

  1. Las que determinan si se está infectado del COVID-19
  2. Las que verifican que se es inmune al COVID-19 porque se dispone de los anticuerpos del COVID-19.

El primer caso se daría si dispusiéramos de una prueba de antígenos con la fiabilidad mínima que exigimos en el artículo anterior o, aún mejor, porque es mucho más específica, si pudiéramos disponer de alguna prueba molecular rápida mediante edición genética CRISPR. El segundo caso se daría, por su parte, en el caso de disponer de pruebas de anticuerpos en cualquier de sus modalidades o combinación de anticuerpos (IgA/IgG/IgM).

Estos dos tipos de pruebas proporcionan información diferente ya que una no es exactamente el opuesto de la otra, en el sentido de salud pública al menos, por que si bien es cierto que si se es inmune no se puede enfermar de covid-19, eso no significa que no se pueda transmitir a otros el covid-19 siendo inmune.

En lo que sigue vamos a simplificar nuestro supuesto asumiendo que cada persona sólo se realiza pruebas de un tipo, ya que, si mezclara información distinta de ambos tipos de pruebas, rápidamente se complica la evaluación de los resultados. De todas maneras, eso significaría que realmente no habría un único modelo de predicción, sino dos, uno que usaría información sobre posible inmunidad y otro que lo haría con información sobre posible infección. No es descartable que se pudieran combinar ambos tipos de modelos predictivos, para producir una predicción conjunta (ensemble) más fiable basada en la consideración de la inmunidad y de la infección, simultáneamente.

En principio, salvo que algún médico con mejor opinión me corrija, la información sobre infección es más valiosa que la de inmunidad, pero por el momento parece que están más al alcance de la mano obtener pruebas rápidas y baratas basadas en lo segundo que en lo primero. No obstante, tal y pero como comentamos en el artículo anterior, para el otoño próximo esta situación podría ser diferente. En todo caso dado que esto es una discusión educativa y no un intento serio de llevar a la práctica un dispositivo físico real de chequeo de la salud respecto del covid-19, no vamos a distinguir entre ambas situaciones (aunque la autoridad sanitaria si decidiera acometer un proyecto de esta naturaleza, si debiera hacerlo).

Sea lo que sea que mida la prueba, la secuencia de realización es la misma:

  • seleccionar el tipo de prueba rápida y fabricante (mediante listas desplegables)
  • se muestran unos dibujos de cómo se hace la prueba y al mismo tiempo una voz lo va contando (hay gente con dificultad visual, alguna no sabe leer, etc.)
  • hacer una foto del resultado de la prueba (suena una alarma que se ha puesto automáticamente en función de tipo de prueba y fabricante para indicar cuando deberían estar listos los resultados de la prueba).

En la parte de la prueba rápida, el sistema indica si la foto es buena o se ha de repetir, lo cual es una característica muy importante para una detección adecuada.

Fuente: Biogen.es. Interpretación del kit de anticuerpos IgM/IgG de Hales.

Aunque la interpretación de la prueba sea sencilla para una persona normal, dado que tiene que servir lo mismo para la persona de 17 que la de 70 y con todo tipo de condicionantes, el sistema de reconocimiento por visión artificial comprueba que la foto esté bien orientada y si no la gira automáticamente hasta que lo esté y le aplica un filtrado de características para determinar que rayas han aparecido e interpreta el resultado obtenido. El modelo de reconocimiento de visión artificial para la prueba específica es elaborado por las autoridades sanitarias y se baja con la aplicación. Los ciudadanos sólo tienen que usarlo para que haga su predicción. El resultado de la predicción se guarda junto con la fecha y hora de la prueba y otra información relacionada, a los efectos de incorporarla en el momento adecuado en el cuestionario de salud. No hay problema en que dicha información sea anónima.

A continuación, si se tiene tos, se procedería a grabar una muestra de tos, aunque sea forzada, hasta que el usuario esté satisfecho con la muestra sonora de tos. Después, se le aplicaría un modelo de predicción del COVID a través de la tos. Esto ya lo está intentando el Hospital Clínico de Barcelona junto con el instituto MIT de Boston, que está entrenando un modelo de aprendizaje automático sonoro para hacer esta predicción, pidiendo a muchas personas que envíen muestras de su tos junto con información de si están infectados o no con el COVID-19. No hay publicada información (que me conste) sobre este modelo del MIT u otro similar de la escuela politécnica de Lausana (EPFL), pero a falta de más explicación y con propósitos didácticos voy a suponer que es una red de aprendizaje profundo extremo a extremo, lo que es muy atractivo, porque no necesitas médicos ni ingenieros de sonido para extraer características de la tos del covid-19, simplemente dejas que los datos hablen por sí solos, pero para hacerlo necesitas una enorme cantidad de datos (que afortunadamente si es factible de reunir en este caso).

Figura: sistema de diagnóstico a través de una red neuronal profunda end-to-end

También hay empresa española persiguiendo un objetivo parecido (lamentablemente he sido incapaz de recuperar la noticia con el nombre de la empresa), solo que en este caso dice usar ingeniería de características como paso previo a alimentar una red neuronal, que ya no hace falta que sea tan profunda porque el efecto de extraer características es el de eliminar múltiples capas, además de permitir una mejor explicabilidad de por qué predice una muestra como positiva o negativa, respecto del modelo extremo a extremo, en el cual la explicación de la respuesta elegida es básicamente un misterio pues el sistema se comporta como una auténtica caja negra.

Figura: sistema de diagnóstico a través de la tos con extracción de características

En ambos casos aplica la máxima que ya hemos explicado de que para hacer la predicción se necesita mucho menor potencia computacional y posiblemente pueda hacerse localmente en el teléfono móvil, mientras que, para el entrenamiento del modelo de aprendizaje, no.

Mi intuición personal es que la tos no contiene información suficiente por sí sola para proporcionar una predicción realmente fiable, aunque se entrene un sistema de aprendizaje profundo (deep learning) con decenas de miles de muestras positivas y negativas extremo a extremo (end to end). En cambio el uso de la ingeniería de características sí pudiera mejorar las probabilidades de éxito en la detección sonora del COVID-19. Es difícil de determinar a priori si esto sería suficiente para diferenciarlo de las características sonoras de otras infecciones de las vías respiratorias superiores. Sólo queda que probarlo, así que ¡la mejor de las suertes en este empeño! Realmente si fuera un sistema fiable por sí sólo sería un paso importante al menos en los casos que cursan con tos ante la ausencia en la actualidad de pruebas rápidas serológicas o moleculares fiables.

Es más plausible, no obstante, que la tos sí pudiera ser una variable relevante en un sistema de predicción más amplio que tomara otra información en consideración. En todo caso, siempre es un reto la capacidad real del sistema de generalizar correctamente sobre muestras nuevas de tos a pesar de que los resultados en el laboratorio puedan ser muy buenos, como demuestra un reciente estudio de Google Health referido a los problemas que la implementación sobre el terreno de un  sistema de IA  para la detección de la retinopatía diabética (causante, si no se trata a tiempo, de la pérdida de visión ocular), con grandes resultados en el laboratorio con un 90% de tasa de acierto.

Por lo que respecta a los cuestionarios, estos se harían usando la técnica de IA denominada árboles de decisiones, sobre los posibles síntomas que permiten identificar correctamente un problema (médico en este caso) con el menor número posible de preguntas, o al menos reducir la incertidumbre médica, incluyendo preguntas sobre el resultado de la prueba rápida y en su caso de la tos. Cada pregunta contaría con una ayuda para aclarar que se entiende por cada concepto, como, por ejemplo: qué se entiende por fiebre.

Lo bueno de los árboles de decisiones es que son capaces de hacer buenas predicciones incluso con datos con errores o faltando algunos datos, como los de la prueba rápida, que podrían salir no concluyentes o inválidos porque el reactivo se ha degradado (suelen llevar una tira de control para verificar que están bien) o bien por la ausencia de una prueba (como la de la tos).

Fuente: Adaptado de BigML.com. Ejemplo esquemático de árbol de decisiones, en cada nodo se hace una pregunta, acerca de una de las variables disponibles. Los extremos finales de las ramas (las hojas) contienen la clasificación final. En nuestro caso COVID-19 (Sí/No)

El árbol de decisión lo generarían las autoridades sanitarias entrenando a través de aprendizaje supervisado un árbol de decisión binario (¿covid-19? SI/NO) con los síntomas iniciales de miles de pacientes que luego fueron diagnosticados covid-19 y la de otros tantos que tenían algún síntoma o varios, pero no tenían finalmente el COVID-19. En realidad, lo mejor es que no generen un único modelo sino un conjunto de modelos (ensembles), de varias decenas de ellos, introduciendo variaciones en el orden de las preguntas, en las preguntas en sí, o en los umbrales de decisión entre unas ramas y otras en cada nodo (punto de desvío) y luego la elección se hace en base a clasificación de la mayoría u otros mecanismos que existen.

Una pequeña muestra de los datos de entrenamiento para construir un árbol de decisión podría ser la siguiente:

También podría haber datos numéricos como la temperatura corporal o la frecuencia cardiaca. Al final estos sistemas son capaces de indicarte el nivel de certidumbre del sistema en su predicción, como se muestra en la figura para un clasificador de diabetes:

Fuente: Adaptado de Bigml.com

En este punto, mi intuición nuevamente (que puede estar perfectamente equivocada por otra parte), es que sólo con los síntomas no hay información suficiente para entrenar un árbol de decisiones con un alto porcentaje de acierto en las predicciones. Existen demasiadas enfermedades que tienen un cuadro de síntomas parecido. Para aquellos lectores que gusten de la precisión técnica, lo anterior equivale a decir que “la clasificación del covid-19 mediante un árbol de decisiones a partir sólo de los síntomas no está dentro del conjunto de espacios de hipótesis que este sistema de aprendizaje automático es capaz de aprender”.

Por ejemplo, aquí está la comparación de la COVID-19 con otros coronavirus de este siglo XXI. No parece imposible de discriminar, pero tampoco es fácil, como vimos en un artículo anterior sobre la red de alerta temprana, ya que el COVID-19 debe estar lo suficientemente separado de otras enfermedades, lo que podría ser el caso. Como elemento de sinergia en la solución que vamos construyendo a lo largo de esta serie de artículos sobre el covid-19, el modelo desarrollado para detectar el covid-19 en nuestro sistema de alerta temprana, podría servirnos perfectamente para hacer la detección de nuestro teléfono móvil (pero claro primero hay que disponer de ese sistema de alerta temprana con este modelo predictivos de anomalías).

Enfermedad MERS SARS COVID-19
Fiebre 98% 99–100% 87.9%
Tos seca 47% 29–75% 67.7%
Disnea (dificultad respiratoria) 72% 40–42% 18.6%
Diarrea 26% 20–25% 3.7%
Dolor garganta 21% 13–25% 13.9%
Fuente: Wikipedia. Coronavirus. Traducción propia

Estos sistemas funcionan muy bien cuando hay muchas muestras, como desgraciadamente ya es el caso, así que, una vez más, es difícil de saber a priori, hay que probarlo sobre el terreno.

Pero, lo que si es más plausible, es que un árbol de decisión con información de síntomas más temperatura y frecuencia cardiaca y con la saturación de oxígeno en sangre (que bajaría si empieza un cuadro de neumonía) y quizás alteraciones en el sueño, al que, además, se le suman las pruebas diagnósticas rápidas no muy precisas (pero con un alto valor predictivo negativo recordemos, siempre que la persona no esté en la primera semana desde la fecha del contagio) y, en su caso, el registro sonoro de la tos, quizás sí puedan ser suficientes para guiar los pasos al menos en un caso importante: los positivos de la prueba rápida, a la hora de ayudar a la persona a tomar una decisión sobre las acciones que debe adoptar la persona en cuestión.

Para mejorar nuestra predicción, hemos de poner en relación todo lo anterior, con una pieza de información importante, que se puede incorporar al cuestionario de manera que mejore notablemente su precisión predictiva: si esa persona que estamos evaluando ha estado cerca o conviviendo con una persona que ha sido diagnosticada de forma fehaciente mediante la PCR y, en su caso, cuando fue diagnosticada y si sabe tiene conocimiento de la fecha estimada de contagio de esa persona o personas.

Se trata de un claro ejemplo del uso del Teorema de Bayes que vimos en otro artículo: si a todas las variables anteriores les añadimos el hecho de que, por ejemplo, que una persona con la que convive estuviera diagnosticada del coronavirus, entonces la probabilidad de estar infectado sujeto a este hecho cambiaría notablemente. En este caso lo que cambiaría notablemente sería lo que denominamos relación de verosimilitud, esto es, cómo de “más probable” parece ser un positivo si ya hay un positivo de alguien con el que se convive, respecto de la población en general y, en menor grado, respecto de alguien con quien se ha estado en contacto (al alcance del protocolo Bluetooth, es decir, unos pocos metros), respecto de la población en general.

Y la probabilidad de ser positivo a priori, sería la relacionada con la precisión y especificidad de la prueba rápida y la prevalencia de la enfermedad (o de la inmunidad en la población), como ya examinamos en artículos anteriores, como éste y este otro.

Esta problemática se puede resolver bien usando un clasificador denominado Bayes Ingenuo, el cual se llama así porque supone que los distintos factores son independientes entre sí, lo cual no tiene por qué ser necesariamente cierto. Pero lo cierto es que, a pesar de esta hipótesis tan simplificadora, es un clasificador que suele funcionar bastante bien, a falta de disponer de un buen modelo causal que nos permita afinar más las relaciones entre las distintas variables (cuáles son causa y cuáles efecto y sus interrelaciones).

Y esta última información sobre personas infectadas en contacto con el sujeto bajo prueba, puesta en relación (estos es lo que hacen los expertos generalistas) con las tres medidas que comentábamos al principio de otro artículo que aconsejaban los epidemiólogos y especialistas en salud pública para el desconfinamiento, está muy relacionada con la segunda de ellas: la utilización de aplicaciones móviles para la detección precoz de casos y contactos de COVID-19 con un código de colores según el número de días que hayan pasado desde la declaración del caso en cuestión, sólo que mejorado con un protocolo de seguimiento descentralizado y anonimizado el DP-3T, recomendado por la UE.

Hay que hacer hincapié que las decisiones las toma cada persona de forma individual, no el sistema de IA. Este le daría indicaciones de las medidas que conviene adoptar según sea la evaluación final del árbol de decisiones, que incluiría, asimismo, en las mismas, los resultados a los que hayan podido llegar los miembros de la familia (o unidad de convivencia que se defina). En su caso, estas decisiones pueden incluir el envío de la información anonimizada sobre las localizaciones en las últimas semanas a fin de permitir que un sistema descentralizado y anónimo, puede enviar su identificador generado aleatoriamente para que sea publicada una información que permita a otros usuarios saber si su móvil ha estado cerca del sospechoso, a fin de que puedan pasarse un chequeo de salud y adoptar las medidas que corresponda, en su caso. En otros casos podría incluir el envío con el consentimiento del afectado de su información completa a las autoridades sanitarias para que le programen una prueba completa o lo que proceda.

En este sentido el software de la aplicación móvil debería poder definir las unidades de convivencia y vincular sus móviles mediante Bluetooh o Wifi, así como poder definir que haya más de un perfil por móvil, para tomar en cuenta menores y personas dependientes.

Y con esto terminamos este artículo sobre el sistema de IA para la evaluación del COVID-19. En los siguientes artículos trataremos de justificar las decisiones de diseño que condujeron al sistema que hemos descrito.

Posted by santiago

Deja un comentario