En el artículo anterior vimos cómo podíamos realizar a nivel descriptivo un “avisador de una nueva enfermedad infecciosa”, a la que me referí como COVID-20 por ser la de mayor probabilidad de ocurrencia por una mutación del COVID-19. De hecho, dijimos que esto está sucediendo en la actualidad, dado que el coronavirus, como la gripe, son virus basados en el ARN, que mutan unas 100 veces más rápido que los basados en el ADN. Pero también podría ser cualquier otra enfermedad infecciosa del tipo del SARS, el MERS o el Ébola por citar alguna de las más conocidas.

Fuente: extraído de Tomás Pueyo, “Coronavirus: el martillo y la danza”, Medium.com.
Cada rama de la izquierda es una cepa distinta del coronavirus.
Claro que estas dos posibilidades, ser un COVID-20 u otra enfermedad infecciosa completamente distinta, no son exactamente equivalentes. Podríamos entrenar un sistema de clasificación múltiple de enfermedades muy infecciosas con los datos de pacientes que las hayan sufrido, de forma cierta (es decir que hayan sido diagnosticados clínicamente, lo que equivale, en jerga de aprendizaje supervisado a que estén “etiquetados”), frente a pacientes “normales” (es decir, sin una patología infecciosa conocida).
Por ejemplo, para reconocer en 2021, el COVID-19 tenemos como datos de entrada los síntomas que provoca la enfermedad, así como los síntomas y signos (resultados de pruebas) de la fase clínica, provocados no solo por la acción del coronavirus, sino también por los sistemas de defensa del cuerpo humano contra este. En conjunto se disponen de las suficientes variables y en suficiente cantidad (hay más de 400.000 personas diagnosticadas en todo el mundo) como para poder entrenar a un clasificador que fuera bastante fiable a la hora de reconocer estos casos, ya que ahora sería un conocido sabido (Known Knowns) como vimos en un artículo previo de esta serie sobre la Inteligencia artificial y el coronavirus. Y en este terreno los sistemas de IA son precisos y fiables y pueden ser de gran ayuda como herramienta de ayuda al diagnóstico rápido.
Pero si lo que queremos es reconocer una nueva enfermedad infecciosa, un COVID-20 u otra, entonces depende de si esta nueva enfermedad cursa con síntomas muy similares y produciendo parecidos efectos clínicos que las enfermedades anteriores, o se trata de síntomas o efectos clínicos suficientemente diferenciados, por tratarse de una enfermedad infecciosa completamente diferente, o bien porque por casualidad alguna de sus mutaciones tiene efectos sensiblemente distintos. Por simplificar, me voy a centrar en el caso del COVID-20 entrenado con el COVID-19 aunque podría establecerse el caso más general de evoluciones de las enfermedades infecciosas múltiples más conocidas, como señalaba al principio del artículo.
La clave: ¿El COVID-20 se parece al COVID-19?
Si la mutación de este virus es similar a la del original sobre la que sea entrenado el clasificador, estamos de enhorabuena, porque, siguiendo nuestro ejemplo, los pacientes con COVID-20 serán detectados como COVID-19. Y este falso positivo o error tipo I, no sería para nada problemático ya que podríamos aplicar a los pacientes los tratamientos que se desarrollen en los próximos meses de manera que se reduzcan los casos severos y eventualmente evitar la muerte, o aún mejor, aplicar una vacuna que pudiera desarrollarsey que protegiera un buen porcentaje de la población (por mucho que aceleren no es probable pero ni mucho menos imposible, que una verdaderamente efectiva esté lista antes de un año). Y de la misma manera que la vacuna anual de la gripe no protege frente a todas las cepas, pero en general sí ayuda a que, si la contraemos, el curso de la enfermedad sea más benigno, el COVID-20 en este supuesto sería algo parecido a una cepa no cubierta con la vacuna del COVID-19, sólo que más peligrosa y mucho más transmisible de lo que es la gripe.
Y esto es así porque, de acuerdo con la Wikipedia, según la OMS, una de las cosas que aumenta tanto la transmisibilidad del COVID-19 es que el 30% carece de síntomas (asintomático) pero durante un tiempo sí es contagioso y como no manifiesta nada, hace vida normal, por lo que durante el periodo de infección (de 13 días) por cada persona infectada se infectan 2,5 más.
¿Y cual son los síntomas del COVID-19?
En base a una muestra estadística de 55.924 casos confirmados por laboratorio, la frecuencia de presentación de los síntomas en la población china era la del cuadro adjunto.
Síntoma presente: | Frecuencia (%) |
Fiebre | 87,9 % |
Tos seca | 67,7 % |
Fatiga | 38,1 % |
Producción de esputo | 33,4 % |
Disnea | 18,6 % |
Dolor muscular o dolor en las articulaciones | 14,8 % |
Dolor de garganta | 13,9 % |
Dolor de cabeza | 13,6 % |
Escalofríos | 11,4 % |
Náuseas o vómitos | 5,0 % |
Congestión nasal | 4,8 % |
Diarrea | 3,7 % |
Hemoptisis | 0,9 % |
Congestión conjuntival | 0,8 % |
Fuente Wikipedia. “COVID-19”
Se ha de hacer notar que estos campos son del tipo SI/NO (sí tiene un síntoma o no lo tiene) o de unos pocos valores si disponemos de dicha información (p.ej. fiebre “alta”, “media” o “leve” o bien por rangos numéricos “>39ºC”, “38-39ºC” y “<38ºC”).
¿Y de qué datos más disponemos para entrenar nuestro sistema sobre lo que es “normal”, es decir, el COVID-19?
Pues hay dos tipos de datos adicionales, los demográficos y los clínicos que suelen ser el resultado de pruebas complementarias que practican los médicos a la vista de los síntomas anteriores.
A nivel clínico la revista The Lancet publicó el 20 de enero un estudio de los primeros 41 casos de pacientes ingresados con el diagnóstico confirmado, desde el 16 de diciembre de 2019 al 2 de enero de 2020. Presentaron linfopenia (déficit de glóbulos blancos) 26 de 41 pacientes (63 %). Todos los pacientes tuvieron neumonía con hallazgos anormales en la TC de tórax.
Ahora bien, si el COVID-20 fuera significativamente diferente, entonces sí sería necesario como paso previo a nuestro detector, el “avisador de nuevas enfermedades infecciosas” de que hablábamos en el artículo anterior. Hay que recordar que estamos hablando de la fase de alerta temprana cuando se producen los primeros casos, las primeras decenas o quizás el primer centenar de casos.
Por ejemplo, en el citado artículo de The Lancet, se compararon los síntomas de los 41 primeros pacientes con el SARS y el MERS (recordad, detección temprana es lo que estamos buscando y son también coronavirus), cuyos estallidos infecciosos son también del S.XXI:

Fuente: «A novel coronavirus outbreak of global health concern», David Heymann. www.thelancet.com Vol 395 February 15, 2020
Si sumamos todas las variables relevantes que es posible recopilar entre síntomas, datos demográficos y resultados clínicos, tenemos en torno a 30 variables y probablemente sean 40 o 50, ya que probablemente existen muchas otras que se me escapan dado que no soy médico. Y en el caso de los datos clínicos, hemos de tener en cuenta que unos pacientes dispondrán de unas pruebas y otros de un conjunto distinto de pruebas, por lo que los algoritmos de aprendizaje automático que utilicemos deben tener en cuenta la posibilidad de aprender en presencia de muestras con variables incompletas.
Lo que vamos a discutir a continuación es si es posible juntar todos estos casos anómalos de nuestro “avisador” y entrenar de forma fiable un sistema de clasificación que tenga una proporción de casos anómalos de 1:100, 1:1.000 o incluso más con respecto a los casos normales, donde los casos normales ahora serían los de COVID-19 (que son más de 400.000 ya[1]). Para ello vamos a suponer que los casos anómalos son todos ellos parecidos, pues lo contrario querría decir que pudieran ser infecciones completamente distintas. Para simplificar esta discusión vamos a despreciar la probabilidad de un estallido simultáneo de dos enfermedades muy infecciosas susceptibles de producir una epidemia o una pandemia como la actual (por ejemplo, SARS y MERS simultáneamente).
¿Y por qué hacemos esto en dos fases y no entrenamos todo de una?
Bueno porque en aplicación del teorema de “no hay comida gratis” (no free lunch theorem) que vimos en otro artículo, en dos pasos, primero obtenemos un conocimiento previo con el cual aplicar un modelo en el segundo paso y, en este, ya podemos detectar muestras relevantes (de COVID-20) con muy pocas muestras del nuevo virus. Por el contrario, si procedemos directamente en un único paso, realmente estamos buscando «agujas en un pajar», con proporciones de muestras relevantes de 1:10.000 o más pero con muy pocas muestras “anómalas” en valor absoluto, lo que hace que sea muy difícil que nuestro detector de nuevas enfermedades infecciosas pueda aprender nada (como se aprecia en la gráficas de más abajo de las clases desequilibradas, donde ni siquiera hemos representado la proporción 1:10.000 ya que no saldría ningún punto naranja («Hay COVID-20».
Pero incluso dividendo el problema en dos como propusimos, la tarea de entrenar un clasificador sobre una muestra de entrenamiento tan sesgada en favor del COVID-19 sigue siendo todo un reto. Esos 41 primeros casos de The Lancet estarían en una proporción de 1:1000 o, suponiendo que sólo podamos documentar el 10% de todos los casos, una proporción de 1:100 respecto de las 41 muestras anómalas que nuestro avisador nos ha separado. Tomemos para simplificar, 50 casos detectados anómalos por nuestro avisador “de alcance global” (o al menos continental – digamos la UE por espacio común de protección de datos de carácter personal-) y otros 5.000 casos de COVID-19 perfectamente diagnosticados.
Quizás alguien pueda pensar que deberíamos tomar sólo 50 casos de COVID-19 y entonces tendríamos un clasificador con clases equilibradas y asunto resuelto. Pero es un hecho bien conocido que el número de muestras de entrenamiento para un clasificador influye mucho en la calidad de la clasificación final, por lo que, si hiciéramos eso, no sólo no clasificaría bien el COVID-20, tampoco sería bueno sobre el COVID-19. En definitiva, se trata de un principio básico de los que hay que conocer y con cuya difusión está comprometido a difundir el blog “Crónicas de un ser humano en la era digital”.
¿Qué significa realmente que las clases están muy desequilibradas?
Para que tengáis una intuición gráfica de lo que supone una distribución de 1:100 y de 1:1000 aquí os dejo un par de diagramas de dispersión extraídas del blog y cursos sobre aprendizaje automático de Jason Brownlee que para mi es una continua fuente de aprendizaje.

Fuente: adaptado de Jason Brownlee. Izquierda: dispersión 2 clases proporción 1:100 y derecha: proporción 1:1.000. Fuente: Jason Brownlee. Con una proporción de 1:10.000 como un detector de un solo paso, es posible que no apareciera ni siquiera un punto naranja (en este caso presencia de COVID-20)
Pues bien, entrenar poblaciones de prueba tan desequilibradas exige el uso de técnicas especiales, puesto que los métodos habituales del aprendizaje automáticamente asumen que la clase positiva (la de interés, la anómala en nuestro caso), tiene una distribución en cantidad parecida a la clase negativa (las muestras normales, en nuestro caso las de COVID-19), lo que puede llevarnos a que la precisión del clasificador sea del 99% (respecto de la clase mayoritaria) y aún así sea pésimo encontrando la clase minoritaria (el 1% estante). En otras palabras, en este caso 99% es el punto de partida a partir del cual mejorar el clasificador, no el punto de destino como en un clasificador convencional con las clases equilibradas o poco desequilibradas. Es por este motivo que estos clasificadores necesitan de otras medidas diferentes a las habituales para saber que funcionan adecuadamente sobre la clase minoritaria de interés. Un buen clasificador, también de la clase minoritaria, debería tener una precisión del 99,9% pero por eso estos casos se ajustan usando otras métricas.
Siempre que hablamos de clases desequilibradas nos referimos al conjunto de entrenamiento (train set), teniendo que presente que debemos reservar algunas muestras anómalas para el conjunto de prueba (test set) que nos permita validar la bondad de nuestro clasificador, lo que nos permite medir su capacidad de generalizar a muestras que aún no ha visto. Como regla empírica, para un conjunto tan pequeño, deberíamos apartar un 10% del conjunto del que disponemos para realizar las pruebas, en nuestro caso un 10% de las 50 muestras anómalas del avisador de enfermedades infecciosas “de características anómalas similares”, sería apartar 5 de estas muestras para incluirlas en el conjunto de prueba, que sería del 10% del total, es decir: 10% de 50+5000=5+500= 505 muestras de las cuales 5 serían anómalas. En realidad, el método que se utiliza realmente es más sofisticado que este que describo y se denomina validación cruzada de k-iteraciones (donde K=10 normalmente), para que sea más robusto estadísticamente y para que dependa menos de la “suerte” que tengamos con la muestra elegida, pero esto lo tendré que dejar para otro artículo dedicado al entrenamiento de un modelo de aprendizaje automático. Baste decir que en este caso, en el que vamos al disponer de muy pocas muestras anómalas (por ser una alerta temprana), debemos hilar mucho más fino que cuando clasificamos perros y gatos y disponemos de millones de imágenes de estos animales y decenas de millones de otros animales u objetos.
Hay dos motivos por los que un clasificador tiene las clases muy desequilibradas: por error en el muestreo o en la medida o, alternativamente, porque haya muy pocos casos en el dominio, por ser eventos raros o incluso “cisnes negros” a los que aludíamos en otro artículo de esta serie (como por ejemplo una tormenta solar de clase X10, la máxima existente, como se describe en la excelente audioserie de “el gran apagón”).
Y en este punto, sin despreciar la posibilidad de que se haya cogido muestras de una localización demasiado concreta, o durante un tiempo demasiado corto, o por errores en el etiquetado o en la recolección de los síntomas o los resultados de las pruebas clínicas, es la propia naturaleza de “nueva enfermedad infecciosa” la que define esta distribución tan desequilibrada, es decir es un restricción intrínseca al problema que estamos estudiando y por lo tanto impone límites a nuestra capacidad de aprender de forma automática. Como por otro lado nuestra intuición nos debe avisar, es muy difícil aprender algo bien cuando tenemos tan poca información (muestras anómalas) sobre esta posible nueva enfermedad infecciosa. En definitiva, las matemáticas “sólo” nos ayudan a formalizar y cuantificar lo que nuestro instinto ya nos avisa, pero incluso si este sistema de alerta temprana nos ayuda a ganar un solo día, como nos muestra el exhaustivo y muy atinado artículo de Tomás Pueyo, esa diferencia en la toma de medidas de aislamiento puede suponer un 40% de incremento en el número de infectados.
Un rayo de optimismo
La buena noticia, es que si se aplican estas técnicas, es posible ganar días, quizás una semana, de manera que la próxima pandemia pueda ser prevenida de una forma mucho más eficiente que esta, pero para esto hemos de poner a trabajar más elementos de forma coordinada que iremos examinando en otras entregas.
¡Que paséis un provechoso aislamiento y redescubráis todas esas cosas que ya no hacíais, pero que realmente merecen la pena! Lo que es seguro, es que cuando esto acabe, ya nada volverá a ser como antes…
[1] A 25 de marzo de 2020