En el pasado artículo vimos una serie de campos en los cuales el nivel de desarrollo actual de los sistemas de Inteligencia Artificial (IA), con el auxilio de las técnicas de análisis de grandes volúmenes de datos (big data), está ayudando en la contención de la pandemia de coronavirus (sí, podría ser peor). En este artículo vamos a explorar algunos aspectos en los que todavía no nos han podido ayudar los sistemas de IA, pero en lo que quizás si nos pueda ayudar en el próximo estallido de una infección.

Dado el abismo social y económico, en que nos encontramos en estos momentos, esta serie de artículos me los he tomado como una especie de contribución de servicio público. Ya que no puedo ayudar de otra forma, más allá de quedarme con mi familia en cuarentena voluntaria, con una audiencia “cautiva” en sus casas, hay una oportunidad única para tratar de llegar a más gente y aumentar el conocimiento general sobre la IA y su relación con el coronavirus.

Los desconocidos sabidos, los desconocidos ignorados y los límites del aprendizaje de la IA

Existen cosas que no sabemos pero que ignoramos que desconocemos, por ejemplo: las bacterias no se descubrieron hasta finales del S.XVII por lo que hasta ese momento la gente no podía saber que la vida microscópica era posible y, por lo tanto, no podía anticipar o predecir sus consecuencias. Es lo que se denominan “desconocidos ignorados” (Unknown unknowns).

clasificación del conocimiento. Elaboración propia

La aparición del Coronavirus es uno de estos casos. Nadie podía haber predicho qué características iba a tener y que su transmisibilidad (vertical y horizontal) y morbimortalidad lo iban a hacer tan peligroso. Otra forma de llamarlos son “cisnes negros”, que no existen en la vida real, pero que de llegar a ver uno, sabríamos que estamos ante un acontecimiento extraordinario: un ejemplo podría Internet, otro podría ser Napster el primer programa distribución de música de forma digital formando una red entre pares (P2P) en 1999, provocó una disrupción en la industria musical, pues hasta ese momento nadie podía prever una alternativa a los CD y un último ejemplo podría ser el bitcoin (y más específicamente la tecnología de cadena de bloques que habilita esta criptomoneda) aunque esta última tecnología aún no haya desplegado ni mucho menos todas sus consecuencias.

Y lo que sucede con estos cisnes negros es que tanto los seres humanos como los sistemas de IA no somos buenos manejándolos, simplemente porque no tenemos datos y no los esperamos. Como veremos en otro artículo que continuará esta serie del coronavirus, podemos tomar decisiones sin datos o con pocos datos, pero para eso debemos tener un modelo causal de lo que está ocurriendo y eso es algo que los sistemas de IA aún no manejan bien, es lo que se está viniendo a llamar la IA causal.

Pero el lector informado puede preguntarse, legítimamente, si realmente es el coronavirus es un cisne negro o es algo que podía haberse previsto y prevenido, al menos hasta cierto punto.

Lo cierto, dirán estas personas, es que, hay registradas 39 especies de coronavirus hasta la fecha (de acuerdo con la Wikipedia). De éstas, se han documentado 7 incluyendo el famoso COVID-19 relacionados con enfermedades respiratorias en los seres humanos. 3 ellos forman parte del resfriado común que padecemos los seres humanos y el resto en conjunto suman (excluyendo el COVID-19) poco más de 10.000 casos registrados en todo el mundo.

¿No podíamos haber detectado los casos de COVID-19 desde el principio?

Visto de esta perspectiva, podemos señalar que existen cosas que sabemos que aún no sabemos, lo cual, aunque parezca malo, nos da un buen punto de arranque para una investigación. Es lo que se denomina “desconocidos sabidos” (Known unknowns). Y en este sentido el coronavirus podría ser menos un cisne negro y más un desconocido sabido. Y estos últimos potencialmente pueden ser detectados por los sistemas de IA, pero la importancia de lo detectado debe ser indicada por expertos humanos, como vimos con el caso de BlueDot en un artículo anterior, sólo que aplicando estas técnicas a las redes sociales.

La pregunta pertinente es, ¿existen pues algunos límites en lo que puede ser detectado y/o aprendido?

Hay una técnica de aprendizaje automático denominada aprendizaje no supervisado que no necesita de muestras de entrenamiento clasificadas por seres humanos, sino que es capaz de inferir conclusiones a partir de la propia estructura y distribución de los datos mismos. Una de sus especialidades es la técnica denominada detección de anomalías, que permite identificar casos raros. Se usa, por ejemplo, para detectar fraudes con tarjetas de crédito, para alertar sobre intrusiones con “firma digital” desconocida en las redes de ordenadores y para predecir posibles anomalías de funcionamiento en maquinaria, que se usan cuando las consecuencias económicas o de otro tipo, de una parada de la máquina por rotura son tan grandes que es mejor cambiarla en una parada de mantenimiento programado, algo muy usado por ejemplo en el contexto de la llamada industria 4.0.

Pero para usar correctamente cualquier técnica hay que conocer los supuestos en que se basa, precisamente lo que cualquier especialista en IA o cualquier experto generalista que incluya la IA en sus dominios de conocimiento, debe saber. En el caso de la detección de anomalías estas suposiciones de partida son:

  1. Las anomalías sólo ocurren muy raramente en los datos
  2. Sus características difieren significativamente de los casos normales

Y en este caso si bien la primera se cumple, ya que en sus inicios los casos de COVID-19 son raros, la segunda no, ya que los casos del COVID-19 cursan con unos síntomas muy parecidos sino idénticos a los de otros coronavirus y otras enfermedades respiratorias y/o infecciosas.

Por lo tanto, esta técnica no nos habría permitido detectar de forma muy temprana el COVID-19, para esto es mucho mejor la técnica, de analítica de datos sociales escalados hasta llegar al big data, utilizada por Bluedot y que vimos en el artículo anterior.

Para que ello fuera posible, deberíamos disponer de un conjunto más rico de datos que sólo los síntomas, por ejemplo, las constantes vitales, resultados de las analíticas, TAC, etc., pero recordemos que para muchas personas COVID-19 cursa de forma leve, por lo que es poco probable que resulten hospitalizadas y por lo tanto estos datos no están disponibles. Además, incluso en ese caso, no se dispone de ningún repositorio de información más o menos centralizado que nos permita abarcar, de forma anonimizada para respetar la privacidad de las personas, una cantidad suficiente de población y datos para poner en marcha estas técnicas.

De todas maneras, no es imposible pensar en un sistema de alerta temprana de estas características, aunque no es nada fácil de implementar ni legal ni técnicamente. El Reglamento General de Protección de Datos de la Unión Europea prevé una excepción para la prohibición de tratamiento de datos. La descripción que hace la norma parece pensada para un caso como el coronavirus: podrá hacerse una excepción si “el tratamiento es necesario por razones de interés público en el ámbito de la salud pública, como la protección frente a amenazas transfronterizas graves para la salud”. Pero falta desarrollarse en una ley nacional o mejor, dada la naturaleza de estas cosas, una directiva europea para homogeneizar la respuesta como mínimo en el ámbito de la UE.

Otro obstáculo es que estos tratamientos parecen requerir que se haya declarado una emergencia sanitaria previamente, por lo que su utilidad preventiva se ve muy mermada, aunque seguirían siendo útiles para reducir los efectos de la propagación nunca para cortarla de raíz. Esto requeriría, de una habilitación previa a la declaración de emergencia sanitaria y un tratamiento exclusivamente limitado a un reducido grupo de personas de las administraciones sanitarias por todas las implicaciones que tiene la posesión de toda esta información. Pero para esto también se están desarrollando soluciones, como por ejemplo la privacidad diferencial, de la que hablaré en otro artículo, pero que en líneas generales permite obtener conjuntos agregados de datos sensibles, pero garantizando estadísticamente, la confidencialidad y anonimato de las personas que los han aportado.

Mucha gente tiene la idea errónea de que los sistemas de aprendizaje automático son capaces de aprender sólo de la observación de los datos y por ello cuantos más datos acumulemos, mejor. Nada más lejos de la realidad. El caso del coronavirus es un caso típico de aplicación del teorema de “no hay comida gratis” (No free lunch theorem), que dicho de forma sencilla es una forma de expresar que no es posible aprender nada gratis, si primero no se tiene una idea de lo que se está buscando. Esto, traducido a lo que veníamos contando significa que para aprender que algo es anómalo, primero debemos tener una medida al menos de lo que entendemos por normal o una cierta idea de en qué puede consistir la anormalidad y en los primeros estadios de un estallido infeccioso no es el caso (al menos en el del coronavirus porque no tiene unos síntomas diferenciados).

El razonamiento de la gente que piensa que cuantos más datos mejor, es que cuantas más variables incluimos en nuestro conjunto de datos para el análisis, más información disponemos para poder establecer asociación estadística (conocida como correlación) entre dos o más variables y por lo tanto más robustas serán nuestras conclusiones, pero esto no es necesariamente cierto.

Lo que es cierto es que, en general, cuantas más muestras dispongamos mejores resultados podremos obtener, pero si cada muestra está compuesta de un número creciente de datos (variables en este contexto), entonces entra en juego lo que se denomina la maldición de la dimensión, que aparece en muchos campos, entre otros en el aprendizaje automático (machine learning). Esta expresión se refiere cuando aumenta el número de dimensiones (lo que se conoce como dimensionalidad), el volumen del espacio aumenta exponencialmente haciendo que los datos disponibles se vuelven dispersos. Esta dispersión es problemática para cualquier método que requiera significación estadística. Con el fin de obtener un resultado estadísticamente sólido y fiable, la cantidad de datos necesarios para mantener el resultado a menudo debe crecer también exponencialmente con la dimensionalidad. Además, la organización y búsqueda de datos a menudo se basa en la detección de las áreas donde los objetos forman grupos con propiedades similares, y en datos de alta dimensión, sin embargo, todos los objetos parecen ser escasos, dispersos y diferentes en muchos aspectos, lo que impide que las estrategias de organización de datos comunes sean eficientes.

Un ejemplo extraído de la propia Wikipedia: bastan 100 puntos (102=100) para muestrear un intervalo unidad (un cubo unidimensional) de manera que los puntos no disten más de 10-2=0,01 entre sí. Pero un muestreo equivalente en un hipercubo unidad de un espacio de dimensión diez (es decir 10 variables representando cada muestra) harían falta 1020 puntos. En general con una distancia espacial de 10-n en el hipercubo de diez dimensiones aparece ser 10n(10-1) más grande que en el hipercubo de una dimensión. En el anterior ejemplo n=2; cuando se usa una distancia de muestra de 0,01 el hipercubo de 10 dimensiones parece ser 1018 más grande que el intervalo unidad.

“The curse of dimensionality”, medium.com, Pete Gleeson

Es decir, que para un numero de muestras fijo, la potencia de clasificación o de regresión (esto es, estimar un valor, no una categoría) primero se incrementa con el número de dimensiones o características utilizados, pero después desciende por este fenómeno.

Así que incluso si superamos las barreras legales, sociales y tecnológicas y montáramos una especie de “red de alerta temprana de posibles enfermedades infecciosas” a nivel UE o mejor global, suponiendo que pudiéramos recolectar un conjunto rico de datos, deberíamos utilizar técnicas de reducción de la dimensionalidad para combatir la “maldición de la dimensión”. En otro artículo de esta serie exploraré algunas de las posibilidades que brinda el aprendizaje automático de hacer esto.

Los “sabidos conocidos” es el tipo de conocimiento donde la IA brilla

Los sistemas de aprendizaje supervisado son difíciles de ajustar para un nuevo virus, precisamente porque disponemos de pocas muestras clasificadas de forma precisa para entrenarlos, al principio al menos, que es cuando sería más deseable poder detectar los casos, antes de que se extienda sin control. Es por ello que no se ha podido obtener un clasificador de tomografías axiales computarizadas (TAC) del pulmón por encima del 90% del precisión, como vimos en el artículo anterior, hasta que no se han dispuesto de más de 5.000 casos confirmados (i.e.e clasificados) por otros medios en China, es decir un poco menos de los que llevamos a 14 de marzo en España, si bien es cierto, que gracias a China estos sistemas de detección estaban disponibles mucho antes y su principal ventaja es que sólo se necesitan 20s para determinarlos, no unas 6h como en el sistema de laboratorio mediante la PCR en tiempo real (la reacción en cadena a la polimerasa), posible gracias a que se puede realizar ya que científicos chinos aislaron y publicaron una secuencia genética del coronavirus.

El tener disponibles en España estos medios diagnósticos rápidos y el usarlos o no, no es una cuestión técnica, sino simplemente política.

Cuando disponemos de muchos datos, que ya han sido clasificados por expertos humanos, es cuando toda la potencia de las técnicas de aprendizaje supervisado brillan y cuando podemos conseguir resultados con la misma o mejor precisión que los expertos humanos, sólo que en un tiempo mucho más corto, lo que permite la adopción rápida de decisiones tanto a las autoridades sanitarias en primera línea del frente como a las autoridades sanitarias encargadas de implementar las políticas de salud pública.

El peligro: los desconocidos conocidos

Pero existe un gran peligro en el uso de los sistemas de IA para tomar decisiones y, especialmente las relativas a la salud de las personas, basándose en los resultados de los algoritmos de IA y este es, los “desconocidos conocidos” (Unknown knowns) en la que disponemos de muchos datos, sobre los que los algoritmos de IA nos indican que están muy seguros de sus conclusiones y se toman decisiones, incluso de forma automática, en base a ello. Y ello se produce porque los sistemas de IA trabajan con asociaciones estadísticas (correlaciones) pero no saben trabajar y distinguir la causalidad y cualquier sistema de IA que sea verdaderamente inteligente necesita entender esto, si aspira a entender el mundo. Es requisito necesario, aunque no suficiente para llegar hasta una IA fuerte o general.

Pero esto lo dejamos para otra ocasión….

 

Posted by santiago

Deja un comentario