¿Es posible que los algoritmos que toman decisiones automáticas de forma «objetiva» sigan perpetuando el racismo y otras formas la discriminación que se dan en la Sociedad?
¿No nos tenía que salvar el Reglamento General de Protección de Datos (RGPD) de la Unión Europea (UE) de todo esto?

¡Atención! Los algoritmos de decisión automáticos están prolongando la discriminación existente y pocos son conscientes de ello
El 26 de mayo de 2018, se ha comenzado a aplicar el RGPD en toda la UE. Por ese motivo los lectores habrán recibido en las últimas semanas y especialmente en los últimos días previos al 26 de mayo, numerosos mensajes de sus aplicaciones y redes sociales favoritas indicando el cambio en los términos y condiciones de la misma y dando – supuestamente-, más explicaciones y más inteligibles sobre los datos personales nuestros que recaban y sobre a quienes se los ceden y con qué fines. Creo que es un buen ejercicio para cualquier persona con espíritu crítico, leerse los «Términos y Condiciones» de cualquiera de estas comunicaciones para ver si realmente le queda claro a quién y bajo qué circunstancias se les cede los datos a terceros y si dicha cesión es opcional o no (es decir, que no puedes usar la aplicación si no cedes tus datos con el contenido y en la forma especificados) o si siguen jugando al despiste. Como muestra dejo aquí los de WhatsApp.
En los últimos meses, todas las asociaciones profesionales y empresariales y los gurús de turno están realizando sesudos análisis, coloquios y mesas redondas, en especial sobre la figura del Delegado de Protección de Datos (conocido por DPO, por sus siglas en inglés de Data Protection Officer) y de si éste (o ésta) debe ser interno o externo a la empresa. Y no diré yo que no sea necesaria toda esta divulgación y análisis y que no sea novedosa la figura y delicada su ubicación en el organigrama de las empresas.
Pero, para mi sorpresa, apenas nadie dice nada del artículo 22, que considero uno de sus artículos clave. De hecho, pienso que el Legislador que lo ha introducido en el Reglamento o bien tiene una idea bastante clara de lo que es el aprendizaje automático (ML) y la Inteligencia Artificial (IA) o, en caso contrario, demuestra poseer una clarividencia extraordinaria.
Pero Crónicas de un ser humano en la era digital aspira a ser un blog diferente a casi todo lo demás que puede encontrarse por ahí y aunque está centrada en la Inteligencia Artificial y en aplicar a cualquier tema una mirada de «experto generalista«. Dado que hace (bastantes) años me dediqué profesionalmente a la protección de datos de carácter personal, voy a tratar de unir ambos mundos, en especial para aquellos que desconocen (casi) todo sobre la Inteligencia Artificial.
De paso este artículo (bueno, toda la serie) me ha de servir para poner en valor la figura del experto generalista y la necesidad de que las empresas, al menos las de cierto tamaño, empiecen a incorporar estas figuras de CDO (Chief Digital Officer o similares) en las direcciones de sus empresas al mismo nivel que los departamentos más relevantes, porque el futuro de las empresas se va a jugar en hacer correctamente, puntualmente y diligentemente, la transformación digital verdadera de nuestras empresas (¡y no!, no se trata de que no haya papeles en la oficina o en la planta).
Así que, ¡vayamos al grano! ¿Qué dice el (recién) famoso artículo 22?:
Antes de examinar las implicaciones de esto, conviene acudir a la definición del artículo 4 relativa a lo que significa la elaboración de perfiles, pues esta es una actividad completamente básica y rutinaria en Aprendizaje Automático (ML), como por ejemplo en los sistemas de recomendación o en el análisis de sentimientos:
«Elaboración de perfiles»: toda forma de tratamiento automatizado de datos personales consistente en utilizar datos personales para evaluar determinados aspectos personales de una persona física, en particular para analizar o predecir aspectos relativos al rendimiento profesional, situación económica, salud, preferencias personales, intereses, fiabilidad, comportamiento, ubicación o movimientos de dicha persona física.
(las negritas son mías para resaltar los aspectos que considero más interesantes para esta discusión).
Por lo tanto la elaboración de perfiles es un subconjunto del procesamiento que se distingue por dos condiciones: el procesamiento es automático (sin intervención humana) y que se realiza para realizar algún tipo de evaluación.
La primera reflexión que quiero hacer es que la elaboración de perfiles, como señalan Bryce Goodman y Seth Flaxman de la universidad de Oxford, es inherentemente discriminatoria, porque los sujetos se agrupan en categorías de acuerdo con un número de variables y las decisiones se toman sobre la base de que los sujetos caen dentro de grupos bien definidos.
Esto suscita un cuestión ética fundamental en el big data, ya que aunque sus defensores dicen que es neutro, realmente no lo es. El aprendizaje automático (Machine Learning) depende de los datos que ha recogido de la Sociedad y en la medida en que ésta contiene desigualdad, discriminación y exclusión, también estarán en los datos. Si esto es así en el conjunto de datos de entrenamiento, entonces por definición se obtendrá un preciso clasificador que ¡reproduzca estos datos (discriminatorios)!. De esta manera, estas decisiones discriminatorias se presentan como el resultado de un algoritmo «objetivo».
El artículo 22.4 se refiere específicamente a la discriminación que proviene de la elaboración de perfiles con datos sensibles. En este punto cabe hacer dos interpretaciones distintas. La primera de ellas que denominaré mínima, dice que esta directiva sólo aplica a los casos en los que el algoritmo esté haciendo uso directamente de los datos sensibles (por ejemplo, como señala el artículo 9, género, raza, etnia, opiniones políticas, religión, datos genéticos y biométricos, de salud o sobre su sexualidad).
En primera instancia, esta medida parece una buena idea, porque si por ejemplo, un directivo es machista (sea consciente o no) y evalúa sistemáticamente mejor el desempeño de sus trabajadores masculinos respecto de los femeninos, entonces un algoritmo encontrará sin duda, que los hombres (en esa empresa al menos) desempeñan generalmente mejor sus funciones que las mujeres y esta clasificación podría ser, por ejemplo, la base de una parte variable y significativa de su salario.
Si el modelo se entrena con un conjunto de datos de puntuaciones pasadas y se incluye el sexo de la persona evaluada, el modelo resultante, como se ha dicho anteriormente, discriminará, en base al sexo del trabajador. Por este motivo, eliminar esta variable, reducirá la precisión del modelo, lo que en este caso es una buena cosa, porque se reducirá la discriminación cometida por el algoritmo.
Pero esta interpretación presenta problemas, como señalan en su artículo Barocas y Slebst, ya que no es efectiva en caso de discriminación estadística donde una variable «sensible» es, en sí misma, predictiva. (¡Ojo! aquí hay que entender este concepto de «discriminación» no en su sentido clásico de capacidad de discernimiento de una variable, sino como capacidad de introducir un sesgo en sus valoraciones). Así, esta relación está codificada de forma redundante en variables representantes de aquellas. Por el hecho de quitar las variables sensibles de un conjunto de datos, no se alteran las predicciones.
Por ejemplo, si se elimina la raza como variable de entrada para un algoritmo de predicción para la concesión de préstamos y si se incorpora por otro lado la información geográfica del peticionario (donde está ubicado), en zonas donde haya un elevado número de personas con bajos (o altos) ingresos o que pertenezcan a una minoría racial dentro de esa zona es probable que el resultado final acabe siendo muy parecido a si de hecho, se hubieran incorporado el dato «sensible» de la raza. Para ver por qué, observemos las dos siguientes figuras:

Ejemplo homofilia. Ciudad de Nueva York. Distribución por razas (rojo: caucásico; azul: afroamericano; verde: latino, naranja: asiático).
Recordemos que la gente se suele distribuir en zonas en las que hay un cierto porcentaje más o menos grande de personas parecidas a ellas, por su raza o también por sus ingresos, un fenómeno conocido en sociología como homofilia y que es una propiedad emergente del comportamiento individual de las personas. Si hacemos un zoom sobre el área de Manhattan, podemos ver la distribución por nivel de ingresos:

Otro ejemplo de homofilia. Ciudad NY. Distribución por nivel de ingresos (rojo: alto; azul claro: medio: azul oscuro: bajo).
O sea, que un algoritmo para conceder un préstamo, que por ejemplo, se base en el nivel de ingresos y la zona geográfica donde está ubicado el peticionario, acabará produciendo resultados parecidos, al menos en esta zona de Manhattan, a los obtenidos si hubiera incorporado la raza. Y el nivel de ingresos no se puede eliminar porque es una variable central en el tratamiento del problema porque en gran medida la capacidad de devolver está relacionada con el nivel de ingresos. En definitiva, eliminar la variable «sensible» no elimina la discriminación del algoritmo, sólo lo parece.
La otra interpretación de lo que son datos sensibles, que denominaré máxima, entiende de forma más amplia lo que es un dato sensible, para incluir no sólo las variables explícitamente incluidas en el artículo 9, sino también todas aquellas con las que están correladas (i.e. relacionadas estadísticamente). Esta interpretación pone la carga de la prueba en el encargado del tratamiento de los datos. Esto supone que conforme los conjuntos de datos se hacen más grandes resulta más compleja la detección de estas correlaciones, por ejemplo entre la dirección IP y la raza y hoy un modelo de decisión real, bien ajustado puede contener entre decenas y centenares de variables.
Así, el encargado del tratamiento debería comenzar identificando y listando todas las variables con correlaciones estadísticamente significativas entre la raza y otras variables predictoras «sensibles». Como ejemplo de la extrema dificultad de cortar todas estas variables correladas, la consultora Deloitte explicó en 2014 en una conferencia de actuarios de seguros de EEUU, que para predecir el estado de salud de una persona con una precisión comparable a la de un examen médico, pueden usar miles de fuentes de datos alternativas, como por ejemplo el historial de consumo de una persona.
Pero es que incluso si eliminamos todas estas variables que se correlan individualmente, siempre existe la posibilidad de que las restantes variables puedan tener una correlación estadística de forma agregada (es decir que lo que se correla es la combinación de variables). De esta manera, la situación podría ser incluso peor, ya que además el análisis parecería que ahora está completamente libre de discriminación. Además, como señala Feldman et al., los métodos propuestos para eliminar o reducir la discriminación, necesitan que las variables sensibles relacionadas estén en el conjunto de datos, de otra forma no hay manera de establecer si existe o no discriminación.
Es decir, un riesgo importante de ambas interpretaciones de lo que son datos sensibles, es que prohibir un conjunto de datos sensibles u otros que pueden revelarlos, puede agudizar el problema que se pretende solucionar.
En resumen, la interpretación mínima del artículo 9 no es efectiva porque no elimina la discriminación en cierto número de ocasiones y la interpretación máxima es, probablemente, inviable, porque generalmente perdemos demasiada información útil para hacer buenas predicciones y clasificaciones y porque en última instancia, no nos permite determinar si a pesar de todo estamos discriminando de forma agregada.
Bueno, aquí termino la primera entrega de esta serie dedicada a la discriminación que pueden producir los algoritmos automatizados de decisión a pesar de su «aparente objetividad».
¡Hasta pronto!