En un artículo anterior examinamos que a pesar de la reciente aprobación del Reglamento General de Protección de Datos de Carácter Personal (RGPD), los algoritmos de decisión automática en ocasiones pueden perpetuar las distintas formas de discriminación que existen en la Sociedad, al tiempo que dichas decisiones aparecen revestidas de «objetividad» por no intervenir la «subjetividad» humana en sus decisiones.
En particular vimos dos efectos contrapuestos:
- Los problemas que, en determinadas situaciones, puede tener para la privacidad de los datos personales el uso del aprendizaje automático (machine learning) con independencia aunque se excluyan los datos sensibles, tanto en la interpretación que denominábamos mínima, que excluía sólo los datos sensibles, como en algunos casos, la interpretación máxima, que incluía todas las variables correlacionadas estadísticamente con los anteriores.
- En sentido contrario, en el caso de la interpretación máxima, podíamos llegar a hacer inútil las técnicas de machine learning al excluir demasiada información, lo que podría impedirnos hacer clasificaciones o predicciones legítimas y además no nos permite saber si estamos o no discriminando. Es decir, el código postal puede revelar información sobre la raza y a pesar de ello, todavía dar información, útil y no discriminatoria sobre la probabilidad de impago de un crédito.
También vimos que estos algoritmos no hacen sino aprender las discriminaciones de los datos con que son entrenados, por los que habría que hacer sobre los conjuntos de datos de entrenamiento un proceso de «eliminación de la discriminación», para el cual empiezan a haber técnicas disponibles.
Pero, las implicaciones del artículo 22 del RGPD y la Inteligencia Artificial, no se agotan aquí, sino que son mucho más profundas de lo que cabría pensar de una mirada que no conoce las raíces estadísticas de estas técnicas.
Supongamos por un momento, que hemos entrenado a nuestro clasificador con un conjunto de datos del que podemos decir que no produce discriminación alguna. Como señala el investigador de aprendizaje automático y privacidad, Moritz Hardt, en algunos casos, esto no tiene porque producir un resultado justo utilizando las técnicas del aprendizaje automático, debido a las diferencias en la precisión de la clasificación entre diferentes grupos, como voy a tratar de explicar a continuación. Para hacerlo, no obstante, he de introducir cierta terminología:
Un algoritmo de aprendizaje es, de forma simple, cualquier algoritmo que toma ejemplos históricos (los datos de entrenamiento) de un problema de decisión como entrada y produce una regla de decisión o clasificador que se usa a partir de entonces en futuros ejemplos de ese problema. Se llama característica a un atributos de los datos y espacio de características o representación de los datos, al conjunto de todos los tributos disponibles.
Asumiendo un espacio de características fijo, un clasificador generalmente mejora según aumenta el número de puntos con datos con el que se entrena. Esto es precisamente uno de los lemas del Big Data.

El error en el clasificador normalmente decrece como el inverso de la raíz cuadrada del tamaño de las muestras. Cuatro veces más muestras significa dividir por dos la tasa de errores. Fte: Moritz Hardt
Pero el reverso de lo anterior es que con menos datos las predicciones son peores y, desafortunadamente normalmente de los conjuntos de datos de las minorías ofrecen predicciones peores que los de la población general. Lo anterior es verdad suponiendo que el clasificador aprendido de la población general no se transfiere fidedignamente a la minoría, por ser una población heterogénea. En el caso de que ambos grupos juntos formen una población homogénea, las muestras de entrenamiento adicionales puede beneficiar a ambos grupos.
Así, en la siguiente figura puede verse este efecto:

Modelado de una población heterogénea usando una mezcla gaussiana de variables y aprendiendo sus parámetros con un algoritmo de esperanza-maximización (EM). Las estimaciones del grupo más pequeño son bastante peor que las del grande. Las elipses de puntos en rojo describen las matrices de covarianza (i.e. dependencia entre ambas variables) de las estimaciones y las elipses en verde son las covarianzas correctas. Las cruces rojas y verdes indican las medias estimada y correcta y como se ven están mucho más alejadas en el grupo pequeño. Fte: Moritz Hardt
¿Y cómo nos afecta todo esto?
Pues nos afecta en que este tipo de error es muy difícil de eliminar, que esta infra representación de la minoría en una muestra puede ser debida a una discriminación histórica o un menor acceso a la tecnología, pero también es una característica del proceso de construcción de una muestra aleatoria en la cual los grupos se representan por su tamaño relativo en la población (i.e. a menor porcentaje de la minoría, menos muestras de ese subgrupo de población se cogerán). Quizás la única forma de paliar este efecto es sobre representar la minoría, pero esto no siempre es posible por falta de datos o porque dicha acción, puede implicar la toma de datos de dichas minorías con las suspicacias que ello puede alzar.
Es decir, que existe una tendencia general de los sistemas automáticos de decisión de favorecer los grupos dominantes estadísticamente. Para que este efecto se de, no obstante, es necesario que el algoritmo clasificador tenga «aversión al riesgo». Es decir, como dicen Bryce Goodman, Seth Flaxman, si todo lo demás es igual (ceteris paribus) este tipo de algoritmos prefieren tomar decisiones en las cuales tienen mayor confianza (aquellas con intervalos de confianza menores), es decir que tenderán a favorecer a los grupos que están mejor representados en los datos de entrenamiento, ya que tendrán menor incertidumbre asociada con esas predicciones, que con la de los peor representados. Y el hecho es que los algoritmos con aversión al riesgo, son, en principio, muy razonables desde muchos puntos de vista, parece que actuaran con la diligencia de un buen «padre de familia».
Vamos a ver lo anterior con un ejemplo que ayude a fijar ideas. Para facilitar la discusión sigamos con el ejemplo del sistema automático de evaluación de préstamos. Imaginemos que la población está dividida en dos grupos, el mayoritario «blancos» (caucásicos) y «resto» (todas las demás razas).

La verdad fundamental es que es igualmente probable que devuelva un préstamo un blanco que cualquier otra raza. Como el algoritmo tiene aversión al riesgo, tiene una regla muy razonable: «ofrece un préstamo cuando el extremo inferior del intervalo de confianza del 95% está por encima del umbral fijo de aprobación de préstamos (el 90%, línea azul de puntos). Nadie debería protestar por un algoritmo así, que como se ha dicho actúa con prudencia, como un buen padre de familia sobre una base de concesión de préstamos alta (el 90%, es decir el banco quiere concederlos mucho más que denegarlos porque es parte central de su negocio). Vamos generando poblaciones crecientemente «menos blancas» sobre muestras de 500 personas cada vez, en las cuales la probabilidad de devolución era del 95% independientemente de la raza.Si la población no blanca está por debajo del 30% en la Sociedad (en este caso EEUU) y asumiendo una muestra aleatoria simple, los no-blancos tienen más incertidumbre asociada, por lo que no se les ofrecen créditos hasta que la población no-blanca no llega al 50%, donde su incertidumbre se iguala a la de los blancos y se le ofrece préstamos a todo el mundo. Fte:Bryce Goodman, Seth Flaxman
Por si hay lectores que se sienten confundidos con la gráfica anterior, he reformulado lo anterior con una visión alternativa en la que, en vez de centrarse en el porcentaje de la minoría, lo hace desde el punto de vista de la diferente incertidumbre asociada a los dos grupos existentes, usando las conocidas distribuciones gaussianas según el intervalo de confianza, para ver el efecto de discriminación (lo siento, ¡hace falta un poco de estadística» o ¡un acto de fe!):

Efecto de la incertidumbre del clasificador a la hora de conceder un préstamo. Se puede observar que con este clasificador con aversión al riesgo (estadístico), ¡nadie va a conceder nunca un préstamo a un gitano como no sea que tenga unos ingresos que hagan que no necesite el préstamo!. Fte: elaboración propia
Y este es un ejemplo muy simple. En situaciones reales las combinaciones de categorías para tomar esa decisión son complejas (ocupación, ubicación, patrones de consumo, etc.), en las cuales las combinaciones muy raras tienen apenas algunas observaciones en el conjunto de datos de entrenamiento. Este hecho provoca que un pequeño sesgo hacia un grupo u otro en los datos de entrenamiento, se vaya acumulando en el aprendizaje activo como hemos visto, puesto que los miembros mejor representados, tienden a crecer en su sobre representación con los resultados que hemos visto.
Solo esto justifica el artículo 22 del RGPD en el sentido de que siempre es necesaria la existencia de explicaciones inteligibles por los seres humanos sobre las decisiones tomadas de forma automática por un algoritmo.
Bien, aquí termino el artículo para no extenderme en demasía, pero esto tiene varios ángulos más que merece la pena explorar y que hemos de comenzar a debatir públicamente, porque queramos o no, ¡ya nos están discriminando!
Enlace a la parte 1