En un artículo anterior vimos que el efecto IA, hace que se vayan moviendo los límites de lo que se considera en cada momento que es IA. Después de que Watson ganara en 2011 a los mejores jugadores de Jeopardy!, los investigadores continuaron buscando nuevos límites y se fijaron en el juego del Go. Este es un juego originario de China con más de 2.500 años de antigüedad. Para ganar en este juego se necesitan múltiples niveles de pensamiento estratégico. Es un juego en el que se utilizan piedras blancas o negras alternativamente. El objetivo del juego es rodear y capturar las piedras del oponente o crear espacios estratégicos en el territorio. Cuando se han jugado todos los posibles movimientos, se cuentan tanto las piedras como los puntos vacíos. El número mayor gana. Así de fácil parece….pero realmente, así de difícil es.
Este juego pasa por ser el juego clásico más difícil para una IA por su extraordinaria complejidad de movimientos posibles, del orden de 10170 posibles configuraciones del tablero, es decir mucho más que el número de átomos que se estima existen en el universo (1080) y mucho más complejo que el ajedrez (1040).
El reto pues, en 2016, era jugar y ganar al Go contra el mejor jugador de la última década, Lee Sedol (18 títulos mundiales), ya que ni con todos los algoritmos para acortar el espacio de búsqueda de movimientos existentes hasta la fecha era suficiente por una tarea de esta envergadura. Se necesitaba que el sistema de IA desarrollara una especie de intuición sobre el juego. Por intuición entendemos la capacidad de establecer la dirección de una solución sin tener todos los datos para calcular exactamente dicha solución (lo que se suele resumir en la frase: “ser aproximadamente correcto es mejor que está precisamente equivocado”[1]).
En 2015, la gente de DeepMind, una empresa de Google, creó AlphaGo, un programa que combina búsquedas muy avanzadas en los árboles con el uso de redes neuronales profundas que toman la descripción del tablero del Go como entrada y las procesan a través de un número diferente de capas en red que contienen millones de conexiones del tipo de neuronas.
El resultado del encuentro que se jugó en Seúl, Corea y fue seguido por más de 200 millones de personas (en Asia es un juego muy popular), fue de 4-1 a favor de AlphaGo. De acuerdo con el propio Sedol, en el movimiento 37 de AlphaGo en la segunda partida:
“Pensaba que AlphaGo se basaba en el cálculo de probabilidades y que era simplemente una máquina. Pero cuando vi ese movimiento, cambié mi forma de pensar. Sin duda, AlphaGo es creativa“.
Durante los encuentros, AlphaGo jugó varios movimientos ganadores innovadores, incluido el anterior, que fueron tan sorprendentes que resumieron cientos de años de sabiduría sobre el juego. Jugadores de todos los niveles han examinado completamente estos movimientos desde entonces en búsqueda de nuevas estrategias que ningún ser humano había descubierto aún. De hecho, se pensaba que este logro tardaría una década más en conquistarse. La única partida que Sedol ganó, la cuarta, fue, asimismo, un tributo al mejor jugador de una década, un movimiento, el 78, que nadie más haría, “la jugada de Dios” en palabras de un rival del máximo nivel y que AlphaGo entendió con una probabilidad muy baja de que se materializase finalmente en la pérdida de la partida, pues era una jugada localmente absurda, pero era necesaria para consolidar después toda la estrategia que había venido desarrollando Sedol. AlphaGo se dio cuenta de ello en la jugada 87, pero ya era tarde. Esa jugada fue pues, un tributo, a la creatividad de los seres humanos.
Desde el punto de vista de las técnicas de IA, la gran novedad que introdujo AlphaGo fue la utilización de dos redes neuronales independientes: una denominada “la red de la política” (de juego) que selecciona el siguiente movimiento a realizar y la otra denominada la “red de valor”, que predice el ganador de la partida. La otra gran novedad reside en la forma de aprendizaje, denominada aprendizaje por refuerzo. Usando esta técnica el programa aprendió a jugar a través de partidas con aficionados hasta que conoció los principios de un juego razonable. Después jugó miles de veces contra diferentes versiones de sí mismo, aprendiendo cada vez de sus errores, cosa que, por ejemplo, Deep Blue era incapaz de hacer. Y todo lo hizo basándose en su propia capacidad de autoaprendizaje. Esto abrió los ojos de China, que a partir de este momento apostó por ser el líder mundial en IA y lleva camino de lograrlo (¡ojo con esto, que no son buenas noticias!).
Pero lo importante en este caso es cómo se aprecia la aceleración exponencial de los sistemas de IA. En enero de 2017, se presentó AlphaZero Máster, una versión mejorada que había aprendido del encuentro con Sedol. Ganó 60-0 en partidas rápidas simultáneas contra los mejores jugadores del mundo, y al campeón mundial de ese año, Ke Jie (3-0).
Lo más increíble sucedió después, a finales de 2017, poco más de un año de la victoria de AlphaGo, una nueva versión, denominada AlphaZero, tomó un camino completamente distinto: a partir simplemente del conocimiento de las reglas del Go, fue capaz de jugar contra sí mismo y en 3 días llegó al nivel de AlphaGo “Lee”, en 21 días al nivel de AlphaGo Máster y en 40 días se convirtió, sin duda alguna , en la mejor IA que haya jugado nunca al Go llegando a una puntuación Elo (el sistema de clasificación) de 5.000 frente a los 3.100 de Lee Sedol. AlphaZero necesitó un orden de magnitud menos de potencia computacional que la versión inicial (4 TPU[2] frente a 48 TPU) y requirió de un orden de magnitud menos de partidas de entrenamiento (3,9 millones frente a 30 millones respectivamente).
Posteriormente aprendió a jugar al ajedrez, alcanzando el nivel del campeón del mundo ¡en sólo 4h! y siendo capaz de ganar al mejor programa existente (Stockfish) ¡en sólo menos de 24h! (28 victorias, 72 empates, and 0 perdidas). Después hizo lo mismo con el mejor programa del juego japonés del Shōgi (Elmo).
Su respuesta creativa y su habilidad para dominar tres juegos complejos con un único algoritmo, demuestra que éste puede descubrir nuevo conocimiento en una variedad de problemas y, potencialmente, cualquier juego con información perfecta.
El paso de AlphaZero al mundo real será a través de la creación de un sistema de aprendizaje genera que pueda ayudar a la Humanidad a encontrar soluciones a los más importantes y complejos problemas científicos como, por ejemplo, la reducción del consumo energético de los centros de proceso de datos, la búsqueda de nuevos materiales con propiedades revolucionarias y el doblado de proteínas (fundamental para conocer su papel en el cuerpo, así como para diagnosticar y tratar enfermedades que se cree que están provocadas por proteínas mal dobladas, como el Alzheimer, el Párkinson, el Huntington y fibrosis cística).
Nuevamente, como viene siendo una constante en esta serie de artículos dedicados a la IA y los juegos, los resultados del aprendizaje de los sistemas de IA en el dominio de estos están sirviendo de inspiración y mejora de las capacidades de la Humanidad en su conjunto. En un próximo artículo seguiremos viendo esta evolución.
[1] En el inglés original: it’s better to be approximately correct than precisely wrong.
[2] TPU: unidad de procesamiento tensorial o TPU (del inglés tensor processing unit) es un circuito integrado acelerador de IA desarrollado por Google específicamente para el aprendizaje automático.