Por primera vez, la inteligencia artificial gana en partida de póquer de seis jugadores

14 Julio 2019

Las máquinas han subido la apuesta otra vez. Un bot sobrehumano que juega al póker, el llamado Pluribus, ha derrotado a unos profesionales humanos del más alto nivel en unas partidas de Texas hold'em, la variante más popular del póker. Es la primera vez que un programa de inteligencia artificial (IA) ha batido a unos jugadores humanos de elite en un juego donde participen más de dos jugadores.

«Puede parecer que pasar de dos a seis jugadores es solo una mejora por mero incremento, pero en realidad es algo grande», dice Julian Togelius, de la Universidad de Nueva York, que estudia los juegos y la IA: «Que haya varios jugadores no ocurre en absoluto en otros juegos que se estén estudiando actualmente».

Los investigadores que han creado Pluribus habían construido antes otra IA, Libratus, que derrotó a profesionales en partidas de póker de dos jugadores. Construyeron Pluribus actualizando Libratus y creando un bot que necesita mucha menos potencia computacional para jugar las partidas. En una sesión de doce días, con más de 10.000 manos de seis jugadores, batió a quince jugadores humanos del nivel más alto. «Muchos investigadores de IA no creían que fuera posible hacer esto valiéndose de [nuestras] técnicas», dice Noam Brown, de la Universidad Carnegie Mellon, en Pittsburgh, Filadelfia, y Facebook AI Research, en Nueva York, que creó Pluribus con Tuomas Sandholm, colega suyo de la Carnegie.

Otras IA que han dominado juegos humanos, como Libratus y los bots jugadores de Go de DeepMind, han demostrado que los jugadores humanos no pueden con ellos en juegos de dos jugadores de suma cero. En estos siempre hay un vencedor y un perdedor, y la teoría de juegos ofrece una mejor estrategia bien definida.

Pero la teoría de juegos sirve de menos cuando participan varios jugadores con intereses competidores entre sí y sin que haya unas condiciones claras para ganar o perder, precisamente lo que ocurre en la mayoría de los problemas de la vida real. Al resolver un póker de múltiples jugadores, Pluribus pone los cimientos de futuras IA que aborden problemas complejos de este tipo, dice Brown. Cree que su éxito es un paso hacia aplicaciones del estilo de las negociaciones automatizadas, una mejor detección de fraudes y los coches autónomos.

Complejidad extra

Para enfrentarse al póker de seis jugadores, Brown y Sundholm remozaron radicalmente el algoritmo de busca de Libratus. La mayoría de las IA jugadoras buscan hacia delante a través de árboles de decisiones el mejor movimiento que pueda hacerse en una situación dada. Libratus buscaba hasta el final de un juego antes de escoger una acción.

Pero la complejidad introducida por los jugadores adicionales vuelve impráctica esta forma de proceder. El póker requiere que se razone con información oculta: los jugadores deben elaborar una estrategia teniendo en cuenta qué cartas podrían tener sus oponentes y qué podrían suponer  los oponentes, basándose en las apuestas previas, de la mano que uno lleva. Pero con más jugadores escoger una acción en un momento dado cualquiera resulta más difícil, ya que entonces hay que evaluar un número mayor de posibilidades.

El avance clave fue el desarrollo de un método que le permitió a Pluribus hacer buenas elecciones tras mirar solo unos cuantos movimientos hacia delante en vez de tener que llegar hasta el final del juego.

Pluribus se enseña a sí mismo desde cero gracias a una forma de aprendizaje por refuerzo parecida a la usada por AlphaZero, IA de DeepMind. Empieza jugando al póker al azar y mejora a medida que va determinando qué acciones ganan más dinero. Tras cada mano, mira hacia atrás cómo jugó y comprueba si habría ganado más dinero con acciones diferentes, como subir la apuesta en vez de mantenerse en la ya hecha. Si las alternativas llevan a resultados mejores, más probable será que se las escoja en el futuro.

Jugando contra sí mismo manos de póker de múltiples jugadores durante 12.400 horas de unidad central de procesamiento (CPU) por medio de 64 procesadores, Pluribus creó un esquema de estrategia que emplea en las partidas. En cada momento en que toque decidir, compara el esquema con el estado de la partida y busca unos pocos movimientos hacia delante para ver a dónde conduciría la acción. Decide entonces si puede mejorarlo. Y como se enseña a sí misma a jugar sin intervención humana, esta IA acaba adoptando algunas estrategias que los jugadores humanos tienden a no usar.

 



Un parque de juegos para la IA

El éxito de Pluribus se debe en buena parte a su eficiencia. Durante la partida se ejecuta con solo dos CPU. Por el contrario, el primer bot de DeepMind que ganó a un campeón de Go usaba casi 2000 y Libratus empleó cien cuando batió a profesionales del póker de primera categoría. Al enfrentase contra sí mismo, Pluribus juega una mano en unos 20 segundos, más o menos el doble de deprisa que los profesionales humanos.

Los juegos han demostrado ser una gran forma de medir el progreso de la IA porque se puede puntuar a los bots según su actuación contra los seres humanos más cualificados, y calificarlos de sobrehumanos si los ganan. Pero Brown cree que las IA están desbordando su parque de juegos. «Este era el último reto que quedaba en el póker», dice.

Togelius cree, sin embargo, que todavía sí les queda camino que recorrer a los investigadores de la IA y a los juegos. «Hay mucho territorio sin explorar», dice. Pocas IA han dominado más de un solo juego; para ello hace falta una capacidad general más que una habilidad especializada. Y no se trata solo de jugar esos juegos, añade. «También está el diseñarlos. Un gran reto para la IA si es que alguna vez ha habido uno».


Fuente :investigacionyciencia



Entorno Virtual 2019