domingo, febrero 05, 2017

Una máquina les ganó al poker a los cuatro mejores jugadores del mundo La computadora que sabe engañar

La inteligencia artificial dio un gran salto esta semana cuando Libratus, una supercomputadora que puede aprender de sus errores, no sólo descubrió cuándo los humanos querían engañarla, sino que logró confundirlos a ellos. La competencia tuvo lugar en Pittsburgh, Estados Unidos.


Jason Les, uno de los cuatro jugadores de poker que perdieron por escándalo contra Libratus.

Por Adrián Paenza


El duelo fue anunciado con mucha anticipación. Eso sí: tenía el atractivo de toda revancha o desquite. La primera vez se habían enfrentado en julio de 2015, en el mismo lugar: el Rivers Casino de Pittsburgh. ¿Pittsburgh? ¿Por qué habrían de medirse en una ciudad con tanto frío (en esta época del año en el hemisferio norte)? Si bien Pittsburgh es, detrás de Filadelfia, la segunda ciudad en importancia de Pennsylvania, tiene que haber alguna razón de mucho peso para que se desarrolle en un lugar así. Lo curioso es que como en aquella oportunidad, no hubo promoción, no hubo difusión, no se vendieron entradas anticipadas ni tampoco hubo que discutir los derechos de televisión. No hubo gente haciendo cola y las redes sociales ignoraron el evento por completo. ¿Entonces?

Creo que está claro a esta altura, que cualquier acontecimiento que no se vea por TV o que no tenga repercusión en las redes sociales... es porque ¡no existe! Podría decir con poco margen de error, que es porque ¡no le interesa a nadie! Sin embargo... no se apure, no vaya tan rápido. Espéreme un poquito y después de leer lo que sigue, volvemos juntos para atrás y re-pensamos la respuesta.

En principio, el cartel que figuraba en la marquesina decía lo siguiente:

Brain vs. Artificial Intelligence: Upping the Ante

Jan 11-20, 2017

Rivers Casino, Pittsburgh, PA

Es decir, el Cerebro enfrentando a la Inteligencia Artificial, pero con un agregado: “Subiendo la Apuesta”. Me imagino un diálogo entre usted y yo:

–¿Adrián, otra vez con lo mismo?

–Sí... otra vez con lo mismo

–¿Y ahora? ¿Qué pasa ahora? O mejor dicho, ¿qué pasó ahora?

–Téngame un poquito de paciencia... y le cuento.

–¿Otra vez ‘la máquina’ compitiendo con los humanos en algún juego?

–Y... sí... de nuevo

–Pero, ¿no era que ya se sabía cómo ganar siempre a las damas, al ajedrez, al GO? ¿Qué juego queda?

Acompáñeme por acá. Quiero resumirle una historia.
En 1997, Deep Blue, un programa diseñado por IBM le gana –finalmente– al mejor jugador de ajedrez y campeón del mundo en ese momento: Garry Kasparov.
En 2007, Jonathan Schaeffer1, profesor de la Universidad de Edmonton, en Alberta, Canadá, diseña su programa Chinook y publica su trabajo seminal: “El fin de las damas”.
En 2011, Watson, otro programa, también diseñado por IBM les gana a Ken Jennings y Brad Ruttner, los dos campeones del mundo de Jeopardy (un juego al que nosotros no jugamos en nuestro país pero si le interesa, le sugiero que lo ‘googlee’). Y finalmente,
En 2015, Google en su laboratorio Deep Mind, diseña su programa Alpha-Go2 que le gana al campeón del mundo en ese momento (y actual) Lee Sidol.

A partir de esos momentos particulares, los humanos, a través de nuestros representantes podemos decir que dominamos cualquiera de esos juegos. Sabemos ahora qué estrategias elaborar para ganar siempre o si usted prefiere (y sería más correcto), no perder nunca.

Pero ahora apareció algo distinto. Tuomas Sandholm y Noam Brown son profesor y alumno de doctorado en el Departamento de Computación de la Universidad de Carnegie Mellon, en Pennsylvania, Estados Unidos. Ellos diseñaron un programa (que llamaron Libratus), para que juegue al poker. Para ser más precisos, es una variante del poker3. No hace falta saber nada sobre él y de hecho, si usted no saber jugar, sepa que yo tampoco. Pero este artículo no es para ilustrar sobre el juego, sino para exhibir algo extraordinario que acaba de suceder.

En todos los juegos de los que hablé antes (damas, ajedrez, GO), los rivales tienen toda la información a la vista. Como se juegan sobre un tablero, los dos jugadores ven las piezas del rival y saben en qué lugar están ubicadas. No hay nada escondido. Pero acá es donde se produjo un salto fundamental. Cuando uno juega a las cartas, no importa que sea al poker o el juego que usted elija, hay información del rival que uno no tiene, hay cartas que uno no ve. Y lo mismo sucede al revés. Al no saber, eso se presta para que hagamos lo que se llama un ‘bluff’, es decir, que yo quiera que usted ‘crea’ que yo tengo ciertas cartas que en realidad no tengo, y por supuesto, al revés también. Si quiere ignorar al poker, pase al truco: yo podría gritarle envido o truco y usted no sabe si yo tengo buenas cartas o no. Eso forma parte del juego, claramente. Lo mismo con el poker. Es por eso que ahora, la computadora, o mejor dicho Libratus, tiene que intuir por qué usted hace lo que hace, y tratar de decidir si usted está tratando de engañarla (o no).

Estos juegos se llaman de información incompleta o imperfecta. “Esa” es la gran diferencia. No están todas las cartas (o fichas) arriba de la mesa. Ni la computadora ni usted ven todas las armas que tiene el rival. Elaborar estrategias en esas condiciones es claramente mucho más difícil que jugar cuando todo el arsenal está expuesto y usted puede no sólo contar cuántos ‘soldaditos’ tiene el rival, sino que además, puede visualizar dónde están ubicados.

La gran novedad es que esta semana los humanos perdimos contra la computadora, perdimos contra el programa de Sandholm y Brown, perdimos contra Libratus. ¿Quiénes perdieron? ¿Cómo perdieron?

Ya verá, téngame un poco más de paciencia. Libratus no solo descubrió cuándo los humanos la quisieron engañar, sino que utilizó la potencia de su estrategia ... ¡para engañar a los humanos también, para confundirlos! En el camino, derrotó por una abrumadora diferencia a los cuatro mejores jugadores de poker del mundo. ¿No le parece que merece prestarle un poco de atención al episodio?

En agosto de 2015, en el primer desafío entre “El Cerebro” y la “Inteligencia artificial”, los cuatro jugadores que participaron le ganaron al programa Claudico4 que habían diseñado también Sandholm y Brown (profesor y alumno de doctorado). El encuentro se hizo en Pittsburgh, en el mismo casino. Para Brown, el resultado fue técnicamente un empate, pero para los jugadores que intervinieron, ellos sintieron que “habían ganado”. Ahora ya no importa, es historia pasada.

Durante 20 días, desde el 11 hasta el 30 de enero de este año, esos cuatro jugadores (Jason Les, Jimmy Chou, Daniel McAuley y Dong Kim), se enfrentaron contra el nuevo programa de Sandholm y Brown: Libratus. Pero no lo hicieron de cualquier manera, sino con esta estructura.

Jugaron diez horas por día. Se pasaron todo ese tiempo mirando las pantallas gigantes de múltiples televisores. No jugaron por dinero real, pero lo que sí hicieron es contabilizar el dinero que iría ganando cada uno (cada humano) si estuviera jugando en una mesa de poker real.

Al finalizar la competencia, los humanos se habrían de repartir 200.000 dólares entre ellos, en forma proporcional a los resultados que fueron obteniendo en sus partidas contra Libratus. En total, jugaron 120.000 manos... sí, leyó bien: ¡120.000!

Ahora, présteme atención a un dato extraordinario, ya que quizás usted está pensando en un detalle no menor: ¿cómo interviene la suerte? Es decir, cuando se juega al ajedrez o a las damas o al GO, las piezas empiezan siempre en la misma posición. Al jugar a las cartas, eso no es cierto. ¿Qué pasa si usted (o yo) recibimos mejores cartas? ¿Cómo interviene este particular factor?

Para resolver esa dificultad, hicieron lo siguiente: separaron a los cuatro humanos en dos equipos de dos personas cada una. Un par fue a una habitación a jugar contra Libratus en donde no tendrían contacto con el exterior, y no podrían usar sus teléfonos... nada.

El otro equipo de dos humanos jugó contra Libratus en otra habitación, que estuvo abierta para que pudieran seguir los partidos todas las personas interesadas. Pero lo notable es que decidieron darle LAS MISMAS CARTAS a ambos equipos, pero cambiadas. Es decir: las cartas con las que los humanos jugaban adentro de la habitación privada correspondían a las cartas que Libratus tenía para jugar en la habitación abierta al público, y al revés: las cartas que tenía Libratus en la habitación privada eran las de los humanos en la habitación pública. De esa forma, humanos y computadora tenían ¡las mismas posibilidades!

Por supuesto, lo notable es que, aun así, al finalizar los veinte días, la computadora ganó por escándalo. De hecho, haciendo las cuentas finales, Libratus ganó 15 de los 20 días que jugaron.

Al terminar cada jornada, después de diez horas de competencia, los cuatro jugadores se juntaban en el hotel e intercambiaban las notas sobre qué había hecho Libratus en cada una de las manos que cada uno de ellos había jugado. Después, una obviedad: cenaban y se iban a dormir.

Por supuesto, la máquina no necesitaba dormir nada y de hecho, mientras ellos comían, conversaban y descansaban, Libratus seguía jugando contra sí misma y tratando de resolver los problemas que esos mismos humanos le habían planteado durante el día, ya que como jugadores excepcionales que son elaboraban estrategias para enfrentarla que los programadores no habían contemplado.

Y acá apareció una diferencia más: en todos los casos anteriores, cuando se abordaron los otros juegos (ajedrez, damas, GO), los programadores intentaban explotar las debilidades de los humanos, si es que las descubrían. En este caso, la estrategia fue al revés. Libratus aprovechaba lo que aprendía de lo que ¡los humanos le enseñaban durante las diez horas del día! Es decir, cuando Les, Chou, McAuley y Kim encontraban alguna flaqueza, y comenzaban a explotarla, a la noche, la computadora resolvía esos agujeros o errores. De hecho, Sandholm dijo que elegían los tres problemas más serios que habían descubierto los humanos y un meta-algoritmo intentaba resolverlos durante la noche. El cambio era evidente: en lugar de detectar y luego explotar las debilidades de los rivales (los humanos), Libratus aprendía durante el día cuáles eran las debilidades propias y las corregía durante la noche.

Pero hay más, y esta también es una diferencia extraordinaria. En agosto de 2015, cuando AlphaGo le ganó al campeón del mundo Lee Sidol y finalmente el hombre aprendió cómo dominar el juego (el GO), la máquina jugaba contra sí misma pero en su base de datos, los humanos que lo programaron, la alimentaron con ¡todas las partidas de Go que se habían jugado en la historia hasta ese momento!

En cambio, con Libratus es diferente. A Libratus no le mostraron ninguna partida de poker que se hubiera jugado antes. ¡Ninguna! A Libratus le dijeron cuáles eran las reglas del juego y empezó a jugar ¡solo! (o sola, como prefiera) desde el principio. Aprendió por su cuenta. Por supuesto, cometió todos los errores de un principiante, pero... aprendió. Y resulta que ahora juega mejor que cualquiera de los cuatro mejores representantes que tenemos los humanos, sencillamente porque puede elaborar mejores estrategias que las que nosotros podemos producir en el mismo tiempo.

En el camino, hizo algo imposible para nosotros: jugó billones de partidos (billón es un uno seguido de doce ceros) sin que nunca hubiera visto cómo se jugaba una partida “en serio” en donde Libratus no hubiera participado, y se fue refinando hasta descubrir qué es lo que más le convendría hacer para ganar más dinero: si apostar o retirarse.

Cuando terminó la competencia, Jason Les dijo: “Ha sido una experiencia muy frustrante porque daba la sensación de que Libratus ...¡nos veía las cartas! No se puede jugar tan bien con tanta consistencia. Nosotros no estamos acostumbrados a perder, pero experimentamos situaciones que nunca habíamos vivido. La computadora juega de una manera imprevisible para nosotros. Sus estrategias nos confundían. Cada vez que alguno de nosotros creyó que había detectado alguna debilidad, inexorablemente resultó ser un espejismo. Al día siguiente, nos pulverizaba si intentábamos ir por ese camino”.

Las partidas se hicieron en Pittsburgh, con frío o sin él, porque tanto Sandholm como Brown trabajan en Carnegie Mellon, y la supercomputadora que usaron está a 15 minutos del casino en donde se realizó la competencia.

Justamente, el director del departamento de computación de la universidad, Frank Pfenning, elaboró un comunicado que publicó oficialmente la institución. Allí se pretende resaltar la importancia del hecho conseguido y por qué sí importa, o nos debiera importar lo que hizo Libratus.

No mencionó lo que significa esto para la propia industria del juego, pero sí lo que representará en términos de elaboración de estrategias militares o de prevención de ciber-ataques, y también sobre los diseños de nuevos tratamientos en medicina. “La computadora no puede ganar al poker si no puede hacer ‘bluff’. Imagine que en algún momento su teléfono inteligente podrá negociar el precio de su nuevo auto mejor que usted. Esto es solo el principio”.

Sí, es nada más que el principio y vale la pena estar informado de lo que está sucediendo en el mundo. La ciencia no tiene moral. Solo para poner un ejemplo: la energía atómica se puede utilizar para reemplazar los recursos naturales que utilizamos hoy y que se agotarán inexorablemente o se puede usar para construir la bomba atómica. Pero el progreso de la ciencia y la tecnología es inexorable también. Por ahora, ningún teléfono inteligente tiene la potencia que tiene la supercomputadora de Carnegie Mellon, pero cuando Manuel Sadosky trajo Clementina a Exactas, UBA, para tener la potencia que hoy tenemos en un reloj que usamos en la muñeca, hubo que ocupar una habitación entera y múltiples horas de picar tarjetas físicas para poder programar. Hoy, el recuerdo de Clementina solo despierta una sonrisa tierna. Es sólo cuestión de tener paciencia para que el teléfono celular ya no se llame más teléfono inteligente pero sí tenga la potencia de la supercomputadora de Carnegie Mellon. Pero claro, en ese momento, las supercomputadoras... (siga usted con la idea...).

Por eso, sí, esto es nada más que el principio... pero, ¿el principio de qué?

Referencias

1 https://www.pagina12.com.ar/diario/contratapa/13-164965-2011-03-27.html

2 https://www.pagina12.com.ar/diario/sociedad/3-303267-2016-07-03.html

3 Una variante que se conoce con el nombre de “Heads Up No Limit Texas Hold Them” (que sinceramente no puedo ni sé traducir, pero aceptemos que es una variante del poker tradicional) y es el que más se juega hoy en el mundo. En todo caso, las reglas del poker, para saber quién gana en cada “mano”, son siempre las mismas. Eso no cambia.

4 Estoy casi seguro de que no deben saber lo que significa la palabra “claudico” en español, ¿no le parece? Me parece muy difícil que hubieran elegido ese nombre sin saber... pero esto es solo una conjetura mía.

No hay comentarios.: