Especulaciones sobre el significado de las victorias de AlphaGo. Recientemente, el equipo de inteligencia artificial de Google (DeepMind) anunció en la revista Nature que su software AlphaGo había derrotado por primera vez a un jugador profesional de Go de gran nivel. Más aún: en los últimos días el mismo programa ha sido capaz de derrotar tres veces consecutivas al mejor jugador del mundo, el campeón mundial Lee Sedol, proclamándose, por tanto, ganador en un duelo a cinco partidas. Debido a la complejidad del juego, el Go se había venido considerando como una importante frontera para la inteligencia artificial. De hecho, estas victorias han sido saludadas como un salto cualitativo para el campo. ¿Es así? En 1989, el gran físico matemático Roger Penrose escribió su célebre libro Emperor's new mind (La mente nueva del emperador), una apasionada defensa de la idea de que la inteligencia humana es cualitativamente distinta a la de un ordenador. Es imposible no simpatizar con él cuando dice: "¿No es "obvio" que la simple computación no puede provocar placer o dolor; que no puede percibir la poesía, o la belleza del cielo al atardecer, o la magia de los sonidos; que no puede tener esperanza o amar o desesperar; que no puede tener un objetivo genuino autónomo?" (Roger Penrose, en "La mente nueva del emperador". Traducido por Jose Javier García Sanz). Sin embargo, que Sir Roger nos caiga simpático no quiere decir que tenga necesariamente razón: sus nobles intentos de demostrar su tesis apoyándose en las matemáticas y la física tienen un punto quijotesco y terminan ofreciendo un libro en ocasiones irregular y especulativo, aunque siempre interesante. Leído hoy, nos damos cuenta de algunos lastres: no sólo es que el libro fuera escrito en 1989, ocho años antes de la célebre victoria de Deep Blue sobre Gary Kasparov, sino que también el conocimiento sobre el cerebro humano ha avanzado mucho desde entonces. A pesar de todo, la idea central de Penrose sigue en pie: la "inteligencia" del ordenador es de naturaleza algorítmica, mientras que la inteligencia humana tal vez (para Penrose, sin duda es) de naturaleza no algorítmica.
¿Hay algún elemento no algorítimico en AlphaGo? La respuesta a esta pregunta es no, a pesar de que se hable de que la computadora "aprende" e incluso "aprende por refuerzo" ("reinforcement learning"). Sin embargo, cuando analizamos el funcionamiento real de AlphaGo, nos preguntamos si la terminología es la más adecuada: sencillamente, el algoritmo clasifica sus propios movimientos en partidas previas como estrategias ganadoras o perdedoras (según cuál haya sido el resultado) y hace que sea muy improbable que vuelva a usar las perdedoras. El algoritmo no cambia (aunque se vista de seda), pero los resultados que produce mejoran. El argumento de Penrose arranca en los teoremas de incompletitud de Gödel y en el problema de la parada de Turing para justificar que los sistemas físicos pueden tener propiedades no reducibles al comportamiento de un algoritmo, por complejo que éste sea. Dicho rápidamente: Penrose argumenta que hay cosas que un ordenador nunca podrá reproducir (ya que sus algoritmos nunca lo podrán calcular) pero que podrían ser importantes propiedades de sistemas físicos reales (por ejemplo, el cerebro humano). Recientemente, se ha publicado en la revista Nature un artículo en el que los matemáticos Toby Cubitt (UCL-Cambridge), David Pérez García (Universidad Complutense de Madrid) y Michael Wolf (Universidad Técnica de Múnich) demuestran que hay un importante problema de la física que pertenece a la categoría de aquellos que no pueden ser resueltos por un algoritmo: la pregunta de si hay una diferencia de energía ("gap") entre los dos niveles de energía más baja de un sistema físico, o si, en lugar de eso, esos niveles de energía forman parte de una banda continua. Esta pregunta tiene importantes consecuencias en las propiedades de algunos sistemas físicos. Los resultados muestran que hay casos en que la pregunta no se puede resolver. ¡Ni lo intentes, AlphaGo! Imagino a Sir Roger sonriendo. (Publicado originalmente en SciLogs el 16/03/2016).
0 Comments
O cómo aprendí a dejar de preocuparme y ganar a Alpha Go.Ya se habrán dado cuenta de que la inteligencia artificial vuelve a estar de moda, junto con las hombreras, los cortes de pelo de general nazi y los tatuajes de futbolista. Sin ir más lejos, en la portada del último número de Investigación y Ciencia se nos habla de "robots que aprenden como niños". Es ya casi un cliché explicar los espectaculares avances en, por ejemplo, el juego del go, diciéndonos que, al contrario de los antiguos enfoques basados en, digamos, la pura fuerza bruta computacional, ahora las máquinas no sólo "aprenden", sino que lo hacen "de una manera intuitiva, más parecida a como aprenden los humanos", o cosas parecidas. Son frases muy vistosas, pero ¿se sostienen cuando hacemos un análisis más profundo? Veamos, por ejemplo, el artículo de Nature en el que los científicos de la división de inteligencia artificial de Google nos informaron en octubre pasado de sus sorprendentes resultados. Aquí ya nos hicimos eco de un muy notable acontecimiento en el que una máquina de Google había ganado a uno de los mejores jugadores del mundo, el coreano Lee Sedol. El resultado de octubre de 2017 es que una nueva máquina de Google (es decir, programada de forma distinta) habría alcanzado un nivel de juego tal, que habría arrasado por 100 partidas a 0 a la máquina que ganó a Sedol. Según los autores, la gran novedad de este nuevo algoritmo es que se basa sólo en "aprendizaje por refuerzo", mientras que el anterior combinaba "aprendizaje supervisado" con aprendizaje por refuerzo. Es decir, en lugar de empezar a "aprender" usando partidas de Go de expertos humanos, el algoritmo está diseñado para aprender jugando exclusivamente partidas contra sí mismo. Esto es lo que permite introducir el muy vistoso "without human knowledge" ("sin conocimiento humano") en el título del artículo, como si no hubiera hecho falta un muy extenso y específico conocimiento humano de sus 17 autores, entre otros muchos. Ahora bien, ¿cómo funciona esta última versión de Alpha Go, llamada Alpha Go Zero? En pocas palabras, en cada posición del juego, Alpha Go lanza un algoritmo que elige el siguiente movimiento tras realizar una exploración de las probabilidades de éxito que tienen una serie de posibles movimientos. En esta exploración ("árbol de búsqueda") se usa el método de Montecarlo, que es bien conocido en Física Estadística y muy usado en muchas otras áreas. Básicamente, consiste en que los cambios de configuración en la simulación por ordenador de un sistema con muchos nodos se aceptan o se rechazan con una probabilidad que depende de un determinado objetivo: un ejemplo típico es que esos cambios se acepten con una probabilidad mayor si contribuyen a reducir la energía del sistema, de manera que tras muchas iteraciones, el sistema simulado acaba en la configuración de energía más baja. En el caso que nos ocupa, los cambios se aceptan según la probabilidad que tengan de conducir a una victoria al final de la partida. Para poder asignar esa probabilidad a cada movimiento, tiene que haber una fase de entrenamiento en la que se adquiere ese conjunto de datos. Las versiones anteriores de la máquina empezaban con ejemplos de partidas jugadas por expertos. Alpha Go Zero ha demostrado que esa parte era irrelevante y que puede ser sustituida con éxito por partidas jugadas contra sí mismo. ¿Cuántas partidas? Pues bien: 4,9 millones de partidas a lo largo de tres días (una segunda versión aún más fuerte jugó 30 millones de partidas). En cada movimiento, se usó un árbol de búsqueda de Montecarlo con 1600 movimientos simulados. Ahora bien, ¿a ustedes esto les suena a una manera intuitiva de aprender, más parecida a la de los humanos? ¿O más bien les suena a fuerza bruta computacional? A mí también. Parece imposible que un simple mortal como nosotros pueda competir con algo capaz de jugar varios millones de veces contra sí mismo, explorando miles de posibles movimientos en cada posición. Google ha hackeado el Go. Sin embargo, puede que haya una escapatoria. Aquí el profesor López de Mantarás, director del Instituto de Investigación en Inteligencia Artificial del CSIC, nos habla del "olvido catastrófico", propiedad según la cual, si intentamos entrenar a un sistema de inteligencia artificial para "aprender" a realizar una tarea distinta de aquella para la que fue diseñado, inmediatamente "olvidará" lo "aprendido" antes. (De nuevo, exactamente igual que los humanos, que cuando aprendemos a montar en bicicleta nos olvidamos de nadar, y viceversa, como todo el mundo sabe). Así que, para ganar a Alpha Go en realidad no hay más que aplicar el método de Marty McFly, quien cada vez que se encontraba en un auténtico aprieto le decía a su oponente (normalmente Biff Tannen): "hey, what the hell is that?". Por supuesto, como Alpha Go es tan parecido a un humano, sin duda querrá saber a qué demonios te refieres. Probablemente, en unas pocas horas y tras hacerse unos cuantos miles de preguntas a sí mismo, sea capaz de llegar a la conclusión de que ahí no hay nada. Incluso si, como el TARS de "Interstellar" tiene bien regulado el sentido del humor, comprenderá que es una broma humana. Entonces intentará continuar con la partida pero... Game over, a no ser que un rayo le vuelva más humano, como al legendario Johnny 5 de "Cortocircuito". (Publicado originalmente en SciLogs el 10/05/18).
|
AutorCarlos Sabín. Investigador Ramón y Cajal en el Departamento de Física Teórica de la Universidad Autónoma de Madrid. Desde 2015 hasta 2022 escribí el blog "Cuantos Completos" en la plataforma SciLogs de la revista "Investigación y Ciencia". Autor de "Verdades y mentiras de la física cuántica" amzn.to/3b4z1MO y "Física cuántica y relativista: más allá de nuestros sentidos" http://shorturl.at/bdLN0 Archivos
February 2024
Categorías
All
|