MuZero, l’intelligenza artificiale che fa a meno dei tutorial

Tempo di lettura: 4 minuti

I tutorial dei videogiochi sono spesso qualcosa di noioso ma rimangono pur sempre utili per non trovarsi spaesati nel corso del gioco perdendo solo tempo. Esiste un’intelligenza artificiale che non ha però bisogno di annoiarsi con questi preamboli. Si chiama MuZero e riesce a padroneggiare i giochi senza conoscere le regole di base.

DeepMind e i giochi

MuZero è stata sviluppata da DeepMind, società britannica controllata da Alphabet (a cui fa capo Google) specializzata nelle AI. L’azienda aveva già stupito il mondo nel 2016 quando il suo software AlphaGo era riuscito a battere sonoramente il campione mondiale del go, Lee Sedol. Un po’ come quando nel 1996 il cervello digitale di IBM Deep Blue dichiarò scacco matto a Kasparov, campione di scacchi dal 1985 al 2000.

Quattro anni dopo si è riusciti con successo a aggiungere un altro notevole livello di difficoltà in partenza, con la totale mancanza di istruzioni su come giocare. Per gli esperimenti è stato scelto un gruppo di giochi visivamente semplici ma complessi nelle strategie come il gioco cinese go, gli scacchi e lo shogi, alias il gioco dei generali. Inoltre, si è messo alla prova MuZero anche con videogiochi Atari che abbinano la strategia ad una grafica molto più complessa. Più tempo è stato concesso a MuZero per esaminare la migliore azione da porre in campo, meglio si è comportata l’intelligenza artificiale.

Muzero e i suoi predecessori a confronto con giochi e conoscenze
DeepMind – MuZero: Mastering Go, chess, shogi and Atari without rules

Il modo di agire di MuZero

Le azioni di MuZero sono molto più vicine a un concetto di consapevolezza e riflessione piuttosto che ad un tipico esercizio di grandi numeri effettuato in brevissimo tempo da altre AI. Il metodo di apprendimento automatico implementato esamina solamente le informazioni importanti al raggiungimento dell’obiettivo. L’esempio più semplice ed esplicativo è proposto dalla stessa DeepMind: se si chiedesse a MuZero di imparare a utilizzare un ombrello farebbe proprio il concetto che aprendolo ciò che si trova al di sotto della sua superficie rimane asciutto, registrando così una dinamica causa-effetto anziché impiegare tempo e risorse analizzando variabili che fanno parte del contesto senza però influire sul risultato, come l’intensità della pioggia.

MuZero costruisce la propria comprensione del gioco iniziando dal nulla e attraverso tentativi ed errori scopre le regole e le strategie più efficaci. L’AI si impegna a considerare ogni aspetto dell’ambiente di gioco assegnando valori specifici a azioni o posizioni e capendo ciò che è importante e ciò che è trascurabile. In questo modo, non si limita a imparare da sé le regole con l’esperienza, ma anche costruire un sistema sempre più efficiente di correzione degli errori.

MuZero sta costruendo un proprio modello che possiamo definire quasi cognitivo. Sta iniziando a capire come funziona il mondo, a immaginare le cose, e il modo in cui puoi effettivamente sfruttare le sue capacità di calcolo.

Illustrazione da gioco a sistema cognitivo
DeepMind – MuZero: Mastering Go, chess, shogi and Atari without rules

L’algoritmo di MuZero

I ricercatori hanno cercato di creare un algoritmo in grado di adattarsi a una situazione di cui non si conoscono tutte le leggi che la governano, e apprendendo nuove abilità attraverso un processo di tentativi ed errori, ricevendo “ricompense” per il successo piuttosto che sentirsi dire cosa fare. David Silver, principale ricercatore di DeepMind, sottolinea come MuZero cerchi di considerare quei fattori che sono importanti per prendere una decisione piuttosto che tentare di controllare tutto.

“Quando la maggior parte delle persone guarda fuori dalla finestra e vede delle nuvole scure all’orizzonte, generalmente pensare a cose come la condensazione o la formazione dei fronti atmosferici. Pensano a come restare asciutti se escono, a prendere un ombrello.”

David Silver, capo del gruppo di ricerca

Gli obiettivi

L’obiettivo ultimo non è quello di creare un’AI da impiegare in giochi da tavolo o videogiochi. I giochi, come ci insegnano scienza ed esperienza, non sono solo divertimento ma assumono un importante valore educativo. Anche in questo caso sono stati utilizzati per compiere un passo importante che consentirà in futuro di applicare varie migliorie a tutte le intelligenze artificiali.

L’obiettivo è quello di creare algoritmi che funzionino nel mondo reale, complicato, disordinato e sconosciuto. Le idee alla base degli algoritmi di apprendimento e di pianificazione di MuZero possono aprire la strada per affrontare nuove sfide nella robotica, nei sistemi industriali e in altri ambienti disordinati del mondo reale dove le “regole del gioco” non sono note.

“Il mondo reale è disordinato e complicato e nessuno ci fornisce un regolamento su come funzioni Eppure gli esseri umani sono in grado di formulare piani e strategie su cosa fare.

David Silver

Il predecessore di MuZero, AlphaZero, è già stato applicato ad una serie di problemi complessi in chimica, fisica quantistica e oltre. Le capacità di MuZero di apprendere un modello del suo ambientee di utilizzarlo per pianificare con successo, dimostrano un significativo progresso nel rafforzamento dell’apprendimento. I ricercatori stanno cercando modi per applicare MuZero ai problemi del mondo reale e ci sono alcuni risultati iniziali incoraggianti. I responsabili del progetto stanno sperimentando l’uso dell’AI per una compressione video più efficiente. L’idea sembrerebbe quella di far risparmiare dati a YouTube, la piattaforma web di video sharing di Google; per ora si parla di circa il 5% dei bit utilizzati per la compressione di un video.

Intelligenza artificiale alla prova con problemi reali
GoodAI Blog – Understanding the public perception of AI

Conclusioni

All’orizzonte ci sono numerose potenziali applicazioni per Muzero, a partire da quelle legate alla ricerca medica e scientifica. In prospettiva, spiega David Silver:

Penso ad un sistema che possa aiutarti come utente a raggiungere i tuoi obiettivi nel modo più efficace possibile. Un sistema davvero potente che guarda a lungo termine e potrebbe per esempio fornire una soluzione sanitaria personalizzata. Ci sono questioni di privacy ed etiche che devono essere affrontate, ma tutto ciò cambierà il volto della medicina e la qualità della vita delle persone.”

Le applicazioni pratiche delle ultime ricerche di DeepMind potrebbero essere rivoluzionarie. Tuttavia la strada da percorrere è ancora molta, ad esempio i tentativi precedenti hanno avuto difficoltà ad affrontare la complessità delle sfide “visivamente ricche”, come quelle poste da uno dei più popolari videogiochi degli anni Ottanta, il mitico Ms. Pac-Man

Barbera D. (2020). L’intelligenza artificiale che vince ai giochi senza sapere le regole. Wired

Schrittwieser J., Antonoglou I., Hubert T., Simonyan K., Sifre L., Schmitt S., Guez A., Lockhart E., Hassabis D., Graepel T., Lillicrap T., & Silver D. (2020). MuZero: Mastering Go, chess, shogi and Atari without rules. DeepMind

Nasi M. (2020). MuZero, intelligenza artificiale di DeepMind in grado di padroneggiare qualunque gioco senza conoscerne le regole. ilSoftware.it

Cavaglià A. (2020). “MuZero” di Google, l’Intelligenza Artificiale che impara come un umano. in20righe

Soprannominato da tutti “birillo” quando era bambino, a causa della sua vivacità nel fare le cose, ora si ritrova ad essere un esemplare di introverso cronico. Il suo essere affetto dalla sindrome della crocerossina si scontra con la parte cinica del suo carattere che lo convince spesso di non essere portato per fare nulla. Da piccolo, infatti, suonava il pianoforte, ma ha mollato perché è convinto di non essere capace. Riccardo è un grande sognatore, nerd e patito di Star Wars (ma dai?). Quando si fissa su qualcosa si salvi chi può: passerà giorno e notte a leggere articoli, senza fare altro.