banner

Blog

Jan 12, 2024

Il gioco d'azzardo incontra la fisica quantistica

Di Intelligent Computing23 agosto 2023

Gli scienziati hanno introdotto uno schema di apprendimento con rinforzo fotonico, passando dal problema statico dei banditi multi-armati a un ambiente dinamico, utilizzando l'interferenza quantistica dei fotoni per migliorare il processo decisionale. Hanno sviluppato un algoritmo di apprendimento Q bandito modificato, testato in un mondo a griglia 5×5, con l’obiettivo di apprendere con precisione il valore Q ottimale per ogni coppia stato-azione bilanciando al contempo esplorazione e sfruttamento.

Come fa un giocatore d'azzardo a massimizzare le vincite di una fila di slot machine? Questa domanda ha ispirato il “problema dei banditi multi-armati”, un compito comune nell’apprendimento per rinforzo in cui gli “agenti” fanno delle scelte per guadagnare ricompense. Recentemente, un team internazionale di ricercatori, guidato da Hiroaki Shinkawa dell’Università di Tokyo, ha introdotto un metodo avanzato di apprendimento con rinforzo fotonico che passa dal problema statico dei banditi a un ambiente dinamico più intricato. I loro risultati sono stati recentemente pubblicati sulla rivista Intelligent Computing.

Il successo del progetto si basa sia su un sistema fotonico per migliorare la qualità dell'apprendimento, sia su un algoritmo di supporto. Esaminando una “potenziale implementazione fotonica”, gli autori hanno sviluppato un algoritmo di apprendimento Q bandito modificato e ne hanno convalidato l’efficacia attraverso simulazioni numeriche. Hanno anche testato il loro algoritmo con un’architettura parallela, in cui più agenti operano contemporaneamente, e hanno scoperto che la chiave per accelerare il processo di apprendimento parallelo è evitare decisioni contrastanti sfruttando l’interferenza quantistica dei fotoni.

Sebbene l’uso dell’interferenza quantistica dei fotoni non sia una novità in questo campo, gli autori ritengono che questo studio sia “il primo a collegare la nozione di processo decisionale cooperativo fotonico con il Q-learning e ad applicarlo a un ambiente dinamico”. I problemi di apprendimento per rinforzo sono generalmente ambientati in un ambiente dinamico che cambia con le azioni degli agenti e sono quindi più complessi dell'ambiente statico in un problema di banditi.

L'agente sceglie una delle quattro azioni indicate dalle frecce nere, riceve una ricompensa e passa alla cella successiva. Se l'agente arriva in una delle due celle speciali A o B, la ricompensa è grande e l'agente salta in un'altra cella, come mostrato dalle frecce rosse. Credito: Hiroaki Shinkawa et al.

Questo studio prende di mira un mondo a griglia, una raccolta di celle che contengono ricompense variabili. Ogni agente può andare su, giù, a sinistra o a destra e ottenere una ricompensa in base al suo movimento e alla sua posizione attuale. In questo ambiente, la mossa successiva dell'agente è determinata interamente dalla sua mossa e posizione attuale.

Le simulazioni in questo studio utilizzano una griglia di celle 5 × 5; ogni cella è chiamata “stato”, ogni mossa effettuata da un agente in ogni fase temporale è chiamata “azione” e la regola che determina il modo in cui un agente seleziona una determinata azione in ciascuno stato è chiamata “politica”. Il processo decisionale è concepito come uno scenario problematico del bandito, in cui ciascuna coppia stato-azione è considerata come una slot machine e i cambiamenti nel valore Q – i valori delle coppie stato-azione – sono considerati come le ricompense.

A differenza degli algoritmi di Q-learning di base, che generalmente si concentrano sulla ricerca del percorso ottimale per massimizzare le ricompense, l’algoritmo di Q-learning bandito modificato mira ad apprendere il valore Q ottimale per ogni coppia stato-azione nell’intero ambiente, in modo efficiente e accurato. Pertanto, è essenziale per un agente mantenere un buon equilibrio tra lo “sfruttamento” delle coppie familiari con valori elevati per un apprendimento più rapido e l’“esplorazione” di coppie poco frequentate per valori potenzialmente più alti. Come politica viene utilizzato l’algoritmo softmax, un modello popolare che eccelle in questo tipo di bilanciamento.

La priorità futura degli autori è progettare un sistema fotonico che supporti un processo decisionale senza conflitti tra almeno tre agenti, sperando che la sua aggiunta allo schema proposto aiuti gli agenti a evitare di prendere decisioni contrastanti. Nel frattempo, stanno progettando di sviluppare algoritmi che consentano agli agenti di agire continuamente e di applicare il loro algoritmo di apprendimento Q bandito a compiti di apprendimento di rinforzo più complicati.

CONDIVIDERE