Il GRPO e l’apprendimento per rinforzo
Nello sviluppo di DeepSeek R1, un modello linguistico di grandi dimensioni (LLM) che compete con OpenAI o1 nelle capacità di ragionamento, la chiave è rappresentata dall’utilizzo di Group Relative Policy Optimization (GRPO), un algoritmo di apprendimento per rinforzo (reinforcement learning), che migliora il ragionamento eliminando la necessità di una funzione di valore.
Lo spiega bene sul suo blog Philipp Schmidt, Technical Lead presso Hugging Face, in un approfondimento tecnico sul caso mondiale di DeepSeek e il terremoto tecnologico che sta causando.
Si parte dal training di R1, che avviene in più passaggi, iniziando con un fine-tuning supervisionato (SFT) per migliorare la leggibilità, seguito da fasi di apprendimento per rinforzo (RL) focalizzate sul ragionamento, utilizzando modelli di ricompensa basati su regole e outcome.
Sorprendentemente, R1 non impiega tecniche avanzate come MCTS (Monte Carlo Tree Search, un algoritmo di ricerca euristico utilizzato per i processi decisionali) o PRM, e il fine-tuning preliminare si rivela cruciale per la stabilità e l’efficienza dell’addestramento. Il risultato è un modello che raggiunge prestazioni elevate in compiti complessi di ragionamento.
Il GRPO migliora l’addestramento dei modelli linguistici di grandi dimensioni attraverso un approccio di apprendimento per rinforzo che ottimizza le capacità di ragionamento.
A differenza del Proximal Policy Optimization (PPO), il GRPO non si basa su un modello di funzione di valore separato, semplificando così l’addestramento e riducendo il consumo di memoria.
I vantaggi del GRPO
Il GRPO utilizza la ricompensa media di un gruppo di output come baseline. Questo approccio è più in linea con la natura dell’addestramento del modello di ricompensa, che spesso esamina più output per un singolo input. Di fatto, ottimizza meglio di altri le prestazioni.
In particolare, dopo aver generato più output per ogni prompt utilizzando la politica attuale, ogni generazione viene valutata usando una funzione di ricompensa, che potrebbe essere basata su regole o risultati.
La ricompensa media degli output generati viene usata come baseline, e il vantaggio di ciascuna soluzione all’interno del gruppo viene calcolato in relazione a questa baseline. La ricompensa viene quindi normalizzata all’interno di un gruppo.
Il GRPO incorpora direttamente il termine di divergenza KL (una misura di quanto una nuova risposta si discosti da quella precedente) nella funzione di perdita, mentre il PPO spesso lo usa come parte del segnale di ricompensa.
Il modello è in grado di risolvere problemi complessi con un maggiore tempo di riflessione per token generato, mostrando un ragionamento più approfondito.
Con il PPO si utilizza un modello separato chiamato funzione di valore per stimare quanto è “buona” o “cattiva” una scelta in un determinato momento. Questo modello è necessario per calcolare i vantaggi delle azioni.
Con il GRPO non si usa un modello di valore. Questo modello confronta le risposte all’interno di un gruppo per calcolare il vantaggio relativo, basandosi sui punteggi medi delle risposte. GRPO risulta per questo più semplice, veloce e meno costoso in termini di memoria e calcolo.
Applicazione in DeepSeek R1
DeepSeek ha utilizzato il GRPO per migliorare le capacità di ragionamento del loro modello R1. Inizialmente, hanno applicato il GRPO a completamenti di testo di ragionamento non supervisionato con modelli di ricompensa basati su regole, focalizzandosi su aspetti come formato, matematica e codice.
Ciò ha portato a un notevole incremento del punteggio su AIME 2024, dimostrando che il modello impara naturalmente a risolvere compiti con più tempo di ragionamento.
Per superare le difficoltà iniziali dell’addestramento per rinforzo, il team ha adottato un approccio multistadio. Hanno iniziato con un fine-tuning supervisionato (SFT) per migliorare la leggibilità e la coerenza del modello, per poi passare all’addestramento con GRPO. Nello stadio finale, il GRPO è stato utilizzato di nuovo per migliorare l’utilità e l’innocuità del modello.
In sintesi, il GRPO, tramite la sua peculiarità nell’usare un vantaggio basato su gruppo e l’ottimizzazione della divergenza KL, insieme a un approccio multistadio che include fine-tuning supervisionato e apprendimento per rinforzo, aiuta a migliorare significativamente le prestazioni dei modelli linguistici di grandi dimensioni, in particolare per le attività di ragionamento
Il GRPO ha migliorato le prestazioni di DeepSeek R1 sui compiti di ragionamento attraverso diversi meccanismi e fasi di addestramento. Ecco i punti chiave: ottimizzazione tramite GRPO, addestramento iniziale con ricompense basate su regole, addestramento Multistadio, fine-tuning supervisionato (SFT). apprendimento per rinforzo (RL) per il ragionamento e per l’utilità.
Differenze chiave rispetto al PPO
Il GRPO differisce dal PPO in quanto non utilizza una funzione di valore separata, utilizza la ricompensa media di un gruppo di output come baseline e incorpora direttamente il termine di divergenza KL nella funzione di perdita.
In sintesi, il GRPO, attraverso la sua particolare metodologia che include l’uso di baseline di gruppo, l’ottimizzazione della divergenza KL e un approccio di addestramento in più fasi, ha permesso a DeepSeek R1 di ottenere notevoli miglioramenti nelle sue prestazioni di ragionamento.
Le ricompense semplici basate su accuratezza e formattazione si sono dimostrate più efficaci di ricompense complesse
Il focus su ricompense basate su regole semplici (accuratezza e format) ha portato a risultati migliori rispetto a ricompense complesse, dimostrando un approccio più mirato e meno dispendioso.
Alla fine, la combinazione di GRPO e strategie innovative ha consentito di competere con i leader del settore, mantenendo bassi i costi.