La startup cinese DeepSeek ha annunciato il rilascio di DeepSeek Coder V2, un modello di codifica open-source che supera i modelli chiusi all’avanguardia, incluso GPT-4 Turbo. Questo modello, basato su DeepSeek-V2, è specializzato sia in compiti di codifica che matematici e supporta oltre 300 linguaggi di programmazione.
È stato testato su benchmark come MBPP+, HumanEval e Aider, dove ha ottenuto punteggi superiori rispetto a molti modelli chiusi e open-source. DeepSeek Coder V2 è disponibile con opzioni di 16 miliardi e 236 miliardi di parametri e utilizza un dataset addizionale di 6 trilioni di token, principalmente codici e dati matematici. Il modello attiva solo i parametri necessari per ottimizzare i compiti specifici, dimostrando anche buone capacità di ragionamento generale e comprensione del linguaggio.
DeepSeek Coder V2 è distribuito sotto licenza MIT, permettendo l’uso commerciale illimitato e la ricerca. Gli utenti possono scaricare il modello da Hugging Face o accedere tramite API con un modello a consumo.
La disponibilità di DeepSeek Coder V2 rappresenta un significativo passo avanti per i modelli di codifica open-source, chiudendo il divario con i modelli chiusi all’avanguardia e offrendo nuove opportunità sia per sviluppatori che per aziende nel campo dell’AI.
DeepSeek-Coder-V2: First Open Source Model Beats GPT4-Turbo in Coding and Math
— DeepSeek (@deepseek_ai) June 17, 2024
> Excels in coding and math, beating GPT4-Turbo, Claude3-Opus, Gemini-1.5Pro, Codestral.
> Supports 338 programming languages and 128K context length.
> Fully open-sourced with two sizes: 230B (also… pic.twitter.com/6wocYVPPrj
Ottime prestazioni nel linguaggio generale e nel ragionamento
Oltre a eccellere nei compiti di codifica e matematica, DeepSeek Coder V2 offre anche buone performance nei compiti di ragionamento generale e comprensione del linguaggio.
Ad esempio, nel benchmark MMLU progettato per valutare la comprensione del linguaggio su più compiti, ha ottenuto un punteggio di 79,2. Questo è molto migliore rispetto agli altri modelli specifici per il codice e quasi simile al punteggio di Llama-3 70B. GPT-4o e Claude 3 Opus, d’altra parte, continuano a guidare la categoria MMLU con punteggi di 88,7 e 88,6, rispettivamente. Nel frattempo, GPT-4 Turbo li segue da vicino.
Lo sviluppo mostra che i modelli specifici per il codice open stanno finalmente eccellendo in tutto lo spettro (non solo nei loro casi d’uso principali) e si stanno avvicinando ai modelli proprietari all’avanguardia.
Al momento, DeepSeek Coder V2 viene offerto con una licenza MIT, che consente sia la ricerca che l’uso commerciale senza restrizioni. Gli utenti possono scaricare le dimensioni da 16B e 236B negli avatar di “instruct” e “base” tramite Hugging Face. In alternativa, l’azienda fornisce anche accesso ai modelli tramite API attraverso la propria piattaforma, utilizzando un modello di pagamento in base all’utilizzo.