Kimi K2.7 Code

Un modello agentic open-source orientato al coding, progettato per attività di ingegneria software di lungo periodo

8 min di lettura2026-06-18

Che cos’è Kimi K2.7 Code?

Kimi K2.7 Code è un modello agentic open-source orientato al coding, sviluppato da Moonshot AI. Offre prestazioni superiori nel coding e come agent, con miglioramenti sostanziali nelle attività di coding reali di lungo periodo. Questi progressi si traducono in tassi di successo end-to-end più elevati nei workflow complessi di ingegneria software. K2.7 Code migliora inoltre l’efficienza del ragionamento, riducendo l’uso dei thinking-token di circa il 30% rispetto a K2.6.

Prestazioni nei benchmark

Kimi K2.7 Code è stato valutato rispetto a K2.6 su una combinazione di benchmark interni ed esterni che coprono due dimensioni: capacità di coding ed esecuzione di attività agentic.

Confronto dei benchmark tra Kimi K2.7 Code, Kimi K2.6, GPT-5.5 e Claude Opus 4.8 su sei benchmark di coding e agentic

Nei benchmark di coding, K2.7 Code mostra progressi sostanziali rispetto a K2.6: +21,8% su Kimi Code Bench v2 (62,0 vs 50,9), +11,0% su Program Bench (53,6 vs 48,3) e +31,5% su MLS Bench Lite (35,1 vs 26,7).

Una capacità di coding più solida si traduce anche in prestazioni agentic più forti. Su Kimi Claw 24/7 Bench, MCP Atlas e MCP Mark Verified — benchmark che misurano l’esecuzione autonoma di attività da parte di agent — K2.7 Code migliora di circa il 10% rispetto a K2.6.

Coding:

Benchmark	Kimi K2.6	Kimi K2.7 Code	GPT-5.5	Claude Opus 4.8
Kimi Code Bench v2	50.9	62.0	69.0	67.4
Program Bench	48.3	53.6	69.1	63.8
MLS Bench Lite	26.7	35.1	35.5	42.8

Agentic:

Benchmark	Kimi K2.6	Kimi K2.7 Code	GPT-5.5	Claude Opus 4.8
Kimi Claw 24/7 Bench	42.9	46.9	52.8	50.4
MCP Atlas	69.4	76.0	79.4	81.3
MCP Mark Verified	72.8	81.1	92.9	76.4

Kimi Code Bench v2 è un benchmark interno sviluppato da Moonshot AI, mentre Kimi Claw 24/7 Bench è un benchmark interno per la valutazione agentic. Kimi K2.7 Code e K2.6 sono stati testati tramite Kimi Code CLI con thinking abilitato (temperature 1.0, top-p 0.95, contesto da 262.144 token), mentre GPT-5.5 è stato valutato in Codex (xhigh) e Opus 4.8 in Claude Code (xhigh). Le eccezioni per ciascun benchmark e la metodologia completa sono illustrate nella model card su Hugging Face.

Pensato per il coding di lungo periodo

Nell’ingegneria software reale, raramente tutto si esaurisce in un solo passaggio. Attività come il refactoring di una codebase, l’implementazione di una funzionalità su più file o il debugging in lunghe sessioni agent richiedono un modello capace di seguire le istruzioni in modo affidabile anche su contesti estesi e di portare il compito fino al completamento.

Kimi K2.7 Code è ottimizzato per questi scenari di lungo periodo. Rispetto a K2.6, segue le istruzioni con maggiore affidabilità nei contesti lunghi e raggiunge tassi di successo end-to-end più elevati, risultando più adatto ai workflow complessi di ingegneria software.

Prova in Kimi Code

Efficienza di ragionamento ottimizzata

I modelli di ragionamento tendono a pensare troppo, spendendo migliaia di token per deliberare su problemi che non lo richiedono. Kimi K2.7 Code riduce sensibilmente questa tendenza: in media taglia l’uso dei thinking-token di circa il 30% rispetto a K2.6.

Su Kimi Code Bench v2, Program Bench e MLS Bench Lite, Kimi K2.7 Code ottiene punteggi superiori a K2.6 consumando al tempo stesso meno token in ciascun benchmark.

Per gli sviluppatori, questa efficienza si moltiplica in ogni attività: risposte più rapide nelle sessioni di coding interattive, costi API più bassi in produzione e workflow agent che completano più lavoro con lo stesso budget di contesto.

Prova in Kimi Code

Architettura del modello

Kimi K2.7 Code si basa su un’architettura Mixture-of-Experts (MoE) con 1 trilione di parametri totali e 32 miliardi di parametri attivati per token. Il modello supporta una lunghezza di contesto di 256K e utilizza Multi-head Latent Attention (MLA). Include inoltre MoonViT, un encoder visivo da 400 milioni di parametri.

Parametro	Valore
Architettura	Mixture-of-Experts (MoE)
Parametri totali	1T
Parametri attivati	32B
Numero di layer (layer denso incluso)	61
Numero di layer densi	1
Dimensione nascosta dell’attenzione	7168
Dimensione nascosta MoE (per Expert)	2048
Numero di teste di attenzione	64
Numero di Expert	384
Expert selezionati per token	8
Numero di Expert condivisi	1
Dimensione del vocabolario	160K
Lunghezza del contesto	256K
Meccanismo di attenzione	MLA
Funzione di attivazione	SwiGLU
Encoder visivo	MoonViT
Parametri dell’encoder visivo	400M

I pesi completi del modello sono open-source e disponibili su Hugging Face.

Scegliere tra Kimi K2.7 Code e K2.6

Kimi K2.7 Code è progettato specificamente per le attività di coding. Per usi generali come scrittura, analisi e conversazione, consigliamo K2.6, che offre capacità più equilibrate.

Come accedere a Kimi K2.7 Code

Dove usarlo

Kimi K2.7 Code è disponibile tramite:

Kimi Code (https://www.kimi.com/code). Kimi K2.7 Code è ora il modello predefinito, con la modalità thinking abilitata di default. Per iniziare, segui le istruzioni di configurazione nella pagina.
Kimi API sulla piattaforma open (https://platform.kimi.ai/). Gli sviluppatori possono chiamare Kimi K2.7 Code tramite la Kimi API e integrarlo nei propri workflow di coding, agent e strumenti per sviluppatori.

Requisito della modalità thinking

Kimi K2.7 Code non supporta la modalità non-thinking. Funziona sempre con il thinking abilitato, sia sulla Kimi API sia in Kimi Code. In Kimi Code, le richieste inviate con il thinking disattivato vengono invece servite automaticamente da K2.6.

Prezzi di Kimi K2.7 Code

Piani Kimi Code

Gli utenti che vogliono provare Kimi K2.7 Code direttamente tramite Kimi Code, inclusi terminale e plugin per IDE, possono scegliere i nostri piani Code. I prezzi indicati di seguito sono mensili con fatturazione annuale:

Piano	Prezzo	Ideale per
Moderato	$15 / mese	Utenti che hanno bisogno di quote di utilizzo aggiornate ogni settimana e accesso multi-dispositivo per workflow di coding regolari
Allegretto	$31 / mese	Utenti avanzati che necessitano di limiti settimanali più ampi e soglie di concorrenza più elevate
Allegro	$79 / mese	Utenti impegnati in attività di sviluppo intensive, progetti complessi e carichi di lavoro più consistenti
Vivace	$159 / mese	Utenti che necessitano delle quote settimanali più elevate per progetti complessi e grandi codebase

Ogni piano include limiti di utilizzo aggiornati settimanalmente. I piani di livello superiore offrono limiti settimanali più ampi e soglie di concorrenza più elevate, risultando adatti a progetti più complessi. Per i dettagli più aggiornati sui piani, consulta la pagina ufficiale degli abbonamenti.

Prezzi della Kimi API

Kimi K2.7 Code è disponibile tramite la Kimi API con fatturazione a consumo per token:

Modello	Unità	Prezzo input (cache hit)	Prezzo input (cache miss)	Prezzo output	Finestra di contesto
kimi-k2.7-code	1M token	$0.19	$0.95	$4.00	262.144 token

L’API supporta il caching automatico del contesto, che riduce il costo dell’input per i contesti riutilizzati (cache hit $0.19 vs cache miss $0.95 per milione di token). I prezzi non includono le imposte applicabili. Consulta la documentazione ufficiale sui prezzi per le tariffe più aggiornate.

Domande frequenti

Kimi K2.7 Code è open-source?

Sì. I pesi del modello sono open-source e disponibili per il download su Hugging Face, dove trovi anche guide al deployment e documentazione completa.

Qual è la finestra di contesto di Kimi K2.7 Code?

Kimi K2.7 Code supporta una finestra di contesto da 256K (262.144 token), ed è quindi particolarmente adatto a codebase su scala repository e a lunghe sessioni di coding multi-turn.

Kimi K2.7 Code supporta input di immagini e video?

Sì. Kimi K2.7 Code utilizza un’architettura nativamente multimodale che supporta input di testo, immagini e video, oltre alle sue capacità di coding e agentic.

La modalità thinking è necessaria per usare Kimi K2.7 Code?

Sì. Kimi K2.7 Code non supporta la modalità non-thinking e funziona sempre con il thinking abilitato. In Kimi Code, le richieste inviate con il thinking disattivato vengono invece servite automaticamente da K2.6.