Tarifs de Kimi K2.6 pour l’API et les abonnements

8 min de lecture2026-06-17

Kimi K2.6 est un modèle open source doté de capacités SOTA en codage, en exécution sur le long terme et en agent swarm. Voici un aperçu de la tarification de Kimi API et des formules d’abonnement Kimi.

Aperçu de la tarification de l’API Kimi K2.6

La tarification de l’API Kimi K2.6 repose sur un modèle basé sur les tokens : l’utilisation est facturée par tranche de 1M tokens (1 000 000 tokens) pour le traitement des entrées comme des sorties, afin d’offrir un contrôle des coûts clair et prévisible.

ModèleUnitéPrix d’entrée (cache trouvé)Prix d’entrée (cache manqué)Prix de sortieFenêtre de contexte
kimi-k2.61M tokens$0.16$0.95$4.00262,144 tokens

Modèle tarifaire de l’API Kimi K2.6

L’API Kimi K2.6 utilise un modèle de tarification basé sur les tokens pour chaque requête : chaque interaction avec le modèle consomme des tokens facturés selon leur type. Dans ce modèle, les tokens sont généralement répartis en trois catégories : tokens d’entrée, tokens de sortie et tokens d’entrée mis en cache.

Tokens d’entrée

Les tokens d’entrée représentent tout ce qui est envoyé au modèle, notamment :

  • Prompts utilisateur

  • Instructions système

  • Historique ou contexte de conversation

Ces tokens déterminent la quantité de contexte que le modèle doit traiter avant de générer une réponse.

Tokens de sortie

Les tokens de sortie sont générés par le modèle en réponse à une requête. Ils correspondent au contenu réellement généré par l’IA, par exemple :

  • Réponses textuelles

  • Génération de code

  • Sorties structurées

Comme la génération de sortie nécessite des calculs supplémentaires, elle est généralement facturée plus cher que les tokens d’entrée.

Tokens d’entrée mis en cache

Les tokens d’entrée mis en cache correspondent à la réutilisation d’un contexte déjà traité.

  • Si le même contexte, ou un contexte similaire, est réutilisé, il peut être servi à coût réduit

  • Cela améliore nettement l’efficacité des workflows répétitifs

  • C’est particulièrement utile dans les applications à long contexte ou les interactions à plusieurs tours

Notes tarifaires de l’API Kimi K2.6

La tarification de l’API Kimi K2.6 suit un modèle transparent fondé sur la consommation. Les précisions ci-dessous aident les développeurs à mieux comprendre la facturation et l’évolution des coûts.

Politique fiscale et de facturation

Tous les prix indiqués pour la tarification de l’API Kimi K2.6 s’entendent hors taxes applicables. Les taxes sont calculées automatiquement au moment du paiement selon la région de facturation de l’utilisateur et les exigences fiscales locales, afin de garantir une facturation exacte et conforme pour chaque commande.

Explication de l’utilisation des tokens

Pour faciliter la compréhension de la tarification de l’API Kimi K2.6, la facturation s’appuie sur une norme de tokens cohérente :

  • 1M tokens = 1,000,000 tokens

  • Les tokens d’entrée incluent les prompts et les informations contextuelles

  • Les tokens de sortie correspondent aux réponses générées par le modèle

Cette structure garantit une estimation des coûts transparente et prévisible pour toutes les requêtes Kimi API.

Efficacité des coûts grâce au cache

Kimi K2.6 inclut également un mécanisme de cache qui permet d’optimiser les coûts d’utilisation. Lorsque les entrées sont répétées ou similaires, les tokens d’entrée mis en cache sont facturés à tarif réduit, ce qui contribue à diminuer la consommation globale dans le modèle de tarification de Kimi API.

  • Les tokens d’entrée mis en cache sont facturés à tarif réduit

  • La réutilisation du contexte réduit la consommation totale de tokens

  • Améliore l’efficacité des longues sessions et des workflows répétitifs

La tarification de l’API Kimi K2.6 devient ainsi plus rentable pour les scénarios de production où les prompts ou les contextes sont fréquemment réutilisés.

Bien qu’il n’existe pas d’offre gratuite permanente de Kimi API pour un usage en production, le modèle tarifaire est conçu pour rester flexible et évolutif, afin de permettre aux développeurs de maîtriser leurs coûts selon leur consommation réelle de tokens.

Formules tarifaires et niveaux d’utilisation de Kimi K2.6

En plus de la tarification à l’usage via API, Kimi propose des abonnements par niveaux qui s’adaptent à vos besoins, afin de choisir facilement la formule adaptée à votre workflow. Ces formules permettent aux utilisateurs de sélectionner le niveau le plus approprié selon leurs besoins d’utilisation quotidiens et leurs exigences de montée en charge.

FonctionnalitéAdagioModeratoAllegrettoAllegroVivace
Facturation annuelle (mensualité effective)$0 / mois$15 / mois$31 / mois$79 / mois$159 / mois
Utilisation d’Agent660150360720
Tâches simultanées1 tâche2 tâches2 tâches4 tâches4 tâches
File prioritaire d’Agent×Vitesse 4×Vitesse 4×Vitesse 4×Vitesse 4×
Agent Swarm××50 utilisations incluses120 utilisations incluses240 utilisations incluses
Sous-agents simultanés××4 sous-agents4 sous-agents8 sous-agents
Kimi Code×Crédits 1×Crédits 5×Crédits 15×Crédits 30×
Kimi Claw××
Kimi Claw Android××
Kimi Claw (Mac ARM / PC)××
Discussion de groupe avec Claw××10 discussions10 discussions10 discussions
Requêtes de données professionnelles200200050001200024000
Déployer un site web avec base de données×

Conclusion

Kimi K2.6 propose une tarification flexible, adaptée aussi bien aux développeurs qu’aux utilisateurs du quotidien. La tarification de l’API fondée sur les tokens rend les coûts transparents et prévisibles, avec la prise en charge du cache pour réduire les dépenses dans les workflows à fort volume ou à long contexte. Pour ceux qui préfèrent un accès structuré, les abonnements par niveaux vont de l’usage gratuit à l’usage professionnel, avec des capacités d’agent, des tâches simultanées et des outils comme Kimi Claw et Agent Swarm. Que vous intégriez Kimi via API ou que vous exploriez l’ensemble de ses fonctionnalités, une formule est conçue pour s’adapter à votre workflow et à votre budget.

FAQ

Comment la tarification de l’API Kimi K2.6 est-elle calculée ?
La tarification de l’API Kimi K2.6 est calculée en fonction de l’utilisation des tokens, notamment les tokens d’entrée, les tokens de sortie et les tokens d’entrée mis en cache. Toute l’utilisation est facturée par tranche de 1M tokens (1 000 000 tokens), ce qui rend les coûts de Kimi API faciles à mesurer et à prévoir selon les différentes charges de travail.
Qu’est-ce qui influe le plus sur le coût total de l’API ?
Les principaux facteurs de coût sont l’utilisation des tokens de sortie, la longueur du prompt et la taille du contexte. Dans la plupart des cas, des réponses plus longues et des entrées plus volumineuses augmentent l’utilisation globale dans le modèle tarifaire de l’API K2.6.
L’API Kimi K2.6 coûte-t-elle moins cher avec des tokens mis en cache ?
Oui. Les tokens d’entrée mis en cache sont facturés à un tarif réduit, car un contexte déjà traité peut être réutilisé. La tarification de Kimi API devient ainsi plus avantageuse pour les requêtes répétées ou similaires.
Combien de tokens Kimi K2.6 prend-il en charge par requête ?
Le modèle prend en charge une fenêtre de contexte maximale de 256K tokens, ce qui lui permet de traiter de longs documents, des conversations étendues et des tâches complexes en plusieurs étapes au sein d’une seule requête.
Que se passe-t-il si mon entrée dépasse la fenêtre de contexte ?
Kimi K2.6 prend en charge jusqu’à 256K tokens par requête. Si l’entrée dépasse cette limite, elle doit être scindée ou raccourcie avant d’être traitée via Kimi API.
Kimi K2.6 prend-il en charge les usages à fort volume ou à l’échelle de l’entreprise ?
Oui. Kimi K2.6 est conçu pour les charges de travail évolutives, prenant en charge aussi bien les applications légères que les scénarios d’entreprise à haut débit, avec une tarification prévisible basée sur les tokens.
L’API Kimi K2.6 comporte-t-elle des frais cachés ?
Non. Le modèle de tarification de Kimi API est entièrement transparent et repose uniquement sur l’utilisation des tokens. Il n’y a pas de frais de plateforme cachés, même si des taxes peuvent s’appliquer selon la région de l’utilisateur.