Kimi K2.7-Code: बेहतर टोकन दक्षता वाला ओपन सोर्स कोडिंग मॉडल

(huggingface.co)

3 पॉइंट द्वारा GN⁺ 2026-06-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह एक एजेंट-आधारित कोडिंग मॉडल है जो लंबी अवधि के कोडिंग कार्यों और जटिल software engineering workflow को संभालता है, और Kimi K2.6 के आधार पर end-to-end task completion क्षमता तथा token usage efficiency को बेहतर बनाता है
Kimi K2.6 की तुलना में reasoning token उपयोग लगभग 30% कम हुआ है, और Kimi Code Bench v2 का स्कोर 50.9 से 62.0, MCP Mark Verified का स्कोर 72.8 से 81.1 तक बढ़ा है
मॉडल आर्किटेक्चर MoE आधारित है और इसमें कुल 1T parameters, 32B active parameters, 256K context length, तथा MoonViT vision encoder शामिल हैं
deployment आधिकारिक API, vLLM, SGLang, और KTransformers के लिए उपलब्ध है, और Kimi-K2.5/Kimi-K2.6 जैसी ही architecture होने के कारण मौजूदा deployment तरीकों को दोबारा इस्तेमाल किया जा सकता है
उपयोग के समय Thinking mode और preserve_thinking अनिवार्य हैं, image input समर्थित है, और video input फिलहाल केवल आधिकारिक API में experimental रूप से समर्थित है

मॉडल अवलोकन

Kimi K2.7-Code Kimi K2.6 पर आधारित एक coding-केंद्रित agent model है, जिसे वास्तविक लंबी अवधि के coding कार्यों के लिए बेहतर बनाया गया है
यह जटिल software engineering workflow के पूरे दायरे में end-to-end task completion क्षमता को मजबूत करता है
Kimi K2.6 की तुलना में reasoning token उपयोग लगभग 30% कम करके token efficiency बढ़ाई गई है
इसे image-text input, Transformers, Safetensors, conversational, custom_code जैसे tags के साथ उपलब्ध कराया गया है

मॉडल सारांश

आर्किटेक्चर Mixture-of-Experts(MoE) है, कुल parameters 1T हैं और active parameters 32B हैं
layers की संख्या Dense layer सहित 61 है, जिनमें Dense layer 1 है
Attention Hidden Dimension 7168 है, और MoE Hidden Dimension प्रति expert 2048 है
Attention Head 64 हैं, Experts 384 हैं, प्रति token चुने जाने वाले Experts 8 हैं, और Shared Expert 1 है
vocabulary size 160K है और context length 256K है
Attention mechanism MLA है, और activation function SwiGLU है
vision encoder MoonViT है, और vision encoder parameters 400M हैं

मूल्यांकन परिणाम

कोडिंग बेंचमार्क
- Kimi Code Bench v2 में Kimi K2.6 ने 50.9, Kimi K2.7 Code ने 62.0, GPT-5.5 ने 69.0, और Claude Opus 4.8 ने 67.4 स्कोर किया
- Program Bench में Kimi K2.6 ने 48.3, Kimi K2.7 Code ने 53.6, GPT-5.5 ने 69.1, और Claude Opus 4.8 ने 63.8 स्कोर किया
- MLS Bench Lite में Kimi K2.6 ने 26.7, Kimi K2.7 Code ने 35.1, GPT-5.5 ने 35.5, और Claude Opus 4.8 ने 42.8 स्कोर किया
एजेंट बेंचमार्क
- Kimi Claw 24/7 Bench में Kimi K2.6 ने 42.9, Kimi K2.7 Code ने 46.9, GPT-5.5 ने 52.8, और Claude Opus 4.8 ने 50.4 स्कोर किया
- MCP Atlas में Kimi K2.6 ने 69.4, Kimi K2.7 Code ने 76.0, GPT-5.5 ने 79.4, और Claude Opus 4.8 ने 81.3 स्कोर किया
- MCP Mark Verified में Kimi K2.6 ने 72.8, Kimi K2.7 Code ने 81.1, GPT-5.5 ने 92.9, और Claude Opus 4.8 ने 76.4 स्कोर किया
मूल्यांकन शर्तें
- अलग से उल्लेख न होने पर Kimi K2.7 Code और K2.6 का परीक्षण Kimi Code CLI में Thinking mode चालू करके, temperature 1.0, top-p 0.95, और 262,144 token context length के साथ किया गया
- GPT-5.5 को Codex के xhigh mode में चलाया गया, और Opus 4.8 को Claude Code के xhigh mode में चलाया गया
- इन भिन्नताओं को छोड़कर, सभी benchmarks का मूल्यांकन समान शर्तों में किया गया
बेंचमार्क संरचना
- Kimi Code Bench V2 वास्तविक कार्यों में coding agents का मूल्यांकन करने वाला एक internal benchmark है, जो 10 से अधिक प्रमुख programming languages और पूरे production tech stack को कवर करता है
- Kimi Code Bench V2 में internal engineering use cases, production incidents, और वास्तविक open source projects के कार्य शामिल हैं
- Program Bench केवल compiled binaries और documentation के आधार पर program behavior को पुन: निर्मित करने की मांग करता है, और इसमें 200 tasks तथा 248,000 से अधिक fuzz-generated behavior tests का उपयोग होता है
- MLS-Bench यह मूल्यांकन करता है कि AI systems सामान्यीकृत और scalable ML methods बना सकते हैं या नहीं, और MLS-Bench-Lite इसका आधिकारिक 30-task subset है
- Kimi Claw 24/7 Bench निरंतर multi-day collaboration में long-term agent performance का मूल्यांकन करने वाला internal benchmark है, जिसमें 17 professional scenarios और 610 evaluation points शामिल हैं
- MCP-Atlas scalable MCP के माध्यम से वास्तविक tool-use tasks में LLM performance का मूल्यांकन करता है
- MCPMark-Verified, MCPMark का human-verified संस्करण है, जो Notion, GitHub, Filesystem, Postgres, Playwright जैसे 5 वास्तविक server environments में MCP tool use का मूल्यांकन करता है

Native INT4 quantization

Kimi-K2.7-Code, Kimi-K2-Thinking की तरह native int4 quantization विधि अपनाता है

deployment

Kimi-K2.7-Code API को https://platform.moonshot.ai पर एक्सेस किया जा सकता है
आधिकारिक API OpenAI/Anthropic-compatible API प्रदान करता है
अनुशंसित inference engines vLLM, SGLang, और KTransformers हैं
Kimi-K2.7-Code की architecture, Kimi-K2.5/Kimi-K2.6 जैसी ही है, इसलिए deployment method को सीधे पुन: उपयोग किया जा सकता है
transformers version requirement >=4.57.1, <5.0.0 है
deployment examples Model Deployment Guide में देखे जा सकते हैं

उपयोग का तरीका

API call की बुनियादी शर्तें
- उपयोग demo आधिकारिक API call method पर आधारित है
- Kimi-K2.7-Code, Thinking और preserve_thinking को True पर अनिवार्य करता है
- vLLM या SGLang पर deploy किए गए third-party API में video content chat फिलहाल केवल आधिकारिक API में समर्थित experimental फीचर है
- Thinking mode के लिए अनुशंसित temperature 1.0 है और अनुशंसित top_p 0.95 है
- Instant mode समर्थित नहीं है
Chat Completion
- Chat Completion example, K2.7-Code API को Thinking mode में call करता है
- example code openai client से client.chat.completions.create को call करता है और max_tokens=4096 सेट करता है
- response में response.choices[0].message.reasoning और response.choices[0].message.content को output किया जाता है
visual content input
- K2.7-Code image और video input को support करता है
- image input example में image को base64 में encode करके image_url में भेजा जाता है और max_tokens=8192 के साथ response generate किया जाता है
- video input example में mp4 file को base64 में encode करके video_url में भेजा जाता है
- video chat फिलहाल केवल आधिकारिक API में समर्थित experimental फीचर है
Preserve Thinking
- Kimi K2.7 Code preserve_thinking mode को अनिवार्य करता है और multi-turn interaction में पूरा reasoning content बनाए रखता है
- preserve_thinking, coding agent scenarios में performance बढ़ाता है
- यह feature डिफ़ॉल्ट रूप से enabled है और इसे disable नहीं किया जा सकता
- कुछ API reasoning_content को support नहीं कर सकते, इसलिए reasoning को आज़माया जा सकता है
Interleaved Thinking और multi-step tool calls
- K2.7-Code, K2 Thinking की तरह Interleaved Thinking और Multi-Step Tool Call design साझा करता है
- उपयोग example के लिए K2 Thinking documentation देखें
coding agent framework
- Kimi K2.7-Code, agent framework के रूप में Kimi Code CLI के साथ उपयोग करने पर सबसे अच्छा काम करता है
- Kimi Code CLI https://www.kimi.com/code पर उपलब्ध है

local run examples

Transformers
- Transformers में pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) तरीके से high-level pipeline बनाई जा सकती है
- model को सीधे AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto") तरीके से load किया जा सकता है
vLLM
- vLLM को pip install vllm से install किया जाता है और vllm serve "moonshotai/Kimi-K2.7-Code" से server शुरू किया जाता है
- call example में OpenAI-compatible API endpoint http://localhost:8000/v1/chat/completions का उपयोग होता है
- Docker Model Runner में docker model run hf.co/moonshotai/Kimi-K2.7-Code से चलाया जाता है
SGLang
- SGLang को pip install sglang से install किया जाता है और python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code" से server शुरू किया जाता है
- call example में OpenAI-compatible API endpoint http://localhost:30000/v1/chat/completions का उपयोग होता है
- Docker run example में GPU, shared memory, Hugging Face cache, और HF_TOKEN environment variable सेट किए जाते हैं

लाइसेंस

code repository और model weights, Modified MIT License के तहत वितरित किए जाते हैं

1 टिप्पणियां

GN⁺ 2026-06-13

Hacker News की राय

संशोधित लाइसेंस क्लॉज़ पढ़कर हंसी आई। असल में यह MIT लाइसेंस में पुराने BSD वाला एक advertising क्लॉज़ जोड़ने जैसा है, और मासिक active users या revenue से अलग, अगर इसे product में इस्तेमाल करो तो उन्हें “advertise” करने की मांग के करीब है
सच कहूं तो यह एक उचित अनुरोध लगता है
- यह Cursor पर निशाना साधने वाला क्लॉज़ जैसा दिखता है। मतलब, ऐसा मत करो कि उन्हें सार्वजनिक रूप से शर्मिंदा करना पड़े
- यहां “advertising” क्लॉज़ का मतलब बस इतना है कि product में कहीं इसके इस्तेमाल का खुलासा किया जाए। जैसे “About” सेक्शन के credits में डाल देना
- यह थोड़ा जल्दबाजी में जोड़ा गया लगता है। सोचा था कि “user interface” में क्या-क्या शामिल है, इस बारे में कानूनी भाषा को थोड़ा और तराशा गया होगा
मैंने Kimi K2.7-code को काफी साधारण निर्देश देकर Fil-C OpenSSL patch को 3.3.1 से 3.5.7 पर rebase कराया, और यह सफल लगता है
patch का आकार 177KB था, इसलिए यह कोई छोटा बदलाव नहीं था, और शुरुआत में यह साफ-सुथरे तरीके से apply भी नहीं हुआ, इसलिए agent को काफी वास्तविक काम करना पड़ा
मैंने सिर्फ 3.3.1 target patch, build command, 3.5.7 path, और change document link(https://fil-c.org/constant_time_crypto) दिया था
हालांकि मैंने अपना coding agent T800 इस्तेमाल किया, जो public नहीं है, और जिसे पहले K2.5 के लिए काफी test और tune किया जा चुका था
API usage fee शायद $5~$10 के बीच थी। सुधार: OpenSSH नहीं, OpenSSL है
मेरी निजी राय में open code या router इस्तेमाल करते समय एक स्तर के बाद models के बीच का अंतर बहुत महसूस नहीं होता। महंगे और अस्पष्ट Gemini जैसे models अपवाद हैं
इस लिहाज से चीन के models काफी अच्छे हैं। मैं आमतौर पर उनसे function या method unit पर code लिखवाता हूं, फिर design और assembly करता हूं
GPT series ज्यादा सावधान और बेहतर तो है, लेकिन फर्क इतना बड़ा है या नहीं, यह साफ नहीं। workflow पर निर्भर करेगा, लेकिन अगर सख्ती से handle किया जाए तो क्या वास्तव में बड़ा अंतर है, इस पर संदेह है
- “free” inference routers को मैंने काफी हद तक छोड़ दिया है। जैसा उम्मीद थी, वे inference को ज्यादा से ज्यादा बचाने की कोशिश करते हैं, इसलिए कई बार reasoning quality गिर जाती है
  MacBook M1 Pro को heating pad बनाते हुए Qwen 3.6 35B A3B MTP चलाना कुछ हद तक सफल रहा
  Gemini models को “local” की तरह इस्तेमाल करने की कोशिश में भी ऐसा ही मसला था: वे effort को छोटे टुकड़ों में काटते हैं, गलतियां ज्यादा होती हैं और turns बढ़ जाते हैं
  दूसरी तरफ, Fable के बारे में जो कहा जाता है कि वह लगातार “proactive” है, उसे देखकर लगता है कि strong branding और effective monetization हो तो बिल्कुल उलटी दिशा भी संभव है
- मेरे अनुभव में individual function implementation में frontier models और latest 30B-class models के बीच लगभग कोई अंतर नहीं है
  अगर एक consistent design पहले से मौजूद हो, और वही कठिन हिस्सा है, तो उसे काफी छोटे model में भी डालकर लगभग वही quality मिल सकती है
  एक बार में पूरा नहीं होता, लेकिन यह तेज और सस्ता है, इसलिए आखिरकार फायदेमंद पड़ता है। और local पर भी संभव है
- result में फर्क बहुत बड़ा नहीं होता, लेकिन उन्हें ज्यादा सख्ती से handle करना पड़ता है, यह सही है। उदाहरण के लिए Kimi K2.5/K2.6 कभी-कभी अपने अभी-अभी बनाए हुए bug को ठीक करने के बजाय failing tests को “existing failure” समझकर comment out कर देते थे
  इसलिए ऐसा साफ तौर पर बनाना पड़ता है कि commented-out tests build तोड़ दें। Anthropic या OpenAI models में मुझे व्यक्तिगत रूप से ऐसी समस्या नहीं हुई
- अच्छा होगा अगर “चीन के models” जैसी अभिव्यक्ति बंद की जाए। इसमें नकारात्मक nuance है
  यह कुछ वैसा है जैसे पहले cars को “जापानी कार” कहा जाता था, लेकिन अब उसका लगभग कोई मतलब नहीं रहा, और लोग बस Toyota, Honda, Lexus कहते हैं
अगर किसी ने opencode + Kimi K2.6/2.7 को Claude Code से तुलना करके इस्तेमाल किया है, तो मैं सच में जानना चाहूँगा/चाहूँगी। क्या बेहतर है, क्या खराब है, और लागत की तुलना कैसी है
अभी मैं 5x Max प्लान के लिए $100 दे रहा/रही हूँ, लेकिन Fable इस्तेमाल की सीमा को काफ़ी जल्दी खत्म कर देता है, और Opus की तुलना में इसे रात-दिन जैसा फ़र्क भी कहना मुश्किल है
मैं इसे ज़्यादातर side project में इस्तेमाल करता/करती हूँ, इसलिए $100 का बिल भी काफ़ी बड़ा लगता है, और इससे ज़्यादा नहीं देना चाहता/चाहती
- मैं मुख्य रूप से Claude Code को Opus के साथ इस्तेमाल करता/करती था/थी, लेकिन personal project में opencode + Kimi 2.6 पर शिफ्ट होकर कुछ महीनों से इस्तेमाल किया है
  Claude Code बेहतर है। लेकिन opencode + Kimi 2.6 का कामचलाऊ होना भी एक बड़ा पॉइंट है
  अगर आपको ठीक-ठीक पता हो कि क्या चाहिए और सिर्फ़ simple code writing करवानी हो, तो DeepSeek, Kimi जैसे लोकप्रिय मॉडल भी ज़्यादातर ठीक रहते हैं और Anthropic मॉडल से बहुत अलग नहीं लगते
  दूसरी तरफ़ Opus, DeepSeek की तुलना में इरादे को बहुत बेहतर समझता है। DeepSeek इस्तेमाल करते समय prompt बहुत ज़्यादा सटीक लिखना पड़ता है, और ढीला-ढाला लिखें तो वह अक्सर अजीब दिशा में चला जाता है
  Kimi इन दोनों के बीच है। यह “loose prompt” वाले flow को कुछ हद तक वापस ले आता है, और DeepSeek की तुलना में इसकी planning पर ज़्यादा भरोसा किया जा सकता है
  Claude Code जैसा work flow संभव है, लेकिन कुल मिलाकर हर चीज़ थोड़ी-थोड़ी कमज़ोर है। context length, error की संख्या, decision-making, recommendation, debugging क्षमता—सब कुछ थोड़ा कम है
  usage के हिसाब से देखें तो $100 वाला Claude प्लान वास्तव में cost-effective है। token unit price के हिसाब से Kimi बहुत सस्ता है, लेकिन Claude subscription शायद काफ़ी subsidized है, इसलिए $100 में API से खरीदे जा सकने वाले token से कहीं ज़्यादा token मिलते हैं
  आखिरकार, समान usage pattern में opencode + Kimi और Claude Code की लागत मिलती-जुलती हो सकती है
  DeepSeek और सस्ता है और cache token तो हैरान करने वाली हद तक सस्ते हैं, लेकिन Claude Code से शिफ्ट होने पर अपनी आदतों के मुताबिक काम करने का तरीका बदलना पड़ सकता है
  side project के लिए $10 Opencode Go प्लान में OpenRouter जैसी जगह से DeepSeek v4 क्रेडिट $10 जोड़ना काफ़ी practical setup लगता है
- काम में मैं Claude इस्तेमाल करता/करती हूँ, और side project में Kimi। संगठन में LiteLLM और Kimi 2.5 enabled हैं, लेकिन वे लगभग ठीक से चलते नहीं, इसलिए Claude और GPT ही मुख्य tools हैं
  Kimi किसी interview दे रहे developer जैसा लगता है, इसलिए ज़्यादा मज़ेदार है। समस्या पर उसके reasoning process को देखना वैसा ही लगता है जैसा मैं whiteboard session में समझाता/समझाती हूँ। वह “wait” बहुत ज़्यादा बोलता है, जो मज़ेदार है
  Claude ज़्यादा उस कर्मचारी या employee team जैसा है जिसे पहले ही hire किया जा चुका हो। वह शुरुआत में लंबी व्याख्या नहीं देता, सिर्फ़ ज़रूरत होने पर सवाल पूछता है, फिर एक comprehensive report या plan दे देता है
  मेरे हिसाब से OpenCode बेहतर harness है। लागत के बारे में सीधे तुलना नहीं कर सकता/सकती, क्योंकि मैंने एक ही prompt को दोनों तरफ़ बिल्कुल एक जैसा चलाकर नहीं देखा
  हाल ही में मैंने Kimi से ZenC programming language के लिए libpq wrapper बनवाया (https://github.com/nobleach/zenc-postgres), इसमें लगभग एक घंटा लगा और लागत लगभग $4 थी
- मैं ohmypi से बहुत संतुष्ट हूँ, लेकिन OpenCode इस्तेमाल करना या Claude Code पर बने रहना भी ठीक है
  DeepSeek-V4-Pro काफ़ी अच्छा है, और जिन tasks या छोटे कामों को आप Haiku या Sonnet को देते, उनके लिए DS4-Flash इस्तेमाल किया जा सकता है। बस $10 prepaid से साइन अप करना होता है
  OpenCode Go में महीने के $5 देकर Qwen-3.7-Max को design, planning, architecture, और कठिन problem solving के लिए इस्तेमाल किया जा सकता है। यह DeepSeek की तुलना में Opus 3.6 या 3.7 के ज़्यादा करीब लगता है, और जो मैंने पाया उनमें सबसे मिलता-जुलता था
  OpenAI Codex में $20 monthly plan के साथ GPT-5.5 को API के रूप में design, planning, architecture, problem solving, और commit writing में इस्तेमाल किया जा सकता है। बहुत कठिन समस्याओं के लिए $100 देकर GPT-5.5-Pro chat में कॉपी-पेस्ट भी किया जा सकता है
  Xiaomi MiMo-2.5-Pro के लिए किसी दोस्त से $2 referral code लेकर 72 सेंट का free credit मिल सकता है। इसकी कीमत DeepSeek जितनी है, और क्षमता के मामले में Sonnet और Opus के बीच कहीं आता है। UltraSpeed beta के लिए आवेदन करना भी ठीक रहेगा
  OpenCode या ohmypi में इन मॉडलों को तुरंत बदल-बदलकर इस्तेमाल करके अपने लिए सबसे बेहतर विकल्प खोजा जा सकता है। मैं CodexBar से लगभग real-time usage देखता/देखती हूँ
  हल्के उपयोगकर्ताओं या programming beginners के लिए Cursor का $20 प्लान Composer-2.5 और Composer-2.5-Fast के साथ शुरू करने के लिए अच्छा है। इसमें API quota भी है, इसलिए Cursor के बाहर OpenCode या ohmypi से Opus-4.x या GPT-5.5-Pro तक पहुँचा जा सकता है
  अगर आप Grok या Twitter इस्तेमाल करते हैं, तो महीने के $30 SuperGrok में अच्छा vision model मिलता है, और मैंने इसे frontend automated testing में इस्तेमाल किया है। लेकिन अभी मैं सामान्य Mac पर local Qwen-3-VL की तरफ़ शिफ्ट कर रहा/रही हूँ। अगर आप तकनीक में कम सहज हैं, तो unreach Mac पर local model hosting आसान बना देता है
  अगर आपके पास RTX 5090 जैसी शक्तिशाली GPU है, तो Qwen-3.6 को local पर आज़माना भी ठीक रहेगा। ollama या llama-swap से यह अपेक्षाकृत आसान है
  नया Kimi मैंने अभी तक इस्तेमाल नहीं किया, लेकिन 3 पेशेवर developers, 1 graphic designer जो Midjourney और Grok Imagine बहुत इस्तेमाल करता/करती है, और 1 non-technical user जो requirement gathering और implementation tracking के लिए ohmypi इस्तेमाल करता/करती है—ऐसी टीम चलाते हुए मैं प्रति कर्मचारी मासिक लागत $200 से कम रख रहा/रही हूँ
  थोड़ा और प्रयास किया जाए तो इसे प्रति कर्मचारी महीने के $75 के क़रीब भी लाया जा सकता है
- मैं Claude Code में patched litellm proxy, openrouter, और Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro जोड़कर इस्तेमाल कर रहा/रही हूँ
  जो एकमात्र feature काम नहीं करता वह webfetch और web search है, लेकिन मैंने agent को ddg MCP और web fetch/search pre-hook के ज़रिए bypass करके इसका विकल्प बना लिया है
  memory, caching आदि बाकी सब ठीक से काम करते हैं
  planning में Qwen, Opus के काफ़ी करीब है, लेकिन Fable साफ़ तौर पर बेहतर है
  coding में अगर Opus plan लिख दे, तो Kimi और DeepSeek के नतीजे Opus से लगभग अलग नहीं लगते
  सबसे बड़ा फ़र्क output rhythm में है। उदाहरण के लिए Kimi लंबे समय तक सोचने के बाद बहुत सारा text तेज़ी से आउटपुट करता है
  अभी मैं research और planning के लिए Fable, और coding के लिए DeepSeek v4 flash टेस्ट कर रहा/रही हूँ। नतीजे Opus + DeepSeek v4 pro जैसे लगते हैं और कुल लागत कम होनी चाहिए
- मैं सिर्फ़ GLM 5.1 के बारे में कह सकता/सकती हूँ, और मेरे हिसाब से यह Sonnet 4 स्तर के क़रीब है

अच्छा है, और जो ज़्यादातर काम इसे दिए जाते हैं उन्हें अच्छी तरह संभाल लेता है, लेकिन संज्ञानात्मक रूप से जटिल कामों में विफल हो जाता है। अक्सर अटक जाता है। फिर भी इसकी कीमत लगभग $6 प्रति माह है।

एक सीमा-बिंदु होता है जहाँ “सबसे बेहतरीन” मॉडल उतना महत्वपूर्ण नहीं रह जाता, और मुझे लगता है कि हम उससे बहुत दूर नहीं हैं। Fable अभी वाकई बहुत अच्छा है, लेकिन अगर लगभग 1 साल बाद Kimi उसकी बराबरी कर ले, तो भले ही Fable6 उससे कहीं बेहतर हो, अगर उसकी कीमत 1/10 हो तो शायद मैं Kimi ही इस्तेमाल करूँगा
पहले Opus 4.5 को देखकर मैंने सोचा था, “यह अगर इतना अच्छा है तो 6~12 महीनों में चीनी मॉडल भी इतने अच्छे और सस्ते हो जाएंगे, तब वही इस्तेमाल करूँगा,” लेकिन मैं गलत निकला। अभी भी मैं Opus 4.7/8 और Fable के लिए प्रीमियम दे रहा हूँ
फिर भी किसी न किसी बिंदु पर मॉडल बस आपकी मनचाही चीज़ें कर पाने लायक हो जाएंगे, और उसके बाद कीमत घटाने की प्रतिस्पर्धा शुरू होगी
अब जब चीनी कंपनियों को बहुत अच्छे Fable टोकन तक पहुंच मिल सकती है, उम्मीद है वह प्रतिस्पर्धा तेज होगी
- कौन है और मॉडल का इस्तेमाल कैसे करता है, इस पर निर्भर करते हुए कुछ लोग शायद पहले ही उस बिंदु तक पहुँच चुके हैं
- मुझे लगता है अगला प्रतिस्पर्धी मोर्चा स्पीड है। कई एजेंटों के बीच आना-जाना करके context switch करने के बजाय, अच्छा होगा अगर एक ही एजेंट कुछ सेकंड में किसी भी prompt पर काम आगे बढ़ा दे और एक काम की flow बनाए रखे
- सिर्फ token per price ही महत्वपूर्ण नहीं है। अगर आपको AI से फिर से पूछना पड़े, तो वह शुरुआत में सही जवाब देने वाले मॉडल से महंगा पड़ सकता है
  इसलिए token unit price ज्यादा होने पर भी बेहतर मॉडल असल में सस्ता हो सकता है
अगर Opus, Kimi K2.6 या दूसरे चीनी मॉडलों से 5 गुना महंगा है, लेकिन बस थोड़ा-सा बेहतर है, तो मुझे हमेशा यह जिज्ञासा रही कि Anthropic जैसी कंपनियाँ प्रतिस्पर्धी कैसे बनी रहती हैं
मेरा अनुमान है कि अमेरिकी कंपनियाँ डेटा चीन की तरफ नहीं भेज सकतीं, और यह बात समझ में आती है। लेकिन क्या वही सच में “moat” है?
- मौजूदा moat है मॉडल परफॉर्मेंस, और उसके कारण लगने वाले अतिरिक्त टोकन और समय
  यह बात मैं Kimi मॉडल काफी बार इस्तेमाल करने और आम तौर पर उसे पसंद करने वाले व्यक्ति के रूप में कह रहा हूँ
  DeepSWE जैसे बेंचमार्क, जिन्हें अभी गेम नहीं किया गया है, उनमें Kimi K2.6, Claude Sonnet 4.6($3/$15) से काफी पीछे है, और GPT 5.4 Mini($0.75/$4.50) से भी थोड़ा पीछे है
  यह साफ है कि Kimi मॉडल कई coding tasks में बहुत अच्छे हैं, और open weight मॉडलों में इनकी quality सबसे अच्छी है
  लेकिन Sonnet/Opus जैसे कुल मिलाकर नतीजे पाने के लिए औसतन कहीं ज्यादा टोकन खर्च करने पड़ते हैं और मॉडल को ज्यादा manage करना पड़ता है
  इसलिए token per price नहीं, बल्कि पूरी process पर कुल कितना खर्च आता है, यह देखना चाहिए
- मुझे लगता है धारणा यह नहीं है कि वह “बस थोड़ा बेहतर” है। उसी महसूस किए गए quality gap की वजह से price differentiation संभव है
  और जहाँ बहुत पैसा खर्च होता है, वहाँ evaluation चलाने वाले पर्याप्त rational लोग भी होते हैं, इसलिए “थोड़ा बेहतर” सिर्फ एक vague feeling भर हो, ऐसा ज़रूरी नहीं
  हाँ, मैं खुद जिन evaluation suites को देख सकता हूँ, वे सीमित हैं। यह भी हो सकता है कि सब लोग irrational हों और Anthropic उसका फायदा उठा रहा हो
- जिन लोगों ने दोनों इस्तेमाल किए हैं, उनमें से ज़्यादातर शायद कहेंगे कि Anthropic के मॉडल Kimi से थोड़ा से ज्यादा बेहतर हैं
  Kimi और दूसरे open source मॉडल SWE-bench जैसी जगहों पर अच्छे score ला सकते हैं, लेकिन असल इस्तेमाल में फर्क महसूस होता है
- API token pricing सिर्फ एक factor है, और Claude subscription value for money है
  अजीब बात यह है कि सब लोग API pricing को आधार बनाकर कहते हैं कि Claude subscription subsidized है, लेकिन असली Claude inference cost किसी को नहीं पता, और चीनी providers भी सस्ता inference दे सकते हैं। तो फिर लोग ऐसा क्यों मानते हैं कि Claude ऐसा नहीं कर सकता?
  enterprise ग्राहकों के लिए अलग, non-public API pricing contracts भी हो सकते हैं। संभव है कि हमें सिर्फ ऊँची सूचीबद्ध कीमतें दिख रही हों
- सिर्फ उन क्षेत्रों में यह “थोड़ा बेहतर” के करीब है जहाँ तुलना की जा सकती है; बाकी कई क्षेत्रों में A\ मॉडल बहुत बेहतर हैं। उदाहरण के लिए, वे काम जिनका Kimi वगैरह ने distillation नहीं किया है
  ऐसे कामों में अंतर खाई जैसा बड़ा है
ठीक से टेस्ट करने पर यह काफी अच्छा सुधार लगता है। उसी काम में कम टोकन इस्तेमाल होना ही इतना बड़ा कारण है कि जब open model चाहिए हो, तब K2.6 की जगह इसे चुना जाए
अगर कोई नया मॉडल DeepSeek v4 से 20~30% तक साफ तौर पर बेहतर नहीं है, और उसका token per price DeepSeek से ज्यादा है, तो मुझे लगता है वह लगभग अपने-आप कम-इस्तेमाल होने वाला मॉडल बन जाएगा। हाँ, planning के लिए शायद चल सकता है
- DeepSeek v4 Pro, GLM 5.1 या Kimi K2.6 की तुलना में, वास्तव में उतना अच्छा मॉडल नहीं है। price-performance के हिसाब से ठीक-ठाक coder/reasoner है
- समझ नहीं आता कि DeepSeek खुद लागत झेल रहा है, या लोग open models को भी लगभग इसी लागत पर host कर सकते हैं
अभी तक open weights/open source models के साथ बहुत सहज नहीं हूँ। अगर कोई इन्हें full-time इस्तेमाल कर रहा है, तो उसकी setup और performance के बारे में सुनना चाहूँगा। संगठन को Anthropic products से migrate करने पर विचार कर रहा हूँ
- अपना निजी अनुभव बताऊँ तो, personal work के लिए forgecode और openrouter इस्तेमाल करता हूँ। सबसे पहले, forgecode मुझे Claude Code की तुलना में कहीं बेहतर harness लगता है
  model quality में बहुत बड़ा अंतर नहीं है, लेकिन cost का अंतर बेतुका स्तर का है। कम से कम जिस तरह मैं agents इस्तेमाल करता हूँ, उसमें तो ऐसा ही है
  कल का उदाहरण लें, मैं complex technical documents को search करने के लिए एक छोटा DSL बना रहा था और उसमें एक छोटा operator जोड़ने के लिए Fable आज़मा रहा था
  Fable ने $13 जला दिए और एक solution दिया, लेकिन objectively वह उसी काम के लिए DeepSeek v4 द्वारा $1.7 में किए गए काम से बेहतर नहीं था
  हाँ, मैं agent को बँटे हुए tasks देता हूँ। DSL के मामले में, operator मैं खुद design करता हूँ और agent से उन्हें एक-एक करके implement करवाता हूँ
  अगर मैं उसे complex documents से शुरू करके पूरी चीज़ design करने को कहता, तो शायद Fable चमकता
  लेकिन जब भी मैं agent को ज़्यादा broad-scope का काम देता हूँ, वह millions of tokens जला देता है और questionable code बना देता है, जिसे अंत में मुझे समय लगाकर समझना पड़ता है
- मैंने https://github.com/gitsense/gsc-cli बनाया है, और मुझे लगता है कि उसके लगभग 80% code के लिए glm-4.7 ज़िम्मेदार है
  उदाहरण के लिए https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... जैसी files में मैंने इस्तेमाल किए गए model को explicitly बताया है
  4.7, go code में खास अच्छा नहीं था, इसलिए attribution में Gemini 3 Flash दिखना शुरू हुआ
  4.7, Cerebras द्वारा दिया गया model है, और मेरे लिए iteration speed कहीं ज़्यादा महत्वपूर्ण है
  MiMo v2.5.0-Pro इस्तेमाल करने के बाद, मुझे पूरा यकीन है कि Gemini 3 Flash जो कर पाया, वह 100% यह भी कर सकता था
  कुछ बार जब मैं अटक गया, तो मुझे Sonnet से explanation लेनी पड़ी, लेकिन Anthropic और OpenAI का वह गंदा राज़, जिसके बारे में वे नहीं बताएँगे, यह है कि अगर आपको coding आती है, तो models ईमानदारी से कहें तो काफी अच्छे हैं
  MiMo के साथ मेरा अनुभव और GLM 5.1 पर दूसरों की राय देखकर, मुझे लगता है कि अब मामला hardware competition का हो गया है
  जो लोग programming जानते हैं और AI से अपनी जानकारी को amplify करना चाहते हैं, उनके लिए Chinese models, Claude का 100% substitute हैं
  अब असली सवाल यह होगा कि कौन-सा provider सबसे तेज़ inference देता है
  MiMo-v2.5.0-Pro-Ultraspeed अच्छे results जल्दी देता है और पैसे भी जल्दी जलाता है
- ये models open weights हैं, लेकिन इस समय ज़्यादातर flagship models तक पहुँच practically सिर्फ third-party model providers के ज़रिए ही संभव है
  मुख्य अपवाद लगभग 30B parameters वाले models हैं, जिन्हें अभी भी consumer GPUs पर चलाया जा सकता है
  हालाँकि consumer GPUs भी पिछले कुछ सालों में इतने महंगे हो गए हैं कि उन्हें justify करना मुश्किल होता जा रहा है
- मैं बार-बार Chinese models पर switch करने की कोशिश करता हूँ, लेकिन आख़िर में उनके outputs को Claude से fix करवाना पड़ता है। functionality और style दोनों में ऐसा होता है, और अंत में मैं हमेशा वापस उसी पर लौट आता हूँ
  GPT को भी बार-बार आज़माता हूँ, और वह काफी solid है। बहुत तेज़ है और debugging भी शानदार करता है। लेकिन उसका code अक्सर ज़रूरत से ज़्यादा clever होता है, जिससे सिरदर्द होता है
  शायद इसे prompt से ठीक किया जा सकता है। Chinese models पर इससे थोड़ी मदद मिली है। पुराने image AI दिनों के “+good -bad” की तरह, बस कह दीजिए कि elegant तरीके से करो
  अभी भी इंसान को code समझ में आना चाहिए, और इस requirement को लगातार पूरा करने वाला सिर्फ Claude है
  फिर भी उम्मीद है कि किसी दिन Chinese labs में से कोई एक कोई खास secret sauce ढूँढ ले
  छोटे fixes के लिए DeepSeek Flash बहुत अच्छा है। ऐसा लगता है जैसे लगभग unlimited AI तुरंत साथ जुड़ा हुआ हो, जो काफ़ी बढ़िया है
- dwarf star आने के बाद से मैं DeepSeek v4 flash को लगभग हर काम के लिए primary model की तरह इस्तेमाल कर रहा हूँ
  इसे 128GB memory वाले M4 Max MacBook Pro पर चलाता हूँ
  आमतौर पर इसे server की तरह चलाता हूँ, और coding machine से Tailscale के ज़रिए connect करके Pi coding agent इस्तेमाल करता हूँ
  Qwen models इस्तेमाल करने की तुलना में यह एक बड़ा leap है, लेकिन इसमें vision capability नहीं है, इसलिए जब vision चाहिए होता है, तब अभी भी वही models चलाता हूँ
  पहले मैं GLM 4.7 flash को coding workhorse की तरह इस्तेमाल करता था, लेकिन non-vision वाले सारे काम अब पूरी तरह DeepSeek पर shift कर दिए हैं
सोच रहा हूँ कि क्या किसी ने Chinese open weights models से CCP elements हटाने की कोशिश की है। यह तंज़ नहीं है; मेरा मतलब है कि क्या किसी ने weight resilience testing या concept activation जैसी techniques से इन्हें गहराई से जाँचा है
उदाहरण के लिए, अगर CCP ने वास्तव में context-specific behavior embed करने की कोशिश की हो, तो ऐसे inputs पर model कैसी प्रतिक्रिया देता है जो deceptive या malicious behavior को trigger कर सकते हैं
मुझे नहीं पता कि अमेरिकी सरकारी applications में इस्तेमाल होने पर vulnerable code generate करने जैसे आरोपों को कभी वास्तव में साबित किया गया है या नहीं
geopolitical competition के इतने तीखे दौर में, ऐसे सवाल अव्यावहारिक नहीं हैं। यह हर देश पर लागू होने वाला सवाल है
- Hugging Face का TNG देखना चाहिए
  यह एक German consulting company है, और मैंने DeepSeek models को tune करके bias हटाने पर उनकी एक प्रस्तुति देखी थी। काफ़ी दिलचस्प था
  https://www.tngtech.com/en/about-us/news/release-of-deepseek...
  चिंता की बात सिर्फ code नहीं है, बल्कि potential messaging जैसी दूसरी चीज़ें भी हो सकती हैं
- यह ऐसा काम लगता है जिसमें heretic जैसे tools उपयोगी हो सकते हैं
  https://github.com/p-e-w/heretic
- कंपनियों द्वारा बनाए गए LLMs में भी corporate bias होने का संदेह हो सकता है। कुछ भी पूरी तरह सुरक्षित नहीं है

Kimi K2.7-Code: बेहतर टोकन दक्षता वाला ओपन सोर्स कोडिंग मॉडल

मॉडल अवलोकन

मॉडल सारांश

मूल्यांकन परिणाम

कोडिंग बेंचमार्क

एजेंट बेंचमार्क

मूल्यांकन शर्तें

बेंचमार्क संरचना

Native INT4 quantization

deployment

उपयोग का तरीका

API call की बुनियादी शर्तें

Chat Completion

visual content input

Preserve Thinking

Interleaved Thinking और multi-step tool calls

coding agent framework

local run examples

Transformers

vLLM

SGLang

लाइसेंस

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय