Kimi K2.7-Code: बेहतर टोकन दक्षता वाला ओपन सोर्स कोडिंग मॉडल
(huggingface.co)- यह एक एजेंट-आधारित कोडिंग मॉडल है जो लंबी अवधि के कोडिंग कार्यों और जटिल software engineering workflow को संभालता है, और Kimi K2.6 के आधार पर end-to-end task completion क्षमता तथा token usage efficiency को बेहतर बनाता है
- Kimi K2.6 की तुलना में reasoning token उपयोग लगभग 30% कम हुआ है, और Kimi Code Bench v2 का स्कोर 50.9 से 62.0, MCP Mark Verified का स्कोर 72.8 से 81.1 तक बढ़ा है
- मॉडल आर्किटेक्चर MoE आधारित है और इसमें कुल 1T parameters, 32B active parameters, 256K context length, तथा MoonViT vision encoder शामिल हैं
- deployment आधिकारिक API, vLLM, SGLang, और KTransformers के लिए उपलब्ध है, और Kimi-K2.5/Kimi-K2.6 जैसी ही architecture होने के कारण मौजूदा deployment तरीकों को दोबारा इस्तेमाल किया जा सकता है
- उपयोग के समय Thinking mode और preserve_thinking अनिवार्य हैं, image input समर्थित है, और video input फिलहाल केवल आधिकारिक API में experimental रूप से समर्थित है
मॉडल अवलोकन
- Kimi K2.7-Code Kimi K2.6 पर आधारित एक coding-केंद्रित agent model है, जिसे वास्तविक लंबी अवधि के coding कार्यों के लिए बेहतर बनाया गया है
- यह जटिल software engineering workflow के पूरे दायरे में end-to-end task completion क्षमता को मजबूत करता है
- Kimi K2.6 की तुलना में reasoning token उपयोग लगभग 30% कम करके token efficiency बढ़ाई गई है
- इसे image-text input, Transformers, Safetensors, conversational, custom_code जैसे tags के साथ उपलब्ध कराया गया है
मॉडल सारांश
- आर्किटेक्चर Mixture-of-Experts(MoE) है, कुल parameters 1T हैं और active parameters 32B हैं
- layers की संख्या Dense layer सहित 61 है, जिनमें Dense layer 1 है
- Attention Hidden Dimension 7168 है, और MoE Hidden Dimension प्रति expert 2048 है
- Attention Head 64 हैं, Experts 384 हैं, प्रति token चुने जाने वाले Experts 8 हैं, और Shared Expert 1 है
- vocabulary size 160K है और context length 256K है
- Attention mechanism MLA है, और activation function SwiGLU है
- vision encoder MoonViT है, और vision encoder parameters 400M हैं
मूल्यांकन परिणाम
-
कोडिंग बेंचमार्क
- Kimi Code Bench v2 में Kimi K2.6 ने 50.9, Kimi K2.7 Code ने 62.0, GPT-5.5 ने 69.0, और Claude Opus 4.8 ने 67.4 स्कोर किया
- Program Bench में Kimi K2.6 ने 48.3, Kimi K2.7 Code ने 53.6, GPT-5.5 ने 69.1, और Claude Opus 4.8 ने 63.8 स्कोर किया
- MLS Bench Lite में Kimi K2.6 ने 26.7, Kimi K2.7 Code ने 35.1, GPT-5.5 ने 35.5, और Claude Opus 4.8 ने 42.8 स्कोर किया
-
एजेंट बेंचमार्क
- Kimi Claw 24/7 Bench में Kimi K2.6 ने 42.9, Kimi K2.7 Code ने 46.9, GPT-5.5 ने 52.8, और Claude Opus 4.8 ने 50.4 स्कोर किया
- MCP Atlas में Kimi K2.6 ने 69.4, Kimi K2.7 Code ने 76.0, GPT-5.5 ने 79.4, और Claude Opus 4.8 ने 81.3 स्कोर किया
- MCP Mark Verified में Kimi K2.6 ने 72.8, Kimi K2.7 Code ने 81.1, GPT-5.5 ने 92.9, और Claude Opus 4.8 ने 76.4 स्कोर किया
-
मूल्यांकन शर्तें
- अलग से उल्लेख न होने पर Kimi K2.7 Code और K2.6 का परीक्षण Kimi Code CLI में Thinking mode चालू करके, temperature 1.0, top-p 0.95, और 262,144 token context length के साथ किया गया
- GPT-5.5 को Codex के xhigh mode में चलाया गया, और Opus 4.8 को Claude Code के xhigh mode में चलाया गया
- इन भिन्नताओं को छोड़कर, सभी benchmarks का मूल्यांकन समान शर्तों में किया गया
-
बेंचमार्क संरचना
- Kimi Code Bench V2 वास्तविक कार्यों में coding agents का मूल्यांकन करने वाला एक internal benchmark है, जो 10 से अधिक प्रमुख programming languages और पूरे production tech stack को कवर करता है
- Kimi Code Bench V2 में internal engineering use cases, production incidents, और वास्तविक open source projects के कार्य शामिल हैं
- Program Bench केवल compiled binaries और documentation के आधार पर program behavior को पुन: निर्मित करने की मांग करता है, और इसमें 200 tasks तथा 248,000 से अधिक fuzz-generated behavior tests का उपयोग होता है
- MLS-Bench यह मूल्यांकन करता है कि AI systems सामान्यीकृत और scalable ML methods बना सकते हैं या नहीं, और MLS-Bench-Lite इसका आधिकारिक 30-task subset है
- Kimi Claw 24/7 Bench निरंतर multi-day collaboration में long-term agent performance का मूल्यांकन करने वाला internal benchmark है, जिसमें 17 professional scenarios और 610 evaluation points शामिल हैं
- MCP-Atlas scalable MCP के माध्यम से वास्तविक tool-use tasks में LLM performance का मूल्यांकन करता है
- MCPMark-Verified, MCPMark का human-verified संस्करण है, जो Notion, GitHub, Filesystem, Postgres, Playwright जैसे 5 वास्तविक server environments में MCP tool use का मूल्यांकन करता है
Native INT4 quantization
- Kimi-K2.7-Code, Kimi-K2-Thinking की तरह native int4 quantization विधि अपनाता है
deployment
- Kimi-K2.7-Code API को https://platform.moonshot.ai पर एक्सेस किया जा सकता है
- आधिकारिक API OpenAI/Anthropic-compatible API प्रदान करता है
- अनुशंसित inference engines vLLM, SGLang, और KTransformers हैं
- Kimi-K2.7-Code की architecture, Kimi-K2.5/Kimi-K2.6 जैसी ही है, इसलिए deployment method को सीधे पुन: उपयोग किया जा सकता है
transformersversion requirement>=4.57.1, <5.0.0है- deployment examples Model Deployment Guide में देखे जा सकते हैं
उपयोग का तरीका
-
API call की बुनियादी शर्तें
- उपयोग demo आधिकारिक API call method पर आधारित है
- Kimi-K2.7-Code, Thinking और
preserve_thinkingको True पर अनिवार्य करता है - vLLM या SGLang पर deploy किए गए third-party API में video content chat फिलहाल केवल आधिकारिक API में समर्थित experimental फीचर है
- Thinking mode के लिए अनुशंसित
temperature1.0है और अनुशंसितtop_p0.95है - Instant mode समर्थित नहीं है
-
Chat Completion
- Chat Completion example, K2.7-Code API को Thinking mode में call करता है
- example code
openaiclient सेclient.chat.completions.createको call करता है औरmax_tokens=4096सेट करता है - response में
response.choices[0].message.reasoningऔरresponse.choices[0].message.contentको output किया जाता है
-
visual content input
- K2.7-Code image और video input को support करता है
- image input example में image को base64 में encode करके
image_urlमें भेजा जाता है औरmax_tokens=8192के साथ response generate किया जाता है - video input example में mp4 file को base64 में encode करके
video_urlमें भेजा जाता है - video chat फिलहाल केवल आधिकारिक API में समर्थित experimental फीचर है
-
Preserve Thinking
- Kimi K2.7 Code
preserve_thinkingmode को अनिवार्य करता है और multi-turn interaction में पूरा reasoning content बनाए रखता है preserve_thinking, coding agent scenarios में performance बढ़ाता है- यह feature डिफ़ॉल्ट रूप से enabled है और इसे disable नहीं किया जा सकता
- कुछ API
reasoning_contentको support नहीं कर सकते, इसलिएreasoningको आज़माया जा सकता है
- Kimi K2.7 Code
-
Interleaved Thinking और multi-step tool calls
- K2.7-Code, K2 Thinking की तरह Interleaved Thinking और Multi-Step Tool Call design साझा करता है
- उपयोग example के लिए K2 Thinking documentation देखें
-
coding agent framework
- Kimi K2.7-Code, agent framework के रूप में Kimi Code CLI के साथ उपयोग करने पर सबसे अच्छा काम करता है
- Kimi Code CLI https://www.kimi.com/code पर उपलब्ध है
local run examples
-
Transformers
- Transformers में
pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True)तरीके से high-level pipeline बनाई जा सकती है - model को सीधे
AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")तरीके से load किया जा सकता है
- Transformers में
-
vLLM
- vLLM को
pip install vllmसे install किया जाता है औरvllm serve "moonshotai/Kimi-K2.7-Code"से server शुरू किया जाता है - call example में OpenAI-compatible API endpoint
http://localhost:8000/v1/chat/completionsका उपयोग होता है - Docker Model Runner में
docker model run hf.co/moonshotai/Kimi-K2.7-Codeसे चलाया जाता है
- vLLM को
-
SGLang
- SGLang को
pip install sglangसे install किया जाता है औरpython3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"से server शुरू किया जाता है - call example में OpenAI-compatible API endpoint
http://localhost:30000/v1/chat/completionsका उपयोग होता है - Docker run example में GPU, shared memory, Hugging Face cache, और
HF_TOKENenvironment variable सेट किए जाते हैं
- SGLang को
लाइसेंस
- code repository और model weights, Modified MIT License के तहत वितरित किए जाते हैं
1 टिप्पणियां
Hacker News की राय
संशोधित लाइसेंस क्लॉज़ पढ़कर हंसी आई। असल में यह MIT लाइसेंस में पुराने BSD वाला एक advertising क्लॉज़ जोड़ने जैसा है, और मासिक active users या revenue से अलग, अगर इसे product में इस्तेमाल करो तो उन्हें “advertise” करने की मांग के करीब है
सच कहूं तो यह एक उचित अनुरोध लगता है
मैंने Kimi K2.7-code को काफी साधारण निर्देश देकर Fil-C OpenSSL patch को 3.3.1 से 3.5.7 पर rebase कराया, और यह सफल लगता है
patch का आकार 177KB था, इसलिए यह कोई छोटा बदलाव नहीं था, और शुरुआत में यह साफ-सुथरे तरीके से apply भी नहीं हुआ, इसलिए agent को काफी वास्तविक काम करना पड़ा
मैंने सिर्फ 3.3.1 target patch, build command, 3.5.7 path, और change document link(https://fil-c.org/constant_time_crypto) दिया था
हालांकि मैंने अपना coding agent T800 इस्तेमाल किया, जो public नहीं है, और जिसे पहले K2.5 के लिए काफी test और tune किया जा चुका था
API usage fee शायद $5~$10 के बीच थी। सुधार: OpenSSH नहीं, OpenSSL है
मेरी निजी राय में open code या router इस्तेमाल करते समय एक स्तर के बाद models के बीच का अंतर बहुत महसूस नहीं होता। महंगे और अस्पष्ट Gemini जैसे models अपवाद हैं
इस लिहाज से चीन के models काफी अच्छे हैं। मैं आमतौर पर उनसे function या method unit पर code लिखवाता हूं, फिर design और assembly करता हूं
GPT series ज्यादा सावधान और बेहतर तो है, लेकिन फर्क इतना बड़ा है या नहीं, यह साफ नहीं। workflow पर निर्भर करेगा, लेकिन अगर सख्ती से handle किया जाए तो क्या वास्तव में बड़ा अंतर है, इस पर संदेह है
MacBook M1 Pro को heating pad बनाते हुए Qwen 3.6 35B A3B MTP चलाना कुछ हद तक सफल रहा
Gemini models को “local” की तरह इस्तेमाल करने की कोशिश में भी ऐसा ही मसला था: वे effort को छोटे टुकड़ों में काटते हैं, गलतियां ज्यादा होती हैं और turns बढ़ जाते हैं
दूसरी तरफ, Fable के बारे में जो कहा जाता है कि वह लगातार “proactive” है, उसे देखकर लगता है कि strong branding और effective monetization हो तो बिल्कुल उलटी दिशा भी संभव है
अगर एक consistent design पहले से मौजूद हो, और वही कठिन हिस्सा है, तो उसे काफी छोटे model में भी डालकर लगभग वही quality मिल सकती है
एक बार में पूरा नहीं होता, लेकिन यह तेज और सस्ता है, इसलिए आखिरकार फायदेमंद पड़ता है। और local पर भी संभव है
इसलिए ऐसा साफ तौर पर बनाना पड़ता है कि commented-out tests build तोड़ दें। Anthropic या OpenAI models में मुझे व्यक्तिगत रूप से ऐसी समस्या नहीं हुई
यह कुछ वैसा है जैसे पहले cars को “जापानी कार” कहा जाता था, लेकिन अब उसका लगभग कोई मतलब नहीं रहा, और लोग बस Toyota, Honda, Lexus कहते हैं
अगर किसी ने opencode + Kimi K2.6/2.7 को Claude Code से तुलना करके इस्तेमाल किया है, तो मैं सच में जानना चाहूँगा/चाहूँगी। क्या बेहतर है, क्या खराब है, और लागत की तुलना कैसी है
अभी मैं 5x Max प्लान के लिए $100 दे रहा/रही हूँ, लेकिन Fable इस्तेमाल की सीमा को काफ़ी जल्दी खत्म कर देता है, और Opus की तुलना में इसे रात-दिन जैसा फ़र्क भी कहना मुश्किल है
मैं इसे ज़्यादातर side project में इस्तेमाल करता/करती हूँ, इसलिए $100 का बिल भी काफ़ी बड़ा लगता है, और इससे ज़्यादा नहीं देना चाहता/चाहती
Claude Code बेहतर है। लेकिन opencode + Kimi 2.6 का कामचलाऊ होना भी एक बड़ा पॉइंट है
अगर आपको ठीक-ठीक पता हो कि क्या चाहिए और सिर्फ़ simple code writing करवानी हो, तो DeepSeek, Kimi जैसे लोकप्रिय मॉडल भी ज़्यादातर ठीक रहते हैं और Anthropic मॉडल से बहुत अलग नहीं लगते
दूसरी तरफ़ Opus, DeepSeek की तुलना में इरादे को बहुत बेहतर समझता है। DeepSeek इस्तेमाल करते समय prompt बहुत ज़्यादा सटीक लिखना पड़ता है, और ढीला-ढाला लिखें तो वह अक्सर अजीब दिशा में चला जाता है
Kimi इन दोनों के बीच है। यह “loose prompt” वाले flow को कुछ हद तक वापस ले आता है, और DeepSeek की तुलना में इसकी planning पर ज़्यादा भरोसा किया जा सकता है
Claude Code जैसा work flow संभव है, लेकिन कुल मिलाकर हर चीज़ थोड़ी-थोड़ी कमज़ोर है। context length, error की संख्या, decision-making, recommendation, debugging क्षमता—सब कुछ थोड़ा कम है
usage के हिसाब से देखें तो $100 वाला Claude प्लान वास्तव में cost-effective है। token unit price के हिसाब से Kimi बहुत सस्ता है, लेकिन Claude subscription शायद काफ़ी subsidized है, इसलिए $100 में API से खरीदे जा सकने वाले token से कहीं ज़्यादा token मिलते हैं
आखिरकार, समान usage pattern में opencode + Kimi और Claude Code की लागत मिलती-जुलती हो सकती है
DeepSeek और सस्ता है और cache token तो हैरान करने वाली हद तक सस्ते हैं, लेकिन Claude Code से शिफ्ट होने पर अपनी आदतों के मुताबिक काम करने का तरीका बदलना पड़ सकता है
side project के लिए $10 Opencode Go प्लान में OpenRouter जैसी जगह से DeepSeek v4 क्रेडिट $10 जोड़ना काफ़ी practical setup लगता है
Kimi किसी interview दे रहे developer जैसा लगता है, इसलिए ज़्यादा मज़ेदार है। समस्या पर उसके reasoning process को देखना वैसा ही लगता है जैसा मैं whiteboard session में समझाता/समझाती हूँ। वह “wait” बहुत ज़्यादा बोलता है, जो मज़ेदार है
Claude ज़्यादा उस कर्मचारी या employee team जैसा है जिसे पहले ही hire किया जा चुका हो। वह शुरुआत में लंबी व्याख्या नहीं देता, सिर्फ़ ज़रूरत होने पर सवाल पूछता है, फिर एक comprehensive report या plan दे देता है
मेरे हिसाब से OpenCode बेहतर harness है। लागत के बारे में सीधे तुलना नहीं कर सकता/सकती, क्योंकि मैंने एक ही prompt को दोनों तरफ़ बिल्कुल एक जैसा चलाकर नहीं देखा
हाल ही में मैंने Kimi से ZenC programming language के लिए libpq wrapper बनवाया (https://github.com/nobleach/zenc-postgres), इसमें लगभग एक घंटा लगा और लागत लगभग $4 थी
DeepSeek-V4-Pro काफ़ी अच्छा है, और जिन tasks या छोटे कामों को आप Haiku या Sonnet को देते, उनके लिए DS4-Flash इस्तेमाल किया जा सकता है। बस $10 prepaid से साइन अप करना होता है
OpenCode Go में महीने के $5 देकर Qwen-3.7-Max को design, planning, architecture, और कठिन problem solving के लिए इस्तेमाल किया जा सकता है। यह DeepSeek की तुलना में Opus 3.6 या 3.7 के ज़्यादा करीब लगता है, और जो मैंने पाया उनमें सबसे मिलता-जुलता था
OpenAI Codex में $20 monthly plan के साथ GPT-5.5 को API के रूप में design, planning, architecture, problem solving, और commit writing में इस्तेमाल किया जा सकता है। बहुत कठिन समस्याओं के लिए $100 देकर GPT-5.5-Pro chat में कॉपी-पेस्ट भी किया जा सकता है
Xiaomi MiMo-2.5-Pro के लिए किसी दोस्त से $2 referral code लेकर 72 सेंट का free credit मिल सकता है। इसकी कीमत DeepSeek जितनी है, और क्षमता के मामले में Sonnet और Opus के बीच कहीं आता है। UltraSpeed beta के लिए आवेदन करना भी ठीक रहेगा
OpenCode या ohmypi में इन मॉडलों को तुरंत बदल-बदलकर इस्तेमाल करके अपने लिए सबसे बेहतर विकल्प खोजा जा सकता है। मैं CodexBar से लगभग real-time usage देखता/देखती हूँ
हल्के उपयोगकर्ताओं या programming beginners के लिए Cursor का $20 प्लान Composer-2.5 और Composer-2.5-Fast के साथ शुरू करने के लिए अच्छा है। इसमें API quota भी है, इसलिए Cursor के बाहर OpenCode या ohmypi से Opus-4.x या GPT-5.5-Pro तक पहुँचा जा सकता है
अगर आप Grok या Twitter इस्तेमाल करते हैं, तो महीने के $30 SuperGrok में अच्छा vision model मिलता है, और मैंने इसे frontend automated testing में इस्तेमाल किया है। लेकिन अभी मैं सामान्य Mac पर local Qwen-3-VL की तरफ़ शिफ्ट कर रहा/रही हूँ। अगर आप तकनीक में कम सहज हैं, तो unreach Mac पर local model hosting आसान बना देता है
अगर आपके पास RTX 5090 जैसी शक्तिशाली GPU है, तो Qwen-3.6 को local पर आज़माना भी ठीक रहेगा। ollama या llama-swap से यह अपेक्षाकृत आसान है
नया Kimi मैंने अभी तक इस्तेमाल नहीं किया, लेकिन 3 पेशेवर developers, 1 graphic designer जो Midjourney और Grok Imagine बहुत इस्तेमाल करता/करती है, और 1 non-technical user जो requirement gathering और implementation tracking के लिए ohmypi इस्तेमाल करता/करती है—ऐसी टीम चलाते हुए मैं प्रति कर्मचारी मासिक लागत $200 से कम रख रहा/रही हूँ
थोड़ा और प्रयास किया जाए तो इसे प्रति कर्मचारी महीने के $75 के क़रीब भी लाया जा सकता है
जो एकमात्र feature काम नहीं करता वह webfetch और web search है, लेकिन मैंने agent को ddg MCP और web fetch/search pre-hook के ज़रिए bypass करके इसका विकल्प बना लिया है
memory, caching आदि बाकी सब ठीक से काम करते हैं
planning में Qwen, Opus के काफ़ी करीब है, लेकिन Fable साफ़ तौर पर बेहतर है
coding में अगर Opus plan लिख दे, तो Kimi और DeepSeek के नतीजे Opus से लगभग अलग नहीं लगते
सबसे बड़ा फ़र्क output rhythm में है। उदाहरण के लिए Kimi लंबे समय तक सोचने के बाद बहुत सारा text तेज़ी से आउटपुट करता है
अभी मैं research और planning के लिए Fable, और coding के लिए DeepSeek v4 flash टेस्ट कर रहा/रही हूँ। नतीजे Opus + DeepSeek v4 pro जैसे लगते हैं और कुल लागत कम होनी चाहिए
अच्छा है, और जो ज़्यादातर काम इसे दिए जाते हैं उन्हें अच्छी तरह संभाल लेता है, लेकिन संज्ञानात्मक रूप से जटिल कामों में विफल हो जाता है। अक्सर अटक जाता है। फिर भी इसकी कीमत लगभग $6 प्रति माह है।
एक सीमा-बिंदु होता है जहाँ “सबसे बेहतरीन” मॉडल उतना महत्वपूर्ण नहीं रह जाता, और मुझे लगता है कि हम उससे बहुत दूर नहीं हैं। Fable अभी वाकई बहुत अच्छा है, लेकिन अगर लगभग 1 साल बाद Kimi उसकी बराबरी कर ले, तो भले ही Fable6 उससे कहीं बेहतर हो, अगर उसकी कीमत 1/10 हो तो शायद मैं Kimi ही इस्तेमाल करूँगा
पहले Opus 4.5 को देखकर मैंने सोचा था, “यह अगर इतना अच्छा है तो 6~12 महीनों में चीनी मॉडल भी इतने अच्छे और सस्ते हो जाएंगे, तब वही इस्तेमाल करूँगा,” लेकिन मैं गलत निकला। अभी भी मैं Opus 4.7/8 और Fable के लिए प्रीमियम दे रहा हूँ
फिर भी किसी न किसी बिंदु पर मॉडल बस आपकी मनचाही चीज़ें कर पाने लायक हो जाएंगे, और उसके बाद कीमत घटाने की प्रतिस्पर्धा शुरू होगी
अब जब चीनी कंपनियों को बहुत अच्छे Fable टोकन तक पहुंच मिल सकती है, उम्मीद है वह प्रतिस्पर्धा तेज होगी
इसलिए token unit price ज्यादा होने पर भी बेहतर मॉडल असल में सस्ता हो सकता है
अगर Opus, Kimi K2.6 या दूसरे चीनी मॉडलों से 5 गुना महंगा है, लेकिन बस थोड़ा-सा बेहतर है, तो मुझे हमेशा यह जिज्ञासा रही कि Anthropic जैसी कंपनियाँ प्रतिस्पर्धी कैसे बनी रहती हैं
मेरा अनुमान है कि अमेरिकी कंपनियाँ डेटा चीन की तरफ नहीं भेज सकतीं, और यह बात समझ में आती है। लेकिन क्या वही सच में “moat” है?
यह बात मैं Kimi मॉडल काफी बार इस्तेमाल करने और आम तौर पर उसे पसंद करने वाले व्यक्ति के रूप में कह रहा हूँ
DeepSWE जैसे बेंचमार्क, जिन्हें अभी गेम नहीं किया गया है, उनमें Kimi K2.6, Claude Sonnet 4.6($3/$15) से काफी पीछे है, और GPT 5.4 Mini($0.75/$4.50) से भी थोड़ा पीछे है
यह साफ है कि Kimi मॉडल कई coding tasks में बहुत अच्छे हैं, और open weight मॉडलों में इनकी quality सबसे अच्छी है
लेकिन Sonnet/Opus जैसे कुल मिलाकर नतीजे पाने के लिए औसतन कहीं ज्यादा टोकन खर्च करने पड़ते हैं और मॉडल को ज्यादा manage करना पड़ता है
इसलिए token per price नहीं, बल्कि पूरी process पर कुल कितना खर्च आता है, यह देखना चाहिए
और जहाँ बहुत पैसा खर्च होता है, वहाँ evaluation चलाने वाले पर्याप्त rational लोग भी होते हैं, इसलिए “थोड़ा बेहतर” सिर्फ एक vague feeling भर हो, ऐसा ज़रूरी नहीं
हाँ, मैं खुद जिन evaluation suites को देख सकता हूँ, वे सीमित हैं। यह भी हो सकता है कि सब लोग irrational हों और Anthropic उसका फायदा उठा रहा हो
Kimi और दूसरे open source मॉडल SWE-bench जैसी जगहों पर अच्छे score ला सकते हैं, लेकिन असल इस्तेमाल में फर्क महसूस होता है
अजीब बात यह है कि सब लोग API pricing को आधार बनाकर कहते हैं कि Claude subscription subsidized है, लेकिन असली Claude inference cost किसी को नहीं पता, और चीनी providers भी सस्ता inference दे सकते हैं। तो फिर लोग ऐसा क्यों मानते हैं कि Claude ऐसा नहीं कर सकता?
enterprise ग्राहकों के लिए अलग, non-public API pricing contracts भी हो सकते हैं। संभव है कि हमें सिर्फ ऊँची सूचीबद्ध कीमतें दिख रही हों
ऐसे कामों में अंतर खाई जैसा बड़ा है
ठीक से टेस्ट करने पर यह काफी अच्छा सुधार लगता है। उसी काम में कम टोकन इस्तेमाल होना ही इतना बड़ा कारण है कि जब open model चाहिए हो, तब K2.6 की जगह इसे चुना जाए
अगर कोई नया मॉडल DeepSeek v4 से 20~30% तक साफ तौर पर बेहतर नहीं है, और उसका token per price DeepSeek से ज्यादा है, तो मुझे लगता है वह लगभग अपने-आप कम-इस्तेमाल होने वाला मॉडल बन जाएगा। हाँ, planning के लिए शायद चल सकता है
अभी तक open weights/open source models के साथ बहुत सहज नहीं हूँ। अगर कोई इन्हें full-time इस्तेमाल कर रहा है, तो उसकी setup और performance के बारे में सुनना चाहूँगा। संगठन को Anthropic products से migrate करने पर विचार कर रहा हूँ
model quality में बहुत बड़ा अंतर नहीं है, लेकिन cost का अंतर बेतुका स्तर का है। कम से कम जिस तरह मैं agents इस्तेमाल करता हूँ, उसमें तो ऐसा ही है
कल का उदाहरण लें, मैं complex technical documents को search करने के लिए एक छोटा DSL बना रहा था और उसमें एक छोटा operator जोड़ने के लिए Fable आज़मा रहा था
Fable ने $13 जला दिए और एक solution दिया, लेकिन objectively वह उसी काम के लिए DeepSeek v4 द्वारा $1.7 में किए गए काम से बेहतर नहीं था
हाँ, मैं agent को बँटे हुए tasks देता हूँ। DSL के मामले में, operator मैं खुद design करता हूँ और agent से उन्हें एक-एक करके implement करवाता हूँ
अगर मैं उसे complex documents से शुरू करके पूरी चीज़ design करने को कहता, तो शायद Fable चमकता
लेकिन जब भी मैं agent को ज़्यादा broad-scope का काम देता हूँ, वह millions of tokens जला देता है और questionable code बना देता है, जिसे अंत में मुझे समय लगाकर समझना पड़ता है
उदाहरण के लिए https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r... जैसी files में मैंने इस्तेमाल किए गए model को explicitly बताया है
4.7,
gocode में खास अच्छा नहीं था, इसलिए attribution मेंGemini 3 Flashदिखना शुरू हुआ4.7, Cerebras द्वारा दिया गया model है, और मेरे लिए iteration speed कहीं ज़्यादा महत्वपूर्ण है
MiMo v2.5.0-Pro इस्तेमाल करने के बाद, मुझे पूरा यकीन है कि Gemini 3 Flash जो कर पाया, वह 100% यह भी कर सकता था
कुछ बार जब मैं अटक गया, तो मुझे Sonnet से explanation लेनी पड़ी, लेकिन Anthropic और OpenAI का वह गंदा राज़, जिसके बारे में वे नहीं बताएँगे, यह है कि अगर आपको coding आती है, तो models ईमानदारी से कहें तो काफी अच्छे हैं
MiMo के साथ मेरा अनुभव और GLM 5.1 पर दूसरों की राय देखकर, मुझे लगता है कि अब मामला hardware competition का हो गया है
जो लोग programming जानते हैं और AI से अपनी जानकारी को amplify करना चाहते हैं, उनके लिए Chinese models, Claude का 100% substitute हैं
अब असली सवाल यह होगा कि कौन-सा provider सबसे तेज़ inference देता है
MiMo-v2.5.0-Pro-Ultraspeed अच्छे results जल्दी देता है और पैसे भी जल्दी जलाता है
मुख्य अपवाद लगभग 30B parameters वाले models हैं, जिन्हें अभी भी consumer GPUs पर चलाया जा सकता है
हालाँकि consumer GPUs भी पिछले कुछ सालों में इतने महंगे हो गए हैं कि उन्हें justify करना मुश्किल होता जा रहा है
GPT को भी बार-बार आज़माता हूँ, और वह काफी solid है। बहुत तेज़ है और debugging भी शानदार करता है। लेकिन उसका code अक्सर ज़रूरत से ज़्यादा clever होता है, जिससे सिरदर्द होता है
शायद इसे prompt से ठीक किया जा सकता है। Chinese models पर इससे थोड़ी मदद मिली है। पुराने image AI दिनों के “+good -bad” की तरह, बस कह दीजिए कि elegant तरीके से करो
अभी भी इंसान को code समझ में आना चाहिए, और इस requirement को लगातार पूरा करने वाला सिर्फ Claude है
फिर भी उम्मीद है कि किसी दिन Chinese labs में से कोई एक कोई खास secret sauce ढूँढ ले
छोटे fixes के लिए DeepSeek Flash बहुत अच्छा है। ऐसा लगता है जैसे लगभग unlimited AI तुरंत साथ जुड़ा हुआ हो, जो काफ़ी बढ़िया है
इसे 128GB memory वाले M4 Max MacBook Pro पर चलाता हूँ
आमतौर पर इसे server की तरह चलाता हूँ, और coding machine से Tailscale के ज़रिए connect करके Pi coding agent इस्तेमाल करता हूँ
Qwen models इस्तेमाल करने की तुलना में यह एक बड़ा leap है, लेकिन इसमें vision capability नहीं है, इसलिए जब vision चाहिए होता है, तब अभी भी वही models चलाता हूँ
पहले मैं GLM 4.7 flash को coding workhorse की तरह इस्तेमाल करता था, लेकिन non-vision वाले सारे काम अब पूरी तरह DeepSeek पर shift कर दिए हैं
सोच रहा हूँ कि क्या किसी ने Chinese open weights models से CCP elements हटाने की कोशिश की है। यह तंज़ नहीं है; मेरा मतलब है कि क्या किसी ने weight resilience testing या concept activation जैसी techniques से इन्हें गहराई से जाँचा है
उदाहरण के लिए, अगर CCP ने वास्तव में context-specific behavior embed करने की कोशिश की हो, तो ऐसे inputs पर model कैसी प्रतिक्रिया देता है जो deceptive या malicious behavior को trigger कर सकते हैं
मुझे नहीं पता कि अमेरिकी सरकारी applications में इस्तेमाल होने पर vulnerable code generate करने जैसे आरोपों को कभी वास्तव में साबित किया गया है या नहीं
geopolitical competition के इतने तीखे दौर में, ऐसे सवाल अव्यावहारिक नहीं हैं। यह हर देश पर लागू होने वाला सवाल है
यह एक German consulting company है, और मैंने DeepSeek models को tune करके bias हटाने पर उनकी एक प्रस्तुति देखी थी। काफ़ी दिलचस्प था
https://www.tngtech.com/en/about-us/news/release-of-deepseek...
चिंता की बात सिर्फ code नहीं है, बल्कि potential messaging जैसी दूसरी चीज़ें भी हो सकती हैं
https://github.com/p-e-w/heretic