• लॉन्ग-होराइज़न कोडिंग और एजेंटिक कार्यों में प्रदर्शन बढ़ाने वाला मॉडल, कई भाषाओं और फ्रंटएंड·devops·परफॉर्मेंस ऑप्टिमाइज़ेशन समेत पूरे क्षेत्र में generalization performance को मजबूत करता है
  • जटिल इंजीनियरिंग कार्यों को persistent coding के रूप में संभालते हुए, हज़ारों tool calls और 12 घंटे से अधिक लगातार रन के बाद Zig inference optimization और exchange-core के पूर्ण पुनर्गठन में throughput में बड़ा सुधार दर्ज किया
  • साधारण prompts को पूर्ण फ्रंटएंड इंटरफेस में बदलता है और image·video generation tools का भी उपयोग करता है, साथ ही authentication और database कार्यों सहित सरल full-stack workflows को सपोर्ट करता है
  • Agent Swarm आर्किटेक्चर को 300 sub-agents और 4,000 coordination steps तक स्केल कर search·research·document writing·file generation कार्यों को parallel में चलाता है, और PDF·slides·spreadsheets·Word documents के format और style को reusable skills में बदलता है
  • proactive agents और Claw Groups तक दायरा बढ़ाकर लंबे समय तक autonomous operation, multi-agent collaboration, और task reallocation करता है, तथा benchmarks और enterprise beta tests में coding·tool calling·long-run reliability में सुधार की पुष्टि हुई

लॉन्ग-होराइज़न कोडिंग

  • लॉन्ग-होराइज़न कोडिंग कार्यों में प्रदर्शन सुधार की पुष्टि, Rust·Go·Python जैसी कई भाषाओं और फ्रंटएंड·devops·परफॉर्मेंस ऑप्टिमाइज़ेशन जैसे कई कार्यों में generalization performance को मजबूत किया गया
    • आंतरिक coding benchmark Kimi Code Bench में जटिल end-to-end कार्यों के पूरे दायरे में Kimi K2.5 की तुलना में बड़ा सुधार दर्ज किया गया
  • जटिल इंजीनियरिंग कार्यों में persistent coding का निष्पादन
    • Mac लोकल वातावरण में Qwen3.5-0.8B मॉडल का डाउनलोड और deployment सफल
    • अपेक्षाकृत niche भाषा Zig में model inference को implement और optimize कर, out-of-distribution generalization performance साबित की
    • 4,000 से अधिक tool calls, 12 घंटे से अधिक लगातार रन, और 14 iterations के बाद throughput को लगभग 15 tokens/sec से बढ़ाकर लगभग 193 tokens/sec तक पहुंचाया
    • अंतिम गति LM Studio की तुलना में लगभग 20% तेज़
  • 8 साल पुराने ओपन सोर्स वित्तीय matching engine exchange-core का पूर्ण पुनर्गठन किया गया
    • 13 घंटे के रन के दौरान 12 optimization strategies दोहराईं, और 1,000 से अधिक tool calls के साथ 4,000 से अधिक lines of code को सटीक रूप से संशोधित किया
    • CPU और memory allocation के flame graph विश्लेषण से छिपे bottlenecks की पहचान की
    • core thread topology को 4ME+2RE से 2ME+1RE में पुनर्गठित किया
    • पहले से परफॉर्मेंस सीमा के करीब पहुंच चुके engine में median throughput 185% बढ़ा (0.43→1.24 MT/s), और performance throughput 133% बढ़ा (1.23→2.86 MT/s)
  • beta test की enterprise evaluations में भी लॉन्ग-होराइज़न coding reliability और tool calling quality पर कई सकारात्मक प्रतिक्रियाएँ दर्ज हुईं
    • Baseten ने leading closed models के समान coding task performance, third-party frameworks की समझ पर आधारित मजबूत tool calling quality, और जटिल व लंबे इंजीनियरिंग कार्यों के लिए उपयुक्तता का उल्लेख किया
    • Blackbox ने long-horizon·agentic coding workflows में ओपन सोर्स मॉडल के लिए नया मानक, जटिल multi-step task handling, उच्च code quality, लंबी sessions की stability, और non-obvious bugs पकड़ने की क्षमता का उल्लेख किया
    • CodeBuddy ने K2.5 की तुलना में code generation accuracy में 12% वृद्धि, long-context stability में 18% सुधार, और tool calling success rate 96.60% दर्ज की
    • Factory ने अपने benchmark के साथ side-by-side evaluation में 15% improvement की रिपोर्ट दी
    • Fireworks ने long-horizon reliability और instruction following ability को सबसे बड़ा सुधार बिंदु बताया
    • Hermes Agent ने tool calling और agent loops की घनिष्ठता, coding improvements, और creative scope के विस्तार का उल्लेख किया
    • Kilo ने कम लागत पर SOTA-स्तरीय प्रदर्शन और पूरे codebase में long-context कार्यों की ताकत का उल्लेख किया
    • Ollama ने coding और agent tools के लिए उपयुक्तता, लंबी multi-step sessions की stability, और मौजूदा integrations के साथ immediate compatibility का उल्लेख किया
    • OpenCode ने task decomposition और tool calling की stability, iteration overhead में कमी, और end-to-end experience की reliability का उल्लेख किया
    • Qoder ने tool calling और model call frequency में वृद्धि, task execution के दौरान अधिक proactiveness, और user interruptions व latency में कमी का उल्लेख किया
    • Vercel ने Next.js benchmark में 50% से अधिक सुधार, platform पर top-tier performance, और cost efficiency के आधार पर agentic coding व frontend generation के लिए उपयुक्तता का उल्लेख किया

कोडिंग-केंद्रित डिज़ाइन

  • मजबूत coding capability के आधार पर साधारण prompts को पूर्ण फ्रंटएंड इंटरफेस में बदला जा सकता है
    • aesthetic hero section, interactive elements, scroll-triggered effects और समृद्ध animations सहित structured layouts का निर्माण
  • image·video generation tools के उपयोग की क्षमता के आधार पर visually consistent assets के निर्माण का समर्थन
    • इससे उच्च गुणवत्ता और अधिक आकर्षक hero section बनाने में योगदान मिलता है
  • static frontend से आगे बढ़कर सरल full-stack workflows तक विस्तार
    • authentication, user interaction, और database कार्य शामिल
    • transaction records या session management जैसे lightweight use cases का समर्थन
  • आंतरिक Kimi Design Bench का निर्माण
    • Visual Input Tasks, Landing Page Construction, Full-Stack Application Development, General Creative Programming इन चार श्रेणियों से बना
    • Google AI Studio की तुलना में कई श्रेणियों में promising results और अच्छा performance दर्ज किया गया
  • K2.6 Agent के उदाहरण outputs प्रदान किए गए
    • एक prompt और पहले से configured harness·tools का उपयोग कर परिणाम तैयार किए गए
    • aesthetics के लिहाज़ से समृद्ध interaction वाले सुंदर frontend designs शामिल
    • functionality के लिहाज़ से built-in database और authentication शामिल
    • tool usage के लिहाज़ से image·video generation tools का उपयोग कर polished websites शामिल

उन्नत Agent Swarm

  • केवल vertical scaling नहीं, बल्कि horizontal scaling पर केंद्रित आर्किटेक्चर अपनाया गया
    • Agent Swarm कार्यों को dynamic तरीके से heterogeneous subtasks में तोड़ता है, और स्वयं बनाए गए domain-specific agents उन्हें parallel में execute करते हैं
  • K2.5 Agent Swarm research preview के आधार पर, Kimi K2.6 Agent Swarm में अनुभव में गुणात्मक छलांग प्रस्तुत की गई
    • broad search और deep research का संयोजन
    • large-scale document analysis और long-form writing का संयोजन
    • कई formats में content generation को parallel में चलाना
    • एक ही autonomous run के भीतर documents·websites·slides·spreadsheets को कवर करने वाले end-to-end outputs प्रदान करना
  • आर्किटेक्चर की horizontal scaling capacity बढ़ाई गई
    • 300 sub-agents एक साथ 4,000 coordination steps चलाते हैं
    • K2.5 के 100 sub-agents और 1,500 steps की तुलना में बड़ा विस्तार
    • बड़े पैमाने के parallelization से end-to-end latency कम हुई, output quality बेहतर हुई, और Agent Swarm की operational सीमा विस्तृत हुई
  • PDF·spreadsheets·slides·Word documents जैसी उच्च-गुणवत्ता वाली files को Skills में बदला जा सकता है
    • document की structure और style characteristics को capture और preserve किया जाता है
    • बाद के कार्यों में वही quality और format फिर से तैयार किया जा सकता है
  • कई example tasks प्रस्तुत किए गए
    • 100 global semiconductor assets पर 5 quant strategies को design और execute किया गया, McKinsey-style PPT को reusable skill में बदला गया, और detailed modeling spreadsheet तथा complete executive presentation materials प्रदान किए गए
    • समृद्ध visual data वाले उच्च-गुणवत्ता के astrophysics paper को reusable academic skill में बदला गया, reasoning flow और visualization methods निकाले गए, और 40-पेज·7,000-शब्द का research paper, 20,000 से अधिक items वाला structured dataset, तथा 14 astronomy-grade charts तैयार किए गए
    • अपलोड किए गए resume के आधार पर 100 sub-agents बनाकर California में संबंधित 100 jobs match की गईं, और structured opportunity dataset तथा 100 customized resumes प्रदान किए गए
    • Google Maps पर Los Angeles में official website न रखने वाली 30 retail stores की पहचान की गई, और हर store के लिए conversion-focused landing page तैयार किया गया

proactive agents

  • OpenClaw और Hermes जैसे autonomous·proactive agents में मजबूत प्रदर्शन दर्ज किया गया
    • कई applications में 24x7 continuous operation वाले उपयोग प्रकारों का समर्थन
  • साधारण chat-based interaction से अलग workflows को सपोर्ट करता है
    • scheduling, code execution, और cross-platform task orchestration को persistent background agents के रूप में चलाने की आवश्यकता होती है
  • RL infrastructure team ने K2.6-based agent का उपयोग कर 5 दिनों तक autonomous operation चलाया
    • monitoring, incident response, और system operations संभाले
    • persistent context बनाए रखना, multi-threaded tasks संभालना, और alert generation से resolution तक पूरे lifecycle का निष्पादन साबित किया
    • sensitive information हटाने के बाद के task logs के अस्तित्व का उल्लेख किया गया
  • वास्तविक वातावरण में reliability improvements को मापा गया
    • अधिक सटीक API interpretation
    • अधिक स्थिर long-running execution performance
    • लंबी research tasks के दौरान बेहतर safety awareness
  • आंतरिक evaluation suite Claw Bench से प्रदर्शन सुधार को quantify किया गया
    • Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management, Memory Utilization इन पाँच क्षेत्रों को शामिल किया गया
    • सभी metrics पर Kimi K2.5 की तुलना में task completion rate और tool calling accuracy में बड़ा सुधार हुआ
    • खासकर उन workflows में मजबूत सुधार दर्ज हुआ जिनमें मानव निगरानी के बिना लगातार autonomous operation की आवश्यकता होती है

Bring Your Own Agents

  • मजबूत orchestration capability के आधार पर proactive agents को Claw Groups तक विस्तारित किया गया
    • Agent Swarm आर्किटेक्चर के एक नए implementation form के रूप में research preview प्रदान किया गया
  • खुले और heterogeneous ecosystem को अपनाया गया
    • कई agents और मनुष्य वास्तविक collaborators के रूप में साथ काम करते हैं
    • उपयोगकर्ता किसी भी device से, किसी भी model पर चल रहे agent को onboard कर सकते हैं
    • हर agent के पास अपना toolset, skill, और persistent memory context होता है
    • local laptops, mobile devices, cloud instances जैसे विभिन्न environments के agents एक shared operating space में स्वाभाविक रूप से integrate होते हैं
  • केंद्र में Kimi K2.6 adaptive coordinator की भूमिका निभाता है
    • हर agent की skill profile और available tools के आधार पर tasks को dynamic तरीके से assign करता है
    • उपयुक्त capabilities के अनुसार tasks को optimize करता है
    • agent failure या stagnation होने पर उसे detect कर task reallocation या subtask regeneration करता है
    • शुरुआत से validation और completion तक outputs के पूरे lifecycle को सक्रिय रूप से manage करता है
  • Claw Groups के अपने usage cases भी शामिल हैं
    • human-agent workflows को वास्तविक रूप से refine करने के लिए internally agent marketing team का उपयोग किया गया
    • Demo Makers, Benchmark Makers, Social Media Agents, Video Makers जैसे specialized agents साथ मिलकर काम करते हैं
    • end-to-end content production और launch campaign संचालन करते हैं
    • K2.6 intermediate results को share करने और ideas को consistent finished outputs में बदलने का coordination करता है
  • मानव और AI के रिश्ते को question answering या simple task assignment से आगे बढ़ाकर वास्तविक collaborative partnership तक विस्तारित किया गया
    • सहयोगी सिस्टम के भीतर "my agent", "your agent", "our team" की सीमाएँ स्वाभाविक रूप से धुंधली हो जाने वाले भविष्य की दिशा प्रस्तुत की गई

benchmark तालिका

  • Agentic क्षेत्र के प्रमुख आँकड़े
    • HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
    • BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 क्रमशः 74.9, 78.4
    • DeepSearchQA f1-score 92.5, accuracy 83.0
    • WideSearch item-f1 80.8
    • Toolathlon 50.0, Kimi K2.5 27.8
    • MCPMark 55.9
    • Claw Eval pass^3 62.3, pass@3 80.9
    • APEX-Agents 27.9
    • OSWorld-Verified 73.1
  • Coding क्षेत्र के प्रमुख आँकड़े
    • Terminal-Bench 2.0 (Terminus-2) 66.7
    • SWE-Bench Pro 58.6
    • SWE-Bench Multilingual 76.7
    • SWE-Bench Verified 80.2
    • SciCode 52.2
    • OJBench (python) 60.6
    • LiveCodeBench (v6) 89.6
  • Reasoning & Knowledge क्षेत्र के प्रमुख आँकड़े
    • HLE-Full 34.7
    • AIME 2026 96.4
    • HMMT 2026 (Feb) 92.7
    • IMO-AnswerBench 86.0
    • GPQA-Diamond 90.5
  • Vision क्षेत्र के प्रमुख आँकड़े
    • MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
    • CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
    • MathVision 87.4, MathVision w/ python 93.2
    • BabyVision 39.8, BabyVision w/ python 68.5
    • V* w/ python 96.9
  • आधिकारिक Kimi-K2.6 benchmark results को reproduce करने के लिए official API के उपयोग की सिफारिश की गई
    • third-party providers चुनने के लिए Kimi Vendor Verifier (KVV) का संदर्भ भी दिया गया

फुटनोट्स

  • सामान्य test details

    • Kimi K2.6 और Kimi K2.5 के परिणाम thinking mode enabled, Claude Opus 4.6 के max effort, GPT-5.4 के xhigh reasoning effort, और Gemini 3.1 Pro के high thinking level शर्तों पर रिपोर्ट किए गए
    • अलग से उल्लेख न होने पर Kimi K2.6 के experiments temperature 1.0, top-p 1.0, और 262,144 tokens context length पर किए गए
    • जिन benchmarks के public scores उपलब्ध नहीं थे, उन्हें Kimi K2.6 जैसी ही शर्तों पर दोबारा evaluate किया गया और asterisk(*) से चिह्नित किया गया
    • जिन परिणामों पर asterisk नहीं है, वे official reports से उद्धृत हैं
  • reasoning benchmarks

    • GPT-5.4 और Claude 4.6 के IMO-AnswerBench scores z.ai blog से लिए गए
    • Humanity's Last Exam (HLE) और अन्य reasoning tasks का evaluation अधिकतम 98,304 tokens generation length पर किया गया
    • default reported value HLE full set है
    • text-only subset में Kimi K2.6 ने tools के बिना 36.4% accuracy, और tools के साथ 55.5% accuracy दर्ज की
  • tool-augmented और agentic tasks

    • HLE with tools, BrowseComp, DeepSearchQA, WideSearch में search, code-interpreter, web-browsing tools लगाए गए
    • HLE-Full with tools के लिए अधिकतम generation length 262,144 tokens, और per-step limit 49,152 tokens थी
    • context window threshold पार होने पर केवल सबसे हाल की tool-related message rounds को बनाए रखने वाली simple context management strategy का उपयोग किया गया
    • BrowseComp scores Kimi K2.5 और DeepSeek-V3.2 के समान discard-all strategy context management से प्राप्त किए गए
    • DeepSearchQA में Kimi K2.6 test पर context management लागू नहीं किया गया, और supported context length से अधिक tasks को सीधे failure के रूप में गिना गया
    • Claude Opus 4.6, GPT-5.4, और Gemini 3.1 Pro के DeepSearchQA scores Claude Opus 4.7 System Card से उद्धृत हैं
    • WideSearch के परिणाम hide tool result context management setting के साथ रिपोर्ट किए गए
    • test system prompt Kimi K2.5 technical report के समान था
    • Claw Eval version 1.1, max-tokens-per-step 16384 पर चलाया गया
    • APEX-Agents में public 480 tasks में से 452 tasks का evaluation किया गया
      • Artificial Analysis के समान Investment Banking Worlds 244, 246 को बाहर रखा गया
      • बाहर रखने का कारण external runtime dependency था
  • coding tasks

    • Terminal-Bench 2.0 score base agent framework Terminus-2 और दिए गए JSON parser का उपयोग कर preserve thinking mode में प्राप्त किया गया
    • SWE-Bench series evaluations (Verified, Multilingual, Pro सहित) के लिए SWE-agent पर आधारित संशोधित in-house evaluation framework का उपयोग किया गया
    • इस framework का tool configuration bash tool, createfile tool, insert tool, view tool, strreplace tool, submit tool के न्यूनतम सेट पर आधारित था
    • coding tasks के सभी reported scores 10 स्वतंत्र runs के average हैं
  • vision benchmarks

    • max-tokens 98,304, 3 runs का average(avg@3) लागू किया गया
    • Python tool enabled setting में max-tokens-per-step 65,536, max-steps 50 के साथ multi-step reasoning चलाई गई
    • MMMU-Pro official protocol का पालन करता है, input order बनाए रखता है, और images को आगे रखता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.