3 पॉइंट द्वारा GN⁺ 2026-01-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Kimi K2.5 लगभग 15 ट्रिलियन visual और text tokens पर अतिरिक्त रूप से प्रशिक्षित एक multimodal open source model है, जो code writing और vision processing क्षमताओं को एकीकृत करता है
  • अधिकतम 100 sub-agents को parallel में नियंत्रित करने वाली Agent Swarm संरचना के माध्यम से यह जटिल कार्यों को 4.5 गुना तेज़ी से पूरा करता है
  • Kimi Code और Kimi App के साथ एकीकृत होकर यह image और video आधारित coding, visual debugging, office automation जैसी कई व्यावहारिक सुविधाएँ प्रदान करता है
  • आंतरिक benchmarks में coding, vision और office productivity के सभी क्षेत्रों में K2 की तुलना में उल्लेखनीय performance improvement दर्ज किया गया
  • open source community में इसे AGI (सामान्य कृत्रिम बुद्धिमत्ता) की दिशा में वास्तविक प्रगति दिखाने वाले मॉडल के रूप में देखा जा रहा है

Kimi K2.5 का अवलोकन

  • Kimi K2.5, K2 मॉडल पर आधारित लगभग 15 ट्रिलियन मिश्रित visual-text tokens के साथ अतिरिक्त pretraining किया गया एक native multimodal model है
    • यह coding और vision क्षमताओं को एकीकृत करता है और autonomous agent swarm paradigm को लागू करता है
  • अधिकतम 100 sub-agents parallel में अधिकतम 1,500 tool calls चला सकते हैं, जिससे single agent की तुलना में अधिकतम 4.5 गुना तेज़ execution time मिलता है
  • यह Kimi.com, Kimi App, API और Kimi Code के माध्यम से उपलब्ध है, और Instant, Thinking, Agent तथा Agent Swarm (beta) modes को support करता है

Coding और vision का एकीकरण

  • K2.5 एक open source coding model है जिसकी खास ताकत frontend development में है, और यह conversational interface तथा scroll-trigger animations जैसे जटिल UI अपने आप बना सकता है
  • यह image और video आधारित visual coding को support करता है, जिससे उपयोगकर्ता अपने इरादे को दृश्य रूप में व्यक्त करें तो उसे code में बदला जा सके
    • उदाहरण के तौर पर, यह किसी video से website को reconstruct कर सकता है या maze image में BFS algorithm का उपयोग करके shortest path (113,557 steps) खोज सकता है
  • बड़े पैमाने पर vision-text joint learning के माध्यम से visual और language दोनों क्षमताएँ साथ-साथ बेहतर हुई हैं
  • आंतरिक Kimi Code Bench में build, debugging, refactoring और testing सहित बहुभाषी coding tasks में K2 की तुलना में लगातार बेहतर प्रदर्शन देखा गया
  • Kimi Code terminal और VSCode, Cursor, Zed जैसे IDEs के साथ एकीकृत होता है, और image-video input तथा automatic skill migration को support करता है

Agent Swarm

  • K2.5 Agent Swarm single agent के विस्तार के बजाय एक parallel collaborative architecture है, जिसे Parallel-Agent Reinforcement Learning (PARL) से प्रशिक्षित किया गया है
    • orchestrator agent कार्य को parallel में चलने योग्य subtasks में तोड़ता है, और fixed sub-agents उन्हें एक साथ execute करते हैं
  • reward function शुरुआत में parallelism की खोज को प्रोत्साहित करता है और धीरे-धीरे task quality Q(τ) पर केंद्रित हो जाता है
  • parallel execution की दक्षता मापने के लिए Critical Steps नामक latency-केंद्रित metric पेश किया गया
  • आंतरिक मूल्यांकन में end-to-end execution time में 80% कमी और जटिल long-horizon tasks को संभालने की क्षमता में सुधार देखा गया
    • उदाहरण: 100 अलग-अलग niche क्षेत्रों के YouTube creators खोजने के कार्य में 100 sub-agents को parallel में बनाकर परिणामों को जोड़ा गया

Office productivity

  • K2.5 Agent बड़े पैमाने के office workflow automation को support करता है और documents, spreadsheets, PDFs तथा slides तक का निर्माण conversational तरीके से कर सकता है
  • आंतरिक AI Office Benchmark और General Agent Benchmark में क्रमशः 59.3% और 24.3% सुधार दर्ज किया गया
  • यह Word में comments जोड़ना, Pivot Table आधारित financial modeling, और PDF में LaTeX formulas लिखने जैसे उन्नत कार्य कर सकता है
  • 10,000-word paper या 100-page document जैसे लंबे outputs को कुछ ही मिनटों में पूरा कर सकता है

निष्कर्ष

  • Kimi K2.5 ने vision-based coding, agent swarm, और office automation के तीनों क्षेत्रों में प्रगति दिखाई है, जिससे वास्तविक दुनिया की सीमाओं के भीतर AGI की दिशा को व्यावहारिक रूप से प्रदर्शित किया गया है
  • आगे चलकर agentic intelligence के विस्तार के माध्यम से knowledge work की सीमाओं को फिर से परिभाषित करने की योजना है

परिशिष्ट: प्रमुख benchmark परिणाम

  • Reasoning, Vision, Coding, Agentic Search सहित 7 क्षेत्रों में GPT-5.2, Claude 4.5, Gemini 3 Pro आदि के साथ तुलना की गई
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • अधिकांश vision, coding और agentic search benchmarks में शीर्ष स्तर का प्रदर्शन दर्ज किया गया
  • सभी experiments 256k token context, temperature=1.0, top-p=0.95 settings पर किए गए
  • Kimi Vendor Verifier (KVV) के माध्यम से third-party services की accuracy verify की जा सकती है

1 टिप्पणियां

 
GN⁺ 2026-01-28
Hacker News की राय
  • Hugging Face के Kimi-K2.5 पेज को देखें तो यह 1 ट्रिलियन पैरामीटर वाला मॉडल है
    MIT लाइसेंस पर आधारित है, लेकिन जिन commercial services के monthly active users 10 करोड़ से ज़्यादा हैं या revenue 2 करोड़ डॉलर से अधिक है, उन्हें UI में “Kimi K2.5” दिखाना होगा — ऐसी अतिरिक्त शर्त है

    • 1 ट्रिलियन? int4 के हिसाब से भी शायद आधा टेराबाइट VRAM चाहिए होगा
      तकनीकी रूप से यह चमत्कारी है, लेकिन वैसे भी इसे घर पर चलाया नहीं जा सकता, इसलिए इसे मुफ्त में जारी करने से जोखिम भी आधा कम हुआ लगता है
    • Cursor के डेवलपर्स Composer मॉडल के GLM-आधारित होने की बात छिपाना चाहते थे, तो यह खबर उनके लिए काफ़ी असहज हो सकती है
    • जानना चाहूँगा कि Kimi K2.5 का thinking, instruct, agent, और agent swarm(beta) सब कुछ open source है या नहीं
      API में agent swarm का ज़िक्र है, लेकिन क्या उसके weights भी जारी किए गए हैं, यह जानना है
    • “अगर revenue 2 करोड़ डॉलर से ऊपर है तो UI में Kimi K2.5 दिखाओ” वाली शर्त देखकर लगता है, इससे अच्छा तो “10 लाख डॉलर दो” कह देते
  • Deepseek moment” ठीक एक साल पहले था
    उस समय से तुलना करें तो अब सच में बहुत-सी तकनीकें मुफ्त में जारी हो रही हैं, और OpenAI जैसी बंद सोच के बिल्कुल उलट एक अलग तरह की स्वतंत्रता महसूस होती है

    • DeepSeekR1 के बाद भी v3-0324, v3.1, v3.1-terminus, v3.2-speciale जैसे चीनी मॉडलों की प्रगति की रफ़्तार चौंकाने वाली है
      इसमें GLM 4.7 flash, Minimax-M2, और Qwen series भी जोड़ लें तो विविधता सच में बहुत है
      मैंने OpenAI और Anthropic की subscription दो साल पहले ही बंद कर दी थी, और बिल्कुल कमी महसूस नहीं हुई
    • यह संयोग नहीं है। चीनी कंपनियाँ अक्सर Lunar New Year से पहले बड़े release करती हैं, इसलिए 17 फ़रवरी से पहले और भी कुछ आने की संभावना है
    • इतना विशाल मॉडल मुफ्त में जारी करने की वजह क्या है, यह सोचने वाली बात है। इनका business model क्या है, यही सवाल है
    • मुझे लगता है Deepseek असल में marketing-केंद्रित project था
      Reddit पर भी अजीब तरह से लगातार ‘pro-deepseek’ comments आते रहे। लगभग Apple-स्टाइल marketing जैसी बात लगी
    • लेकिन ऐसे मॉडल security attacks या biological attacks में भी दुरुपयोग हो सकते हैं
      चीनी कंपनियाँ इन्हें मानवता-प्रेम के कारण जारी कर रही हों, ऐसा नहीं लगता
  • अलग-अलग मॉडलों की तुलना के लिए कुछ उपयोगी साइटें साझा की गईं

  • Kimi K2.5 अधिकतम 100 sub-agents को parallel में चलाता है, और अधिकतम 1,500 tool calls को parallel process करता है
    सिर्फ़ tool calling ही नहीं, बल्कि agent orchestration को ही reinforcement learning (RL) से सिखाया गया है — यह बात दिलचस्प है

    • लेकिन 1,500 tool calls तो cost structure का nightmare है। कुछ दर्जन steps में ही margin टूट जाता है, इसलिए VC funding के बिना यह टिकाऊ नहीं लगता
    • “self-direct an agent swarm” क्या मॉडल की internal capability है, या IDE/service level पर implement किया गया है — यह जानना चाहूँगा
      आम तौर पर मॉडल “call tool X” आउटपुट देता है, फिर IDE उसे चलाकर result वापस भेजता है
    • parallel agents एक सरल लेकिन शक्तिशाली trick है
      मैं Claude Code के TeammateTool से वैसा ही असर देख रहा हूँ
  • Moonshot AI ने K2.5 के अलावा Kimi Code भी जारी किया है
    यह पुराने Kimi CLI से विकसित हुआ terminal coding agent है, और मैंने इसे पिछले महीने से इस्तेमाल किया है — काफ़ी स्थिर लगा
    GitHub: MoonshotAI/kimi-cli

    • यह सिर्फ़ coding agent नहीं, बल्कि shell की भूमिका भी निभाता है
      इसमें zsh hook है, जिससे कहीं से भी agent mode में स्विच किया जा सकता है
    • क्या यह swarm feature को support करता है, और क्या Opencode को भी support करता है — यह जानना चाहूँगा
    • CC के मुकाबले इसकी performance कैसी है, यह भी जानना है
  • K2.5 को अपने आप sub-agents बनाने और swarm का गठन करने के लिए train किया गया है — यह काफ़ी दिलचस्प है
    यह Claude Code के dynamic sub-agents जैसा है, लेकिन इससे कहीं अधिक agents को स्वायत्त रूप से संभाल सकता है
    उम्मीद है Claude भी ऐसा ही training कर रहा होगा, और शायद अगली version में दिखे

  • हाल में चीनी मॉडल Claude Opus को benchmark base मानकर चल रहे हैं
    Qwen3 max thinking और Kimi K2.5 दोनों Sonnet नहीं, बल्कि Opus से तुलना कर रहे हैं। लगभग उसी गति से पकड़ बना रहे हैं

    • clocks.brianmoore.com पर K2 उन गिने-चुने मॉडलों में से है जिसने clock test को पूरी तरह पास किया
    • चीनी labs का पैटर्न यही है कि वे पश्चिमी SOTA मॉडलों को distill करके कुछ महीनों में बराबरी तक पहुँच जाते हैं
    • benchmark पर ये समान दिखते हैं, लेकिन real-world usability में Anthropic के मॉडल अब भी आगे हैं
    • आखिरकार वास्तविक उपयोग के scenarios ज़्यादा महत्वपूर्ण हैं। सिर्फ़ benchmark score से निर्णय लेना मुश्किल है
  • Kimi K2 को emotional intelligence के लिए काफ़ी सराहा गया था
    देखना होगा कि K2.5 उस गुण को बरकरार रखता है या नहीं

    • मेरा भी यही impression था। उसने ऐसी भावनात्मक प्रतिक्रिया कैसे implement की, यह सच में जानने लायक है
    • मैं इसे mafia-arena.com पर टेस्ट करने वाला हूँ
    • यह subjective है, लेकिन Gemini 3, GPT 5.2, और Opus 4.5 की तुलना में यह ज़्यादा मानवीय लगा
  • CCP-bench score में K2.5 पर बड़ा सुधार हुआ है
    संबंधित इमेज देखें

  • Kimi टीम की उपलब्धि पर बधाई
    लेकिन अब भी यह जिज्ञासा है कि coding में Claude अब भी नंबर 1 क्यों है। क्या इसकी वजह coding-specific training है, या overall training quality — यह जानना चाहूँगा
    कोई Opus 4.5 को coding में हरा दे, यही उम्मीद है

    • benchmark का अंतर लगभग मायने नहीं रखता। असली coding environment का noise उससे कहीं ज़्यादा है
      बल्कि कई बार मॉडल benchmark पर overfit भी हो जाते हैं
      मैंने GPT5.2 और Opus 4.5 दोनों इस्तेमाल किए हैं, और वास्तविक coding performance लगभग समान लगी
      ऊपर से K2.5 की कीमत top-tier models की लगभग 1/5 है, इसलिए उम्मीदें हैं
    • मैं Opus की जगह Gemini Pro इस्तेमाल करता हूँ, क्योंकि वह code structure को फिर से डिज़ाइन करके requirements को बेहतर reflect करता है
      Opus अक्सर अनावश्यक abstraction या hardcoding कर देता है
    • Gemini 3 Pro खासकर बड़े codebase में काफ़ी बेहतर है
    • Opus 4.5 दो महीने पहले जारी हुआ मॉडल है, और Anthropic लंबे समय से coding performance पर खास ध्यान देता आया है