- Moonshot AI द्वारा जारी Kimi K2.5 एक open source multimodal agent model है, जिसे text और vision को साथ में optimize करने के लिए बनाया गया है, और यह एक ही मॉडल में reasoning, coding, vision और agent tasks की पूरी रेंज को संभालता है
- पारंपरिक sequential agents की सीमाओं से आगे बढ़ने के लिए इसमें Agent Swarm parallel agent orchestration अपनाया गया है, जो जटिल कार्यों को एक साथ विभाजित और निष्पादित करता है
- image, video, document, web और OS environment तक शामिल व्यापक benchmark evaluation में इसने commercial और open source मॉडलों के साथ तुलनात्मक प्रदर्शन प्रस्तुत किया है
- प्रयोगों में यह पुष्टि की गई कि visual reinforcement learning, text reasoning performance को भी बेहतर बनाता है, यानी cross-modal transfer effect मौजूद है
- प्रशिक्षित checkpoints को सार्वजनिक कर general-purpose agent system research और real-world deployment expansion को लक्ष्य बनाया गया है
अवलोकन और समस्या-चेतना
- बड़े language models अब साधारण Q&A से आगे बढ़कर tool use और long-term planning करने वाली agent intelligence की दिशा में विकसित हो रहे हैं
- मौजूदा multimodal models प्रायः text-केंद्रित डिज़ाइन में vision को जोड़ने के तरीके पर आधारित हैं, जिससे modalities के बीच टकराव और generalization की सीमाएँ पैदा होती हैं
- जटिल वास्तविक कार्यों में sequential agent execution से होने वाली latency और context limitations प्रमुख bottleneck बनती हैं
Kimi K2.5 की मुख्य डिज़ाइन
- text–vision joint pretraining के ज़रिए training की शुरुआत से ही दोनों modalities को एक निश्चित अनुपात में मिलाकर alignment को मजबूत किया गया है
- MoonViT-3D vision encoder का उपयोग कर original-resolution images और long-duration videos को एक ही संरचना में प्रोसेस किया जाता है
- vision-only SFT के बिना भी performance सक्रिय होने वाली zero-vision SFT strategy अपनाई गई है
- capability units पर आधारित joint multimodal reinforcement learning के माध्यम से knowledge, reasoning, coding और agent capabilities को साथ में सुधारा गया है
Agent Swarm आर्किटेक्चर
- एक central orchestrator कार्यों को parallelize किए जा सकने वाले sub-problems में विभाजित करता है और specialized sub-agents को dynamically बनाता है
- हर sub-agent स्वतंत्र local context में काम करता है, जिससे global context pollution रोका जाता है
- पूरे लॉग के बजाय सिर्फ summarized results को चुनकर merge किया जाता है, जिससे context sharding लागू होती है
- parallel execution को प्रेरित करने वाले training prompts और Critical Steps metric के माध्यम से latency minimization सिखाई जाती है
प्रशिक्षण संरचना और पैमाना
- आधार मॉडल Kimi K2, 1 ट्रिलियन parameter MoE architecture पर आधारित है और इसे 15 ट्रिलियन tokens के text पर pretrain किया गया है
- joint long-context training के माध्यम से अधिकतम 256k context length का समर्थन मिलता है
- इसमें image, video, OCR, document और OS screenshots जैसे विविध multimodal data शामिल हैं
मूल्यांकन और प्रदर्शन: प्रमुख मॉडलों की तुलना पर केंद्रित सारांश
- Kimi K2.5 ने commercial models (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) और open source models (DeepSeek-V3.2, Qwen3-VL-235B) सहित समान शर्तों पर तुलनात्मक मूल्यांकन किया
- सभी evaluations temperature 1.0, top-p 0.95 और अधिकतम 256k context length सेटिंग के साथ किए गए
-
reasoning और general knowledge benchmarks
- AIME 2025 में Kimi K2.5 ने 96.1 स्कोर किया, जो Claude Opus 4.5(92.8) और Gemini 3 Pro(95.0) से ऊपर है, और GPT-5.2(100) के काफ़ी करीब है
- HMMT 2025 और IMO-AnswerBench में भी इसने Claude Opus 4.5 और Qwen3-VL की तुलना में ऊँचे स्कोर बनाए रखे
- GPQA-Diamond में 87.6 स्कोर के साथ यह Claude Opus 4.5(87.0) के लगभग बराबर रहा, और open source models की तुलना में बेहतर प्रदर्शन दिखाया
- LongBench v2 में Gemini 3 Pro ने सबसे ऊँचा स्कोर दर्ज किया, लेकिन Kimi K2.5 ने DeepSeek-V3.2 और Qwen3-VL की तुलना में प्रतिस्पर्धी परिणाम दिए
-
coding और software engineering
- SWE-Bench Verified में Kimi K2.5 ने 76.8 स्कोर किया, जो DeepSeek-V3.2(76.2) के समान है और Qwen3-VL(73.1) से ऊपर है
- SWE-Bench Pro और Multilingual में यह commercial models से नीचे रहा, लेकिन open source मानकों में शीर्ष स्तर का प्रदर्शन बनाए रखा
- LiveCodeBench v6 में 85.0 स्कोर के साथ इसने Claude Opus 4.5(82.2) और Qwen3-VL(83.3) से बेहतर परिणाम दर्ज किए
- PaperBench(CodeDev) और CyberGym में commercial models अभी भी आगे रहे, लेकिन Kimi K2.5 ने practical use के लिए पर्याप्त स्थिर प्रदर्शन दिखाया
-
agent और search-आधारित कार्य
- BrowseComp में single-agent आधार पर 60.6 स्कोर के साथ इसने Claude Opus 4.5(37.0) को काफ़ी पीछे छोड़ा
- Agent Swarm लागू होने पर BrowseComp 78.4 और WideSearch 79.0 तक पहुँचा, जो single-agent की तुलना में स्पष्ट प्रदर्शन सुधार दिखाता है
- WideSearch में Claude Opus 4.5 ने single-agent आधार पर अधिक स्कोर किया, लेकिन parallel agent configuration में Kimi K2.5 आगे रहा
- DeepSearchQA और FinSearchComp श्रृंखला में भी इसने commercial models के क़रीब परिणाम दर्ज किए
-
vision, document और video understanding
- MMMU-Pro, OCRBench, OmniDocBench 1.5 आदि में इसकी सीधी तुलना Qwen3-VL से की गई, और कुल मिलाकर इसने vision reasoning और document understanding में प्रतिस्पर्धी प्रदर्शन बनाए रखा
- GPT-5.2 में कुछ vision evaluations के दौरान लगभग 10% output failure rate देखा गया, इसलिए उसे सावधानीपूर्वक स्कोर किया गया
- long-form और short-form video benchmarks में Kimi K2.5 ने लगातार अच्छा प्रदर्शन दिखाया, और single-image-केंद्रित models की तुलना में अधिक स्थिर परिणाम दिए
-
समग्र मूल्यांकन
- Kimi K2.5 कुछ metrics पर सर्वोच्च commercial models से पीछे है, लेकिन open source multimodal और agent models के बीच यह सबसे व्यापक और संतुलित प्रदर्शन दिखाता है
- खासकर Agent Swarm लागू होने पर agent और search tasks में स्पष्ट बढ़त दिखाई देती है
- reasoning, coding, vision और agent capabilities को एक ही open model में समेटने के कारण, यह सिर्फ प्रयोगात्मक नहीं बल्कि वास्तविक उपयोग योग्य general-purpose agent model है
सीमाएँ और अवलोकन
- कुछ commercial models में vision benchmarks के दौरान output failure rate देखने को मिला, इसलिए उन्हें conservative scoring के साथ आंका गया
- लंबे agent tasks में context management strategy के अनुसार performance difference काफ़ी बड़ा हो सकता है
- कुछ high-cost benchmarks को API stability समस्याओं के कारण evaluation से बाहर रखा गया
सार्वजनिक रिलीज़ और उपयोग
- Kimi K2.5 के post-training checkpoints को open source के रूप में जारी किया गया है
- यह general-purpose agent systems, multimodal research और वास्तविक automation workloads के लिए दोबारा उपयोग किया जा सकने वाला foundation model है
- text और vision को अलग न करने वाला दृष्टिकोण तथा parallel agent architecture, General Agentic Intelligence की ओर एक व्यावहारिक मार्ग बन सकते हैं
अभी कोई टिप्पणी नहीं है.