• Kimi K2.5 लगभग 15 ट्रिलियन visual और text tokens पर अतिरिक्त रूप से प्रशिक्षित एक multimodal open source model है, जो code writing और vision processing क्षमताओं को एकीकृत करता है
  • अधिकतम 100 sub-agents को parallel में नियंत्रित करने वाली Agent Swarm संरचना के माध्यम से यह जटिल कार्यों को 4.5 गुना तेज़ी से पूरा करता है
  • Kimi Code और Kimi App के साथ एकीकृत होकर यह image और video आधारित coding, visual debugging, office automation जैसी कई व्यावहारिक सुविधाएँ प्रदान करता है
  • आंतरिक benchmarks में coding, vision और office productivity के सभी क्षेत्रों में K2 की तुलना में उल्लेखनीय performance improvement दर्ज किया गया
  • open source community में इसे AGI (सामान्य कृत्रिम बुद्धिमत्ता) की दिशा में वास्तविक प्रगति दिखाने वाले मॉडल के रूप में देखा जा रहा है

Kimi K2.5 का अवलोकन

  • Kimi K2.5, K2 मॉडल पर आधारित लगभग 15 ट्रिलियन मिश्रित visual-text tokens के साथ अतिरिक्त pretraining किया गया एक native multimodal model है
    • यह coding और vision क्षमताओं को एकीकृत करता है और autonomous agent swarm paradigm को लागू करता है
  • अधिकतम 100 sub-agents parallel में अधिकतम 1,500 tool calls चला सकते हैं, जिससे single agent की तुलना में अधिकतम 4.5 गुना तेज़ execution time मिलता है
  • यह Kimi.com, Kimi App, API और Kimi Code के माध्यम से उपलब्ध है, और Instant, Thinking, Agent तथा Agent Swarm (beta) modes को support करता है

Coding और vision का एकीकरण

  • K2.5 एक open source coding model है जिसकी खास ताकत frontend development में है, और यह conversational interface तथा scroll-trigger animations जैसे जटिल UI अपने आप बना सकता है
  • यह image और video आधारित visual coding को support करता है, जिससे उपयोगकर्ता अपने इरादे को दृश्य रूप में व्यक्त करें तो उसे code में बदला जा सके
    • उदाहरण के तौर पर, यह किसी video से website को reconstruct कर सकता है या maze image में BFS algorithm का उपयोग करके shortest path (113,557 steps) खोज सकता है
  • बड़े पैमाने पर vision-text joint learning के माध्यम से visual और language दोनों क्षमताएँ साथ-साथ बेहतर हुई हैं
  • आंतरिक Kimi Code Bench में build, debugging, refactoring और testing सहित बहुभाषी coding tasks में K2 की तुलना में लगातार बेहतर प्रदर्शन देखा गया
  • Kimi Code terminal और VSCode, Cursor, Zed जैसे IDEs के साथ एकीकृत होता है, और image-video input तथा automatic skill migration को support करता है

Agent Swarm

  • K2.5 Agent Swarm single agent के विस्तार के बजाय एक parallel collaborative architecture है, जिसे Parallel-Agent Reinforcement Learning (PARL) से प्रशिक्षित किया गया है
    • orchestrator agent कार्य को parallel में चलने योग्य subtasks में तोड़ता है, और fixed sub-agents उन्हें एक साथ execute करते हैं
  • reward function शुरुआत में parallelism की खोज को प्रोत्साहित करता है और धीरे-धीरे task quality Q(τ) पर केंद्रित हो जाता है
  • parallel execution की दक्षता मापने के लिए Critical Steps नामक latency-केंद्रित metric पेश किया गया
  • आंतरिक मूल्यांकन में end-to-end execution time में 80% कमी और जटिल long-horizon tasks को संभालने की क्षमता में सुधार देखा गया
    • उदाहरण: 100 अलग-अलग niche क्षेत्रों के YouTube creators खोजने के कार्य में 100 sub-agents को parallel में बनाकर परिणामों को जोड़ा गया

Office productivity

  • K2.5 Agent बड़े पैमाने के office workflow automation को support करता है और documents, spreadsheets, PDFs तथा slides तक का निर्माण conversational तरीके से कर सकता है
  • आंतरिक AI Office Benchmark और General Agent Benchmark में क्रमशः 59.3% और 24.3% सुधार दर्ज किया गया
  • यह Word में comments जोड़ना, Pivot Table आधारित financial modeling, और PDF में LaTeX formulas लिखने जैसे उन्नत कार्य कर सकता है
  • 10,000-word paper या 100-page document जैसे लंबे outputs को कुछ ही मिनटों में पूरा कर सकता है

निष्कर्ष

  • Kimi K2.5 ने vision-based coding, agent swarm, और office automation के तीनों क्षेत्रों में प्रगति दिखाई है, जिससे वास्तविक दुनिया की सीमाओं के भीतर AGI की दिशा को व्यावहारिक रूप से प्रदर्शित किया गया है
  • आगे चलकर agentic intelligence के विस्तार के माध्यम से knowledge work की सीमाओं को फिर से परिभाषित करने की योजना है

परिशिष्ट: प्रमुख benchmark परिणाम

  • Reasoning, Vision, Coding, Agentic Search सहित 7 क्षेत्रों में GPT-5.2, Claude 4.5, Gemini 3 Pro आदि के साथ तुलना की गई
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • अधिकांश vision, coding और agentic search benchmarks में शीर्ष स्तर का प्रदर्शन दर्ज किया गया
  • सभी experiments 256k token context, temperature=1.0, top-p=0.95 settings पर किए गए
  • Kimi Vendor Verifier (KVV) के माध्यम से third-party services की accuracy verify की जा सकती है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.