Kimi K2.6 ने कोडिंग चैलेंज में Claude, GPT-5.5 और Gemini को हराया

(thinkpol.ca)

4 पॉइंट द्वारा GN⁺ 2 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Moonshot AI का open weights मॉडल Kimi K2.6 ने AI Coding Contest Day 12 के Word Gem Puzzle में 22 मैच पॉइंट और 7-1-0 रिकॉर्ड के साथ जीत हासिल की
Xiaomi का MiMo V2-Pro 20 अंकों के साथ दूसरे स्थान पर रहा, ChatGPT GPT-5.5 16 अंकों के साथ तीसरे, GLM 5.1 15 अंकों के साथ चौथे, और Claude Opus 4.7 12 अंकों के साथ पांचवें स्थान पर रहा; Anthropic, OpenAI, Google और xAI के मॉडल सभी शीर्ष 2 मॉडलों से पीछे रहे
Word Gem Puzzle 10×10 से 30×30 तक का sliding-tile letter puzzle है, जिसमें 7 अक्षरों से छोटे शब्दों पर पेनल्टी है और 7 या अधिक अक्षरों वाले शब्दों के लिए लंबाई - 6 अंक मिलते हैं; हर मॉडल जोड़ी grid size के अनुसार 5 rounds 10 सेकंड की समय-सीमा में खेलती है
Kimi K2.6 ने positive-value शब्द खोलने वाली चालों को बार-बार चुनने वाली greedy sliding रणनीति से कुल 77 अंक बनाए, जबकि MiMo V2-Pro ने वास्तव में slide किए बिना शुरुआती grid में मौजूद 7 या अधिक अक्षरों वाले शब्द एक साथ submit करके कुल 43 अंकों के साथ दूसरा स्थान हासिल किया
यह नतीजा यह नहीं दिखाता कि एक ही puzzle सामान्य benchmarks को उलट देता है, लेकिन downloadable model Kimi K2.6 का Artificial Analysis Intelligence Index में 54 अंक तक पहुंचना, जहां GPT-5.5 के 60 और Claude के 57 अंक हैं, यह बताता है कि प्रतिस्पर्धा का अंतर कम हुआ है

प्रतियोगिता की संरचना और भाग लेने वाले मॉडल

Zhipu AI का GLM 5.1 चौथे स्थान पर रहा, जबकि DeepSeek V4 आठवें स्थान तक ही सीमित रहा
Nvidia के Nemotron Super 3 द्वारा बनाया गया code syntax errors के कारण game server से connect नहीं कर सका, इसलिए वास्तविक प्रतियोगिता 9 मॉडलों के बीच हुई
Kimi K2.6, 2023 में स्थापित चीनी startup Moonshot AI का सार्वजनिक रूप से उपलब्ध open weights मॉडल है, जबकि MiMo V2-Pro फिलहाल केवल API-आधारित है
Xiaomi ने पुष्टि की कि वह जल्द ही नए V2.5 Pro मॉडल के weights जारी करेगा
इस नतीजे को सिर्फ “चीन ने पश्चिम को हरा दिया” के रूप में नहीं देखा गया, बल्कि इसे Kimi K2.6 और MiMo V2-Pro नाम के दो खास मॉडलों की जीत के रूप में समझा गया

Word Gem Puzzle के नियम

Word Gem Puzzle एक sliding-tile letter puzzle है जो letter tiles और एक खाली जगह से भरे आयताकार grid पर खेला जाता है
grid का आकार 10×10, 15×15, 20×20, 25×25 या 30×30 में से एक होता है, और bot खाली जगह से सटे tile को उसमें धकेल सकता है
bot किसी भी समय क्षैतिज या ऊर्ध्वाधर सीधी रेखा में बने वैध English शब्द submit कर सकता है
diagonal शब्द और उल्टी दिशा वाले शब्द मान्य नहीं हैं
scoring इस तरह बनाई गई है कि लंबे शब्दों को इनाम मिले और छोटे शब्दों पर पेनल्टी लगे
- 7 अक्षरों से छोटे शब्दों पर अंक कटते हैं
- 5-अक्षरी शब्द पर 1 अंक की कटौती होती है, 3-अक्षरी शब्द पर 3 अंक की
- 7 या अधिक अक्षरों वाले शब्दों के लिए लंबाई - 6 अंक मिलते हैं, इसलिए 8-अक्षरी शब्द को 2 अंक मिलते हैं
एक ही शब्द केवल एक बार submit किया जा सकता है, और जो शब्द कोई दूसरा bot पहले submit कर चुका हो उस पर अंक नहीं मिलते
हर मॉडल जोड़ी ने हर grid size पर एक-एक round खेला, यानी कुल 5 rounds, और हर round के लिए wall-clock समय-सीमा 10 सेकंड थी
grid इस तरह बनाई जाती है कि पहले असली dictionary words को crossword-जैसे ढंग से रखा जाता है, फिर बाकी खानों को Scrabble tile frequency के हिसाब से अक्षरों से भरा जाता है, और अंत में खाली जगह को shuffle किया जाता है
बड़े boards में shuffle अधिक आक्रामक था, इसलिए 10×10 में कई seed words वैसे ही बचे रहे, जबकि 30×30 में लगभग कोई नहीं बचा

मॉडल के व्यवहार और सफलता-असफलता के कारण

Kimi K2.6
- Kimi K2.6 ने सक्रिय रूप से tiles को slide करके जीत हासिल की और कुल 77 अंक के साथ प्रतियोगिता का सर्वोच्च स्कोर दर्ज किया
- इसकी रणनीति greedy थी: हर संभावित चाल से खुलने वाले positive-value शब्दों के आधार पर स्कोर दिया जाता, फिर सबसे अच्छी चाल चलकर यही प्रक्रिया दोहराई जाती
- यदि कोई भी चाल positive शब्द नहीं खोलती, तो यह alphabetical order में पहली वैध दिशा चुनता था
- इस तरीके से कभी-कभी खाली जगह आगे-पीछे उछलती रहती और बिना प्रगति वाले 2-cycle जैसे अक्षम edge back-and-forth बनते थे
- छोटे grids में seed words काफी हद तक बचे होने के कारण यह अक्षमता नुकसानदायक थी, लेकिन 30×30 में लगभग सभी शब्द टूट चुके थे और पुनर्निर्माण जरूरी था, इसलिए ज्यादा slides अंततः स्कोर में बदल गईं
MiMo V2-Pro
- MiMo का sliding code repository में मौजूद था, लेकिन “highest value > 0” शर्त सक्रिय न होने के कारण उसने व्यवहार में एक बार भी slide नहीं किया
- उसने शुरुआती grid में 7 या अधिक अक्षरों वाले शब्द scan किए और फिर सभी submissions को एक ही TCP packet में भेज दिया
- यह रणनीति पूरी तरह इस बात पर निर्भर थी कि shuffle के बाद भी seed words ज्यों के त्यों बचे हों
- जिन grids में शब्द बचे थे वहां इसने तेजी से स्कोर किया, लेकिन जिनमें नहीं बचे वहां इसे कोई अंक नहीं मिला
- इसका अंतिम कुल स्कोर 43 अंक था और यह कुल मिलाकर दूसरे स्थान पर रहा
Claude Opus 4.7
- Claude ने भी slide नहीं किया
- move logs के अनुसार 25×25 board पर shuffle density अभी संभालने योग्य थी, इसलिए यह टिक गया, लेकिन 30×30 पर जहां वास्तविक tile movement जरूरी हो गया, वहां यह टूट गया
- sliding puzzle में slide न करना स्पष्ट सीमा साबित हुआ
GPT-5.5
- GPT-5.5 ने प्रति round लगभग 120 slides वाली अधिक conservative रणनीति अपनाई और infinite back-and-forth से बचने के लिए एक upper bound रखा
- इसने 15×15 और 30×30 grids पर सबसे मजबूत प्रदर्शन किया
Grok Expert 4.2 और GLM 5.1
- Grok ने slide नहीं किया, फिर भी बड़े boards पर अपेक्षाकृत ठीक-ठाक स्कोर किया
- GLM पूरे टूर्नामेंट में सबसे आक्रामक sliding मॉडल था, जिसकी कुल slides की संख्या 8 लाख से अधिक रही
- positive moves खत्म होते ही GLM बुरी तरह रुक जाता था
DeepSeek V4
- DeepSeek हर round में गलत format वाला data भेजता रहा
- इससे कोई उपयोगी output नहीं मिला, लेकिन खेलने की वजह से स्कोर और खराब भी नहीं हुआ
Muse Spark
- Muse जो भी शब्द ढूंढ सकता था, उनकी लंबाई की परवाह किए बिना सब submit कर देता था
- scoring rules खास तौर पर छोटे शब्दों जैसे “the”, “and”, “it” को अंधाधुंध submit करने की रणनीति रोकने के लिए बनाई गई थीं, इसलिए प्रतिस्पर्धी मॉडलों ने अपनी dictionary को 7 या अधिक अक्षरों वाले शब्दों तक filter किया
- Muse ने 30×30 grid में किसी भी समय दिख रहे सैकड़ों छोटे वैध शब्द खोजकर सब submit कर दिए
- इसका कुल स्कोर −15,309 अंक रहा, यह सभी 8 matches हार गया, और एक भी round नहीं जीता
- यदि Muse का ऐसा version होता जो server से connect करके कुछ न करता, तो उसे 0 अंक मिलते, यानी वह वास्तविक Muse से 15,309 अंक बेहतर होता
- Muse और 8वें स्थान के बीच का अंतर, 8वें और 1वें स्थान के अंतर से भी बड़ा था

30×30 grid ने जो अंतर पैदा किया

30×30 grid ने भाग लेने वाले मॉडलों के बीच के अंतर को सबसे साफ तरीके से सामने रखा
छोटे boards पर static scanners और active sliders के बीच अंतर बड़ा नहीं था, लेकिन सबसे बड़े आकार पर सिर्फ पहले से मौजूद शब्द ढूंढने वाले मॉडल आगे submit करने के लिए शब्द जुटा नहीं पाए
Kimi के greedy loop में खामियां थीं, लेकिन static scanners के शब्द खत्म हो जाने के बाद भी वह output बनाता रहा
MiMo और Kimi ने लगभग विपरीत रणनीतियां अपनाईं, फिर भी अंतिम स्कोर का अंतर केवल 2 अंकों का रहा
पहले और दूसरे स्थान के बीच के अंतर में क्षमता के साथ-साथ seed variability की भी कुछ भूमिका रही

structured tasks में दिखे जोखिम

DeepSeek का गलत format output यह संकेत देता है कि समय के दबाव में अपरिचित protocol specs को संभालने का तरीका एक जोखिम हो सकता है
Muse ने वैध शब्द खोजे और submit भी किए, लेकिन scoring rules को शामिल करने वाले “वैध” अर्थ को लागू नहीं कर पाया
Muse की विफलता इस रूप में दिखी कि उसने task को आंशिक रूप से पढ़ा और उसी आंशिक समझ को आखिर तक लागू करता रहा
जब पेनल्टी वाले structured tasks में मॉडल deploy किए जाते हैं, तो पूरे नियम लागू न कर पाने वाला execution बड़े नुकसान का कारण बन सकता है

नतीजों की व्याख्या की सीमाएं और महत्व

यह scoring system आक्रामक word submission को इनाम देता है, और बहुत अधिक safety-tuned मॉडल इस तरह की अंधाधुंध submission रणनीति में अधिक conservative हो सकते हैं
ऐसे मामलों में नतीजे शुद्ध क्षमता के अंतर से अधिक, task design और model behavior के alignment में mismatch को दिखा सकते हैं
एक अकेला challenge सामान्य benchmarks को नहीं पलटता
यह puzzle real-time decision-making, TCP server से connect होकर नया game सही तरह खेलना, और उसके लिए व्यवहारिक code लिखने की क्षमता को परखता है
यह long-context reasoning या spec-based code generation को व्यापक रूप से परखने वाला task नहीं है
Kimi K2.6 ने Artificial Analysis Intelligence Index में 54 अंक, GPT-5.5 ने 60 अंक, और Claude ने 57 अंक हासिल किए
ये अंक पूरी तरह बराबरी नहीं दिखाते, लेकिन काफी करीब हैं, और Kimi K2.6 का ऐसा मॉडल होना जिसे कोई भी download कर सकता है, प्रतिस्पर्धा की तस्वीर बदल देता है
जब frontier से कुछ अंकों की दूरी पर मौजूद मॉडल को local रूप से स्वतंत्र रूप से चलाया जा सकता है, तो प्रतिस्पर्धा की स्थिति एक साल पहले जैसी नहीं रहती
यह challenge इस बात का एक data point है कि अंतर अब इतना कम हो गया है कि ऐसे नतीजे संभव हैं

1 टिप्पणियां

GN⁺ 2 시간 전

Hacker News की राय

लगता है अगले 1 साल तक ऐसी पोस्टें आती रहेंगी। क्योंकि मॉडलों की निष्पक्ष तुलना करने का कोई तरीका नहीं है। टोकन जनरेशन स्पीड, औसत inference टोकन संख्या, parameter count, active expert count जैसे लो-लेवल नंबरों को छोड़ दें तो हर मॉडल का उपयोग अलग है, उपयोगकर्ता अलग हैं, और परिणाम भी deterministic नहीं हैं
इसलिए “इस मॉडल ने उस मॉडल को हरा दिया” जैसे benchmark और दावे आते रहेंगे, लेकिन कोई एक सर्वश्रेष्ठ मॉडल नहीं है। बस अलग-अलग मानदंडों के हिसाब से सही मॉडल हैं, और अंत में दुनिया शायद Windows vs MacOS vs Linux की तरह अपने-अपने खेमों में बँट जाएगी
- असली बात तुलना के तरीके से ज़्यादा यह है कि Kimi K2.6 और DeepSeek v4 Pro लगभग Opus के स्तर तक पहुँच गए हैं, और यह अपने आप में काफी बड़ी बात है
  ये open source हैं और अमेरिकी मॉडलों की तुलना में प्रति टोकन लागत बहुत कम है। मैं अभी $20 Ollama cloud plan इस्तेमाल कर रहा हूँ, और Claude Pro के $20 plan में जहाँ एक-दो prompts में ही limit आ जाती थी, वहाँ अब side project का असली काम कर पा रहा हूँ। Ollama सिर्फ इसलिए चुना क्योंकि इसका CLI सुविधाजनक है, और इन मॉडलों को देने वाले कई प्रदाता हैं, इसलिए खराब शर्तों या usage rules में बँधना भी नहीं पड़ता। मुझे यह अमेरिकी अर्थव्यवस्था के लिए काफी खराब संकेत लगता है
- मॉडलों की तुलना का निष्पक्ष तरीका है। repeated sampling और statistical analysis से यह देखना चाहिए कि परिणाम आगे भी टिकते हैं या सिर्फ संयोग हैं
  अगर हर मॉडल को अपेक्षित task के हिसाब से उसकी अधिकतम performance पर fine-tune किया जाए, तो अलग-अलग benchmarks की ranking भी काफी हद तक मेल खाती है: https://arxiv.org/abs/2507.05195
  लेकिन इस पोस्ट के लेखक ने ऐसी प्रक्रिया नहीं अपनाई। हर मॉडल को अब तक केवल 13 समस्याओं पर एक-एक बार चलाया गया, और उनमें भी 12वीं समस्या के परिणाम को उछाला गया। इसमें p-value के बारे में सोचा तक नहीं गया, इसलिए इसे p-hacking कहना भी मुश्किल है। large language models की quality हर run में काफी बदलती है, इसलिए हर मॉडल को सिर्फ एक बार चलाना वैसा ही है जैसे दो सिक्के एक-एक बार उछालकर, एक पर heads और दूसरे पर tails आने पर कहना कि कौन-सा सिक्का ज़्यादा biased है
- मैं कुछ हद तक सहमत हूँ, लेकिन metrics को तुलनीय बनाने की कोशिश चल रही है। उदाहरण के लिए: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
  इसे अभी व्यापक रूप से अपनाया नहीं गया है, और अलग-अलग हितधारकों के लिए फिलहाल ऐसा ही बने रहना शायद फायदेमंद भी है। यह व्यवहार में p-hacking जैसा ही है
- मेरे large language model use cases और agentic execution environments काफी सीमित हैं, इसलिए जब भी कोई नया मॉडल या execution tool आता है, मैं बस अपने एक-दो use cases आज़माता हूँ, फिर subjective judgment बना लेता हूँ, और ज़्यादातर benchmarks को नज़रअंदाज़ कर देता हूँ
  ब्लॉग और लेखन अपने आप में बिज़नेस हैं या टेक-आसपास के बिज़नेस के लिए traffic लाते हैं, और काफी-सी evaluation posts सिर्फ attention खींचने के लिए होती हैं। इसमें बुराई नहीं, लेकिन शोर बहुत है
- आखिरकार यह इंसानों की hiring जैसा हो जाएगा। आप resume यानी benchmark देख सकते हैं, लेकिन जब तक 6 महीने साथ काम न कर लें, भरोसा नहीं होता
  उद्योग लगभग किसी भी dimension पर यह तय नहीं कर पाता कि एक software engineer दूसरे से वस्तुनिष्ठ रूप से बेहतर है या नहीं। फिर हमें क्यों लगता है कि मॉडलों की objective ranking बन सकती है
objectivity के साथ स्कोर होने वाले tests की ओर बढ़ना अच्छा लग रहा है
हम https://gertlabs.com/rankings पर इसे बड़े पैमाने पर कर रहे हैं, और भले ही लगता है कि लेखक ने one-off sample चलाया है, Kimi K2.6 की अच्छी performance चौंकाने वाली नहीं है। हमारे tests में, खासकर coding में, Kimi open weight models में टॉप पर रहने वाले MiMo V2.5 Pro के साथ statistical uncertainty range के भीतर है, और tool use में DeepSeek V4 Pro से काफी बेहतर आता है। GPT 5.5 साफ़ बढ़त में है, लेकिन Kimi Opus 4.6 के बराबर या उससे बेहतर है। हाँ, Kimi 2.6 की समस्या यह है कि यह हमारे tested models में धीमे मॉडलों में से एक है
- इसे objectivity के साथ score किया जा सकता है, लेकिन इससे किसी की coding ability साबित नहीं होती। यह test ज़्यादा इस बात को मापता है कि किस मॉडल ने दूसरे bots के खिलाफ लगभग संयोग से सबसे अच्छी strategy खोजी
  अगर इसे coding का प्रतिनिधि मानना है, तो ऐसे 100 से ज़्यादा puzzles चाहिए, पूरे puzzle spectrum में, तभी पता चलेगा कि English dictionary का उपयोग करने वाली strategy कौन बेहतर खोजता है
- agentic workflows में Qwen Flash और DeepSeek Flash models काफी अच्छे लगते हैं
  यह कल यहाँ आई उस टिप्पणी से भी मेल खाता है कि Flash models tool calling बेहतर करते हैं। planning के लिए GPT 5.5 और implementation के लिए Flash model का संयोजन अच्छी value वाला रास्ता हो सकता है
- मेरे अनुभव में benchmarks काफी हद तक बेकार हैं
  performance सिर्फ भाषा और task पर नहीं, बल्कि इस्तेमाल किए गए prompt और अपेक्षित output पर भी निर्भर करती है। हमारी internal testing में GPT 5.5 और Opus 4.7 में कौन बेहतर है, यह तय करना सच में मुश्किल था। उनका style अलग है और बात आखिरकार preference तक पहुँच जाती है। कभी एक मॉडल को बेहतर मानता था, फिर दोबारा सोचकर राय बदल देता था। अंत में मैं Opus 4.7 को थोड़ा ज़्यादा पसंद करता हूँ
- क्या tests और results open source हैं?
- मुझे हैरानी है कि इंसानों के लिए context size का कोई माप क्यों नहीं दिया जा सकता। लगता है कि इतना विज्ञान तो होना चाहिए कि इसका कोई पर्याप्त अच्छा approximation बनाया जा सके
कुछ दिन पहले पढ़े एक शोध के मुताबिक, मौजूदा रफ्तार जारी रही तो open source models कुछ ही वर्षों में cloud models को पीछे छोड़ सकते हैं
कुछ साल पहले के ChatGPT और Claude को देखें तो आज के छोटे Qwen models भी उस समय के cloud-based models की coding क्षमता के लगभग बराबर हैं। scaling laws को जोड़ें तो 9B से 18B जाना लगभग 40% वृद्धि है, जबकि 18B से 35B जाना लगभग 20% के आसपास है, इसलिए cloud-based models में कम-से-कम pricing changes तो आने ही चाहिए। Adobe भी पहले $600 प्रति माह हुआ करता था, लेकिन deployment scale बढ़ने पर $20 हो गया
- यह बात समझ से बाहर है, और ऐसा लगता है कि trend को extrapolate करके वैध सीमा से बहुत आगे ले जाया जा रहा है
  सीधी बात यह है कि cloud models open models से हमेशा सख्ती से बेहतर रह सकते हैं। क्योंकि cloud model providers वही open models खुद भी चला सकते हैं। साथ ही उनके पास specialized hardware से भरे बड़े data centers चलाने की economies of scale और efficiency होती है। वे कम-से-कम किसी के भी बिजली बिल से कम प्रति टोकन लागत पर open models दे सकते हैं। इसके ऊपर उनके पास models और आस-पास के systems पर research करने वाले लोग भी हैं, और GitHub पर चलने वाले tools से हमेशा आगे execution environments बनाए रखने के लिए top engineers लगाने की क्षमता भी
- हो सकता है, लेकिन मुझे hardware वाली तरफ़ चिंता है
  अगर मॉडल काफी अच्छे भी हों, तो क्या होगा अगर cloud model providers inference hardware की procurement में ही बहुत बेहतर रहें?
- “Adobe $600 प्रति माह था और scale के बाद $20 हो गया” — समझ नहीं आ रहा कि किस product की बात हो रही है। Adobe का इतना महँगा product मैंने नहीं सुना
- $600 प्रति माह? क्या आप lifetime license के $600 one-time purchase की बात कर रहे हैं? इतना महँगा Adobe plan मैंने नहीं सुना
- अगर उस research का link है तो कृपया साझा करें
Kimi सच में बहुत अच्छा है
मैंने compiler/VM project में Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen वगैरह इस्तेमाल किए हैं, और Claude Pro plan गंभीर coding काम के लिए लगभग बेकार स्तर का है। इसलिए उसे browser chat mode में इस्तेमाल करता हूँ ताकि वह पूरे project को बेवजह पढ़ न ले, और Kimi को OpenCode Go plan में pi के साथ इस्तेमाल करता हूँ। C+Python projects में Kimi लगातार Sonnet से बेहतर रहा, और मुझे कभी यह चिंता नहीं हुई कि वह माँगी गई चीज़ के अलावा कुछ और करेगा। GLM एक-दो बार बुरी तरह टूट गया था, लेकिन Kimi ने ऐसा नहीं किया
- मैं जानना चाहता हूँ कि “Claude Pro plan गंभीर coding काम के लिए लगभग बेकार है” ऐसा क्यों कहा जा रहा है। यह तो Claude Pro के बारे में आम राय के बिल्कुल उलट लगता है, जहाँ इसे गंभीर coding के लिए मुख्य विकल्प माना जाता है
यह नतीजा एक ही task पर, सिर्फ solution performance के आधार पर है
Kimi K2.6 स्पष्ट रूप से frontier-scale model है, इसलिए इसका बंद frontier models के साथ खड़ा होना बहुत चौंकाने वाला नहीं है। open होना अच्छा है, लेकिन मेरे जैसे व्यक्ति के लिए, जिसके पास सिर्फ एक consumer GPU है, इसका बहुत मतलब नहीं
- open source का मूल्य इस बात में नहीं कि मैं इसे locally चला सकता हूँ, बल्कि इस बात में है कि कोई तो इसे चला सकता है
  भले ही आप बड़े open source model चलाने वाला hardware खरीदने की हैसियत न रखते हों, कोई और रखेगा, और closed model cost के आधे दाम पर भी profit कमा सकता है। अभी यह साफ़ इसलिए नहीं दिख रहा क्योंकि मौजूदा leading token providers inference cost को subsidize कर रहे हैं। जिस क्षण वे quality घटाने और monetization pressure शुरू करेंगे, alternatives का market संभव हो जाएगा। open source models न हों तो असली विकल्प भी नहीं होगा। अगर वे dev cost का 80% भी वसूलना चाहें, तब भी लगभग बराबरी वाले open source models का अस्तित्व उन पर दबाव बनाए रखेगा। उनके पास कोई moat नहीं है
- इसका मतलब बिल्कुल है। इसी वजह से Anthropic और OpenAI के coding plans की तुलना में काफी सस्ते plans संभव हो पाते हैं
  मैं व्यक्तिगत इस्तेमाल के लिए GLM 5.1, Kimi K2.6, MiniMax M2.7, Xiaomi MiMo V2.5 Pro coding plans इस्तेमाल कर रहा हूँ और उनकी value बहुत अच्छी है
- यह वास्तव में बहुत महत्वपूर्ण है
  quality degradation शुरू में दिखेगा नहीं, लेकिन मैं पहले से देख रहा हूँ कि मेरे पसंदीदा frontier models काफ़ी कमजोर हो गए हैं और अब ऐसी बेवकूफ़ियाँ करते हैं जो पहले नहीं करते थे। जैसे-जैसे हमारी निर्भरता बढ़ती जाएगी, हमें ऐसे open weight models चाहिए जो स्थिर platform की भूमिका निभा सकें
- भविष्य इसी दिशा में है। H200 पर चलने वाले open weight models product और वास्तविक infrastructure बनाने के कहीं अधिक अवसर देते हैं
  घर के छोटे RTX के लिए तो बाद में distill किया जा सकता है। लेकिन consumer hardware के हिसाब से बने models का व्यापक adoption पाना या frontier labs से प्रतिस्पर्धी बने रहना मुश्किल है। यह प्रतिस्पर्धा करने योग्य रूप है, और इसके लिए inference चलाने वाली नई पीढ़ी की open cloud infrastructure चाहिए, जिसे यह प्रेरित भी करेगा। पहले “push-button deploy”, “push-button fine-tune” जैसे products आएँगे, और बाद में ऐसे कहीं ज़्यादा advanced products आ सकते हैं जो सिर्फ API के पीछे बंद न रहने वाले open weights से संभव होंगे। अब बस open weight Nano Banana Pro / GPT Image 2, Seedance 2.0 जैसे समकक्ष models चाहिए। लड़ाई और फ़ोकस data-center-grade open weights पर होना चाहिए
ranking देखकर मैं चौंका था, लेकिन test पढ़ने के बाद समझ आया। इसका coding से बहुत कम लेना-देना लगता है
पूरे test की मौजूदा ranking ज़्यादा समझ में आती है। बस Gemini के इतना अच्छा करने को छोड़कर: https://aicc.rayonnant.ai
- ranking details देखें तो Kimi K2.6 ने केवल हाल की 5 challenges में हिस्सा लिया है। उससे पहले Claude हावी था, और अगर सिर्फ हाल की 5 देखें तो Kimi नंबर 1 है
- gold-medal ranking तभी मायने रखती है जब सभी models सभी tests में शामिल हुए हों
  DNP का मतलब है participate नहीं किया। इस नज़रिए से Kimi ने Claude से ज़्यादा और बेहतर medals लिए हैं
- इतने सारे models सँभालने वाली site का mobile पर responsive न होना विडंबना है
- दिया गया link वस्तुतः Kimi की बढ़त की पुष्टि ही करता है
यह सिर्फ एक anecdote है, लेकिन पिछले कुछ महीनों से Claude Code ही इस्तेमाल करने के बाद, Pi + Kimi K2.6 की क्षमता देखकर अच्छा-सा आश्चर्य हुआ। OpenRouter के ज़रिए इस्तेमाल करने पर यह कहीं तेज़ है और लागत भी बहुत कम है
दुर्भाग्य से Kimi GPT या Opus के करीब भी नहीं पहुँचता। काश ऐसा होता, लेकिन नहीं
मैं एक evaluation चला रहा हूँ जहाँ मॉडल को 3D models बनाने वाला code लिखना होता है, और साफ़ दिखता है कि इसमें spatial understanding की कमी है और सफल होने से पहले यह कहीं ज़्यादा code errors करता है। कुछ खास मामलों में यह बेहतर हो सकता है, और मुझे लगता है यह ब्लॉग पोस्ट ऐसा ही एक उदाहरण है
- थोड़ा विषयांतर है, लेकिन पिछले कुछ हफ्तों से DeepSeek V4 Pro इस्तेमाल करके मुझे लगा कि यह सामान्यतः Opus के बराबर है। लेकिन Blender के मामले में नहीं
  यह visual issue भी नहीं है। DeepSeek multimodal नहीं है, फिर भी किसी कारण से Opus Blender API को कहीं बेहतर समझता है। लगता है ऐसे छोटे-छोटे क्षेत्र हमेशा रहेंगे जहाँ बंद frontier models थोड़ा बेहतर करेंगे
- निष्पक्ष रूप से कहें तो हर किसी को 3D models की ज़रूरत नहीं होती
यह कम और ज़्यादा ऐसा लगता है कि Kimi, Claude से बेहतर coding करता है; बल्कि ज़्यादा ऐसा कि एक खास game की सही strategy Kimi ने खोज ली
फिर भी यह दिलचस्प है। असली बात शायद यह है कि open weight models अब इतने करीब पहुँच गए हैं कि वह अंतर मायने रखने लगे
मुझे AI क्षेत्र की ज़्यादा जानकारी नहीं है, लेकिन किसी भी model को हर व्यक्ति के लिए सब कुछ करने लायक train करने की कोशिश सच में मूर्खतापूर्ण लगती है
इसमें अपार संसाधन लगते हैं, और AI कंपनियाँ जिन संसाधनों का उपयोग करती हैं — RAM, SSD, data centers आदि — उनमें गंभीर कमी और market distortion पैदा होता है। असल दुनिया में आप plumber को hire करके उससे landscaping, car repair और कपड़ों की मरम्मत की उम्मीद नहीं करते। उदाहरण के लिए, अगर shell, Python, और C coding के लिए विशेष apps डाउनलोड किए जा सकें, या यहाँ तक कि ऐसे 3 apps आपस में communicate करें, तो resource utilization के लिहाज़ से यह कहीं बेहतर लगता है। शायद 16GB RAM वाली सामान्य machine पर भी चल सके। Fortran, COBOL, Lisp तक coding कर सकने वाला एक विशाल model ज़रूरी नहीं है। इंसानों ने specialization के साथ काफी अच्छा काम किया है, और मैं चाहता हूँ कि छोटे, focused AI models पर अधिक खोज हो, बजाय इस मौजूदा रास्ते के जहाँ “एक model सब पर राज करेगा और सिर्फ nation-scale data centers में चलेगा”
- मूल रूप से यह सही है, लेकिन हमेशा नहीं
  GPT-3 के बाद से लोग कहते आए हैं कि कोई मॉडल इतना general-purpose हो ही नहीं सकता, इसलिए fine-tuning बेहतर है, लेकिन हर पीढ़ी के साथ यह बात कम सही साबित होती जा रही है

Kimi K2.6 ने कोडिंग चैलेंज में Claude, GPT-5.5 और Gemini को हराया

प्रतियोगिता की संरचना और भाग लेने वाले मॉडल

Word Gem Puzzle के नियम

मॉडल के व्यवहार और सफलता-असफलता के कारण

Kimi K2.6

MiMo V2-Pro

Claude Opus 4.7

GPT-5.5

Grok Expert 4.2 और GLM 5.1

DeepSeek V4

Muse Spark

30×30 grid ने जो अंतर पैदा किया

structured tasks में दिखे जोखिम

नतीजों की व्याख्या की सीमाएं और महत्व

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय