- पिछले 5 वर्षों में अलग-अलग कंपनियों ने प्रतिस्पर्धा में 2K से 2M तक context window का आकार बढ़ाया है
- लेकिन कई लोगों का कहना है कि मॉडल पर दिखाया गया context window size और वास्तविक उपयोग में काम आने वाला आकार अलग होता है
- Gemini 2.5 Pro, GPT-5, Claude, Qwen, Llama जैसे प्रमुख मॉडलों के वास्तविक प्रदर्शन की तुलना करने पर प्रचारित दावों से काफी अलग अनुभव सामने आते हैं
- “बड़ा context मायने रखता है, लेकिन व्यवहार में यह केवल 4–8k के आसपास ही ठीक से काम करता है” जैसी संशयपूर्ण राय और “इसे कई लाख tokens तक वास्तविक उपयोग में लिया जा सकता है” जैसे सकारात्मक अनुभव आमने-सामने हैं
मुख्य बिंदु
-
1. वास्तविक उपयोग योग्य context size
- वास्तविक उपयोग की टाइमलाइन 1k→2k→4k→8k→8k→8k→32k→40k रही, और केवल Gemini 2.5 Pro ही 80k तक संभव दिखा
- अभी भी व्यावहारिक उपयोग सीमा 4–8k ही मानी जाती है
- “label किया गया size मायने नहीं रखता, उपयोग योग्य context length महत्वपूर्ण है”
- घोषित size और वास्तविक उपयोग size के बीच के अंतर को स्वीकार किया गया
-
2. Gemini का प्रदर्शन
- Gemini 2.5 Pro 250k तक स्थिर है, 500k भी उपयोग योग्य है, और 800k पर जवाब आता है लेकिन सटीकता घटती है
- 200k तक गिरावट बहुत धीमी है, और उसके बाद भी Gemini सबसे बेहतर दिखता है
- Gemini, RoPE extension के बजाय sequence sharding जैसी अपनी architecture का उपयोग करता है, और कुछ layers पूरे token set पर dense attention चलाती हैं
-
3. GPT-5 का मूल्यांकन
- GPT-5-thinking 200k से ऊपर भी अच्छी तरह काम करता है
- 100k तक यह बहुत सटीक है, लेकिन Gemini की तुलना में इसका प्रदर्शन जल्दी गिरता है
-
4. Claude का मूल्यांकन
- Claude बड़े context को बनाए रखने में कमजोर है, इस पर आम सहमति दिखी
- यह details, घटनाओं का क्रम, method names आदि गलत याद करता है या hallucination करता है
- Claude Sonnet 4 को 4k पर भी memory से जुड़ी समस्या है, और यह Qwen 32b से भी कमजोर बताया गया
- “Claude वाकई खराब है, मैं Qwen पर चला गया”
-
5. Qwen, Mistral, Gemma आदि
- Mistral Large, Gemma3 27B 32k पर ठीक-ठाक लगते हैं
- Gemma3 सबसे खराब स्तर पर बताया गया, Fiction.live benchmark देखने की सलाह दी गई
-
6. Llama series
- Llama 4 Scout के बारे में 1 करोड़ tokens support करने का दावा है
- वास्तविक उपयोग योग्य सीमा इससे बहुत कम है। 0.5M context test में इसने केवल आखिरी दस्तावेज़ का सार दिया, इसलिए बड़े codebase के लिए भी यह उपयुक्त नहीं माना गया
-
7. मॉडल-विशिष्ट विस्तृत अनुभव
- “consistency (coherence) ≠ वास्तविक उपयोगिता”, Gemini 2.5 Pro को भी 10–20k उपन्यास सारांश में context tracking में कठिनाई हुई
- Gemini 1.5 Pro अन्य क्षेत्रों में कमजोर है, लेकिन लंबे context की व्याख्या में उसे 2.5 Pro से बेहतर माना गया
- agent-style coding tools में system prompt ही 20k से ऊपर होता है, इसलिए यह कहना कि केवल 4–8k ही इस्तेमाल हो सकता है, सही नहीं है। हालांकि शुरुआती context सबसे अधिक स्थिर रहता है
अन्य
- टूल/रिसोर्स साझा:
- animation graphic बनाने का टूल: Remotion
- performance degradation से जुड़ी सामग्री: LoCoDiff-bench
निष्कर्ष
- साझा सहमति: हर मॉडल में “official spec” और “वास्तविक उपयोग प्रदर्शन” के बीच बड़ा अंतर है
- Gemini: आम तौर पर सबसे अधिक स्थिर और बड़े context में भी मजबूत माना गया
- GPT-5: मध्यम सीमा तक शानदार, लेकिन गिरावट Gemini से पहले शुरू होती है
- Claude: लंबे context के उपयोग में सबसे कमज़ोर आंका गया
- Llama/Gemma: support specs की तुलना में वास्तविक उपयोगिता कमज़ोर है
3 टिप्पणियां
मुझे सच कहूँ तो benchmarks में जैसा कहा जाता है, वैसा कोई बहुत बड़ा फर्क महसूस नहीं हुआ।
मेरे अनुभव में बस “थोड़ा बेहतर” जैसा स्तर है, कोई बहुत नाटकीय अंतर नहीं लगा।
उल्टा, मॉडलों की performance अब काफी हद तक बराबर हो गई है, इसलिए लोगों को उनकी तुलना और सख्ती से करते हुए भी ऐसा महसूस होता है, हाहा।
आखिरकार, असली बात यह है कि उसे किस situation में इस्तेमाल किया जा रहा है, उसी पर फर्क पड़ता है।
Gemini का context window बहुत बड़ा है, इसलिए यह बड़े codebase या लंबे context को बनाए रखने में अच्छा लग सकता है, और Claude की ताकत stable coding accuracy है, इसलिए use case के हिसाब से चुनना सही रहेगा।
AI बेंचमार्क नंबरों को छोड़कर, क्या वास्तविक उपयोग अनुभव में ऐसा कोई मॉडल है जिसकी coding performance Claude से बेहतर हो?
Claude में लंबे context में कुछ कमियां हैं, लेकिन coding सबसे अच्छी वही करता है।