- Gemini 2.5 Pro code लिखने में अधिक बेहतर है
- Claude 3.7 Sonnet भी शानदार है, लेकिन अभी Gemini 2.5 Pro का उपयोग करना ज़्यादा फ़ायदेमंद है
- 1 million token context window और free में उपलब्ध होना इसके बड़े फ़ायदे हैं
- पहले Claude 3.7 Sonnet हमेशा comparison का baseline था, लेकिन अब यह बदल गया है
Gemini 2.5 Pro का संक्षिप्त परिचय
- Google ने इसे 26 मार्च 2025 को एक experimental reasoning model के रूप में लॉन्च किया
- लॉन्च के बाद Twitter(X), YouTube आदि पर इसने बहुत बड़ी प्रतिक्रिया पैदा की
- LMArena में 1st place दर्ज किया, और code writing, math, science, image understanding आदि में बहुत उत्कृष्ट performance दिखाई
- 1 million token context window देता है, और आगे 2 million tokens भी आने की घोषणा है
- SWE Bench के अनुसार इसकी accuracy 63.8% है, जो Claude 3.7 Sonnet के 62.3% से अधिक है
- Google द्वारा दिखाए गए dinosaur game demo सहित कई उदाहरणों ने इसकी उत्कृष्ट performance साबित की
- कुल मिलाकर इसे सिर्फ coding ही नहीं, बल्कि हर तरह के intelligent tasks के लिए उपयुक्त all-round model माना जा रहा है
Coding test तुलना
1. Flight simulator बनाना
- Gemini 2.5 Pro
- पूरी तरह काम करने वाला simulator बनाया
- airplane control, Minecraft-style city generation आदि सभी requirements पूरी कीं
- completeness 10/10
- Claude 3.7 Sonnet
- airplane के sideways उड़ने और city के बाहर निकल जाने की समस्या आई
- functional completeness कम रही
- सारांश: Gemini 2.5 Pro की पूरी जीत
2. Rubik's Cube visualization और solving
- Gemini 2.5 Pro
- एक ही बार में सटीक visualization और solving लागू किया
- Three.js का उपयोग करके cube colors, random shuffle, animation आदि पूरी तरह लागू किए
- Claude 3.7 Sonnet
- colors दिखाने में असफल रहा और solve भी नहीं कर पाया
- अन्य LLMs जैसी सीमाएँ दिखीं
- सारांश: इस श्रेणी में भी Gemini 2.5 Pro का दबदबा रहा
3. 4-dimensional tesseract के अंदर उछलती गेंद का visualization
- Gemini 2.5 Pro
- physical collision, face highlighting आदि सभी requirements पूरी कीं
- code quality और working state दोनों बहुत उत्कृष्ट रहे
- Claude 3.7 Sonnet
- functionality काम करती है, लेकिन अनावश्यक colors जोड़ दिए
- फिर भी required features पूरे किए
- सारांश: दोनों models ने requirements पूरी कीं, Claude भी आखिरकार सफल रहा
4. LeetCode समस्या: 3 rooks रखकर maximum sum निकालना
- Gemini 2.5 Pro
- code जटिल था, लेकिन solution सही था
- time complexity का भी उचित ध्यान रखा गया
- Claude 3.7 Sonnet
- code संक्षिप्त लिखा, लेकिन time limit exceeded (TLE) हुआ
- समझना आसान था, पर performance के मामले में कमजोर रहा
- सारांश: performance और accuracy दोनों में Gemini 2.5 Pro आगे रहा
निष्कर्ष
- Gemini 2.5 Pro स्पष्ट बढ़त में है
- context window, accuracy, multitasking performance में यह Claude 3.7 Sonnet से आगे है
- Claude अभी भी एक शानदार model है, लेकिन फिलहाल Gemini का उपयोग करना अधिक efficient है
- भविष्य में 2 million token window तक विस्तार होने पर इसकी performance और बेहतर होने की संभावना है
- Google के हाल के Gemma 3 27B lightweight model के साथ मिलकर यह एक मजबूत AI lineup बनाता है
1 टिप्पणियां
Hacker News की राय
मैं असली coding problems पर cash prize प्रतियोगिता रखना चाहता हूँ। नियम तय करने होंगे। मुझे संदेह है कि LLM इस समस्या को हल कर पाएगा
Gemini model ही एकमात्र model है जो बताता है कि conversation कब बंद होने वाली है
मैंने Gemini 2.5 Pro इस्तेमाल किया है, और मुझे यह काफ़ी ठीक लगा
AI model competition में हारने वाला Microsoft लगता है
Gemini 2.5 Pro ने aider polyglot coding leaderboard पर high score दर्ज किया है
Rubik's Cube उदाहरण में Gemini 2.5 ने memorized scrambling sequence का उपयोग किया
90s में Visual Basic इस्तेमाल करते समय template से नया project बनाना दिलचस्प था
Gemini 2.5 complex Cython code में खास अच्छा नहीं है
इस पर सवाल है कि क्या निष्पक्ष discussion की ज़रूरत है
सभी test tasks greenfield projects हैं