Gemini 2.5 Pro और Claude 3.7 Sonnet की coding तुलना

(composio.dev)

9 पॉइंट द्वारा GN⁺ 2025-04-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Gemini 2.5 Pro code लिखने में अधिक बेहतर है
Claude 3.7 Sonnet भी शानदार है, लेकिन अभी Gemini 2.5 Pro का उपयोग करना ज़्यादा फ़ायदेमंद है
1 million token context window और free में उपलब्ध होना इसके बड़े फ़ायदे हैं
पहले Claude 3.7 Sonnet हमेशा comparison का baseline था, लेकिन अब यह बदल गया है

Gemini 2.5 Pro का संक्षिप्त परिचय

Google ने इसे 26 मार्च 2025 को एक experimental reasoning model के रूप में लॉन्च किया
लॉन्च के बाद Twitter(X), YouTube आदि पर इसने बहुत बड़ी प्रतिक्रिया पैदा की
LMArena में 1st place दर्ज किया, और code writing, math, science, image understanding आदि में बहुत उत्कृष्ट performance दिखाई
1 million token context window देता है, और आगे 2 million tokens भी आने की घोषणा है
SWE Bench के अनुसार इसकी accuracy 63.8% है, जो Claude 3.7 Sonnet के 62.3% से अधिक है
Google द्वारा दिखाए गए dinosaur game demo सहित कई उदाहरणों ने इसकी उत्कृष्ट performance साबित की
कुल मिलाकर इसे सिर्फ coding ही नहीं, बल्कि हर तरह के intelligent tasks के लिए उपयुक्त all-round model माना जा रहा है

Coding test तुलना

1. Flight simulator बनाना

Gemini 2.5 Pro
- पूरी तरह काम करने वाला simulator बनाया
- airplane control, Minecraft-style city generation आदि सभी requirements पूरी कीं
- completeness 10/10
Claude 3.7 Sonnet
- airplane के sideways उड़ने और city के बाहर निकल जाने की समस्या आई
- functional completeness कम रही
सारांश: Gemini 2.5 Pro की पूरी जीत

2. Rubik's Cube visualization और solving

Gemini 2.5 Pro
- एक ही बार में सटीक visualization और solving लागू किया
- Three.js का उपयोग करके cube colors, random shuffle, animation आदि पूरी तरह लागू किए
Claude 3.7 Sonnet
- colors दिखाने में असफल रहा और solve भी नहीं कर पाया
- अन्य LLMs जैसी सीमाएँ दिखीं
सारांश: इस श्रेणी में भी Gemini 2.5 Pro का दबदबा रहा

3. 4-dimensional tesseract के अंदर उछलती गेंद का visualization

Gemini 2.5 Pro
- physical collision, face highlighting आदि सभी requirements पूरी कीं
- code quality और working state दोनों बहुत उत्कृष्ट रहे
Claude 3.7 Sonnet
- functionality काम करती है, लेकिन अनावश्यक colors जोड़ दिए
- फिर भी required features पूरे किए
सारांश: दोनों models ने requirements पूरी कीं, Claude भी आखिरकार सफल रहा

4. LeetCode समस्या: 3 rooks रखकर maximum sum निकालना

Gemini 2.5 Pro
- code जटिल था, लेकिन solution सही था
- time complexity का भी उचित ध्यान रखा गया
Claude 3.7 Sonnet
- code संक्षिप्त लिखा, लेकिन time limit exceeded (TLE) हुआ
- समझना आसान था, पर performance के मामले में कमजोर रहा
सारांश: performance और accuracy दोनों में Gemini 2.5 Pro आगे रहा

निष्कर्ष

Gemini 2.5 Pro स्पष्ट बढ़त में है
- context window, accuracy, multitasking performance में यह Claude 3.7 Sonnet से आगे है
Claude अभी भी एक शानदार model है, लेकिन फिलहाल Gemini का उपयोग करना अधिक efficient है
भविष्य में 2 million token window तक विस्तार होने पर इसकी performance और बेहतर होने की संभावना है
Google के हाल के Gemma 3 27B lightweight model के साथ मिलकर यह एक मजबूत AI lineup बनाता है

1 टिप्पणियां

GN⁺ 2025-04-01

Hacker News की राय

मैं असली coding problems पर cash prize प्रतियोगिता रखना चाहता हूँ। नियम तय करने होंगे। मुझे संदेह है कि LLM इस समस्या को हल कर पाएगा
- यह Solvespace का GTK 4 version बनाना है
- हर platform के लिए एक single C++ file मौजूद है
- लक्ष्य GTK3 file को GTK4 में फिर से लिखना है
- अगर आप AI की performance साबित करना चाहते हैं, तो पूरे session को document करके YouTube video बनाने की सलाह दूँगा
- अंतिम test यह है कि PR स्वीकार होगा या नहीं
Gemini model ही एकमात्र model है जो बताता है कि conversation कब बंद होने वाली है
- ChatGPT में context भर जाने पर बातचीत भूल जाने की प्रवृत्ति होती है
- Gemini में tools की कमी है, लेकिन default रूप से यह बेहतर model जैसा लगता है
मैंने Gemini 2.5 Pro इस्तेमाल किया है, और मुझे यह काफ़ी ठीक लगा
- Claude 3.5 instructions follow करने में बेहतर लगता है
- Cursor और Claude CLI tools से निराशा हुई
- Gemini का context window दिखाने का तरीका अच्छा है
- मुझे लगता है कि बाज़ार बड़ी AI कंपनियों की valuations सहन नहीं कर सकता
- कभी-कभी free models बेहतर होते हैं
AI model competition में हारने वाला Microsoft लगता है
- जब ChatGPT ही एकमात्र विकल्प था, तब Microsoft को leader माना जाता था
- Copilot एक असफल product है, और Bing AI का लाभ नहीं उठा पाया
- Google के Sundar Pichai ने कहा कि वे Microsoft के model से तुलना करना चाहते हैं
Gemini 2.5 Pro ने aider polyglot coding leaderboard पर high score दर्ज किया है
- इसका मुख्य रूप से aider की latest release पर काम करने में उपयोग हुआ
- अभी Gemini की सबसे बड़ी समस्या सख़्त rate limits हैं
Rubik's Cube उदाहरण में Gemini 2.5 ने memorized scrambling sequence का उपयोग किया
- scrambling sequence को उल्टे क्रम में बदलकर cube हल किया
90s में Visual Basic इस्तेमाल करते समय template से नया project बनाना दिलचस्प था
- AI coding वैसी ही लगती है, लेकिन बढ़ा-चढ़ाकर पेश की गई
- यह भी कहा गया कि Claude के विमान के बगल में होने की बात को लेकर भ्रम था
Gemini 2.5 complex Cython code में खास अच्छा नहीं है
- Claude और o3 instructions अच्छी तरह follow करते हैं
- Gemini असंबंधित बदलाव करने की कोशिश करता है
इस पर सवाल है कि क्या निष्पक्ष discussion की ज़रूरत है
- OP link, Composio के लिए पक्षपाती विज्ञापन जैसा लगता है
- Gemini 2.5 Pro के बारे में बढ़ा-चढ़ाकर दावे हैं
सभी test tasks greenfield projects हैं
- LLM का उपयोग करने के लिए आपको existing projects में बदलाव या संशोधन करने होते हैं
- मुझे लगता है कि ऐसे tests model की उपयोगिता मापने के लिए अर्थपूर्ण नहीं हैं

Gemini 2.5 Pro और Claude 3.7 Sonnet की coding तुलना

Gemini 2.5 Pro का संक्षिप्त परिचय

Coding test तुलना

1. Flight simulator बनाना

2. Rubik's Cube visualization और solving

3. 4-dimensional tesseract के अंदर उछलती गेंद का visualization

4. LeetCode समस्या: 3 rooks रखकर maximum sum निकालना

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय