9 पॉइंट द्वारा GN⁺ 2025-04-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemini 2.5 Pro code लिखने में अधिक बेहतर है
  • Claude 3.7 Sonnet भी शानदार है, लेकिन अभी Gemini 2.5 Pro का उपयोग करना ज़्यादा फ़ायदेमंद है
  • 1 million token context window और free में उपलब्ध होना इसके बड़े फ़ायदे हैं
  • पहले Claude 3.7 Sonnet हमेशा comparison का baseline था, लेकिन अब यह बदल गया है

Gemini 2.5 Pro का संक्षिप्त परिचय

  • Google ने इसे 26 मार्च 2025 को एक experimental reasoning model के रूप में लॉन्च किया
  • लॉन्च के बाद Twitter(X), YouTube आदि पर इसने बहुत बड़ी प्रतिक्रिया पैदा की
  • LMArena में 1st place दर्ज किया, और code writing, math, science, image understanding आदि में बहुत उत्कृष्ट performance दिखाई
  • 1 million token context window देता है, और आगे 2 million tokens भी आने की घोषणा है
  • SWE Bench के अनुसार इसकी accuracy 63.8% है, जो Claude 3.7 Sonnet के 62.3% से अधिक है
  • Google द्वारा दिखाए गए dinosaur game demo सहित कई उदाहरणों ने इसकी उत्कृष्ट performance साबित की
  • कुल मिलाकर इसे सिर्फ coding ही नहीं, बल्कि हर तरह के intelligent tasks के लिए उपयुक्त all-round model माना जा रहा है

Coding test तुलना

1. Flight simulator बनाना

  • Gemini 2.5 Pro
    • पूरी तरह काम करने वाला simulator बनाया
    • airplane control, Minecraft-style city generation आदि सभी requirements पूरी कीं
    • completeness 10/10
  • Claude 3.7 Sonnet
    • airplane के sideways उड़ने और city के बाहर निकल जाने की समस्या आई
    • functional completeness कम रही
  • सारांश: Gemini 2.5 Pro की पूरी जीत

2. Rubik's Cube visualization और solving

  • Gemini 2.5 Pro
    • एक ही बार में सटीक visualization और solving लागू किया
    • Three.js का उपयोग करके cube colors, random shuffle, animation आदि पूरी तरह लागू किए
  • Claude 3.7 Sonnet
    • colors दिखाने में असफल रहा और solve भी नहीं कर पाया
    • अन्य LLMs जैसी सीमाएँ दिखीं
  • सारांश: इस श्रेणी में भी Gemini 2.5 Pro का दबदबा रहा

3. 4-dimensional tesseract के अंदर उछलती गेंद का visualization

  • Gemini 2.5 Pro
    • physical collision, face highlighting आदि सभी requirements पूरी कीं
    • code quality और working state दोनों बहुत उत्कृष्ट रहे
  • Claude 3.7 Sonnet
    • functionality काम करती है, लेकिन अनावश्यक colors जोड़ दिए
    • फिर भी required features पूरे किए
  • सारांश: दोनों models ने requirements पूरी कीं, Claude भी आखिरकार सफल रहा

4. LeetCode समस्या: 3 rooks रखकर maximum sum निकालना

  • Gemini 2.5 Pro
    • code जटिल था, लेकिन solution सही था
    • time complexity का भी उचित ध्यान रखा गया
  • Claude 3.7 Sonnet
    • code संक्षिप्त लिखा, लेकिन time limit exceeded (TLE) हुआ
    • समझना आसान था, पर performance के मामले में कमजोर रहा
  • सारांश: performance और accuracy दोनों में Gemini 2.5 Pro आगे रहा

निष्कर्ष

  • Gemini 2.5 Pro स्पष्ट बढ़त में है
    • context window, accuracy, multitasking performance में यह Claude 3.7 Sonnet से आगे है
  • Claude अभी भी एक शानदार model है, लेकिन फिलहाल Gemini का उपयोग करना अधिक efficient है
  • भविष्य में 2 million token window तक विस्तार होने पर इसकी performance और बेहतर होने की संभावना है
  • Google के हाल के Gemma 3 27B lightweight model के साथ मिलकर यह एक मजबूत AI lineup बनाता है

1 टिप्पणियां

 
GN⁺ 2025-04-01
Hacker News की राय
  • मैं असली coding problems पर cash prize प्रतियोगिता रखना चाहता हूँ। नियम तय करने होंगे। मुझे संदेह है कि LLM इस समस्या को हल कर पाएगा

    • यह Solvespace का GTK 4 version बनाना है
    • हर platform के लिए एक single C++ file मौजूद है
    • लक्ष्य GTK3 file को GTK4 में फिर से लिखना है
    • अगर आप AI की performance साबित करना चाहते हैं, तो पूरे session को document करके YouTube video बनाने की सलाह दूँगा
    • अंतिम test यह है कि PR स्वीकार होगा या नहीं
  • Gemini model ही एकमात्र model है जो बताता है कि conversation कब बंद होने वाली है

    • ChatGPT में context भर जाने पर बातचीत भूल जाने की प्रवृत्ति होती है
    • Gemini में tools की कमी है, लेकिन default रूप से यह बेहतर model जैसा लगता है
  • मैंने Gemini 2.5 Pro इस्तेमाल किया है, और मुझे यह काफ़ी ठीक लगा

    • Claude 3.5 instructions follow करने में बेहतर लगता है
    • Cursor और Claude CLI tools से निराशा हुई
    • Gemini का context window दिखाने का तरीका अच्छा है
    • मुझे लगता है कि बाज़ार बड़ी AI कंपनियों की valuations सहन नहीं कर सकता
    • कभी-कभी free models बेहतर होते हैं
  • AI model competition में हारने वाला Microsoft लगता है

    • जब ChatGPT ही एकमात्र विकल्प था, तब Microsoft को leader माना जाता था
    • Copilot एक असफल product है, और Bing AI का लाभ नहीं उठा पाया
    • Google के Sundar Pichai ने कहा कि वे Microsoft के model से तुलना करना चाहते हैं
  • Gemini 2.5 Pro ने aider polyglot coding leaderboard पर high score दर्ज किया है

    • इसका मुख्य रूप से aider की latest release पर काम करने में उपयोग हुआ
    • अभी Gemini की सबसे बड़ी समस्या सख़्त rate limits हैं
  • Rubik's Cube उदाहरण में Gemini 2.5 ने memorized scrambling sequence का उपयोग किया

    • scrambling sequence को उल्टे क्रम में बदलकर cube हल किया
  • 90s में Visual Basic इस्तेमाल करते समय template से नया project बनाना दिलचस्प था

    • AI coding वैसी ही लगती है, लेकिन बढ़ा-चढ़ाकर पेश की गई
    • यह भी कहा गया कि Claude के विमान के बगल में होने की बात को लेकर भ्रम था
  • Gemini 2.5 complex Cython code में खास अच्छा नहीं है

    • Claude और o3 instructions अच्छी तरह follow करते हैं
    • Gemini असंबंधित बदलाव करने की कोशिश करता है
  • इस पर सवाल है कि क्या निष्पक्ष discussion की ज़रूरत है

    • OP link, Composio के लिए पक्षपाती विज्ञापन जैसा लगता है
    • Gemini 2.5 Pro के बारे में बढ़ा-चढ़ाकर दावे हैं
  • सभी test tasks greenfield projects हैं

    • LLM का उपयोग करने के लिए आपको existing projects में बदलाव या संशोधन करने होते हैं
    • मुझे लगता है कि ऐसे tests model की उपयोगिता मापने के लिए अर्थपूर्ण नहीं हैं