Gemini 3.0, A/B टेस्टिंग के ज़रिये सार्वजनिक रूप से पकड़ा गया

(ricklamers.io)

5 पॉइंट द्वारा GN⁺ 2025-10-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

कुछ उपयोगकर्ताओं ने देखा कि Google AI Studio में नया Gemini 3.0 मॉडल A/B टेस्ट के रूप में उपलब्ध कराया जा रहा है
Gemini 3.0 अगली पीढ़ी का मॉडल है, जिससे कोडिंग परफ़ॉर्मेंस में सुधार की उम्मीद है, और वास्तविक उपयोगकर्ताओं ने SVG इमेज जनरेशन टेस्ट के ज़रिये गुणवत्ता का अंतर देखा
टेस्ट के नतीजों में Xbox 360 कंट्रोलर के SVG जनरेशन आउटपुट में उल्लेखनीय सुधार दिखा, जो Gemini 2.5 Pro की तुलना में बड़ा उन्नयन है
मॉडल आइडेंटिफ़ायर ecpt50a2y6mpgkcn है, और इसके Gemini 3.0 Pro वर्ज़न होने की संभावना अधिक है; साथ ही आउटपुट लंबाई 40% बढ़ना और TTFT में 24 सेकंड की बढ़ोतरी जैसी परफ़ॉर्मेंस बदलावटें भी देखी गईं
यह संकेत देता है कि Google ने अगली पीढ़ी के Gemini मॉडल की प्रयोगात्मक डिप्लॉयमेंट शुरू कर दी है, यानी औपचारिक सार्वजनिक रिलीज़ अब क़रीब हो सकती है

Gemini 3.0 का अनौपचारिक सार्वजनिक प्रकट होना और संदर्भ

हाल की अफ़वाहों के अनुसार, Google AI Studio में A/B टेस्ट के ज़रिये कुछ उपयोगकर्ताओं को Gemini 3.0 तक पहुँच मिली है
Gemini 3.0 इस समय AI क्षेत्र में AI इमेज रेंडरिंग और कोडिंग परफ़ॉर्मेंस सुधार की उम्मीदों के कारण काफ़ी ध्यान आकर्षित कर रहा है
कई बार कोशिश करने के बाद A/B टेस्ट स्क्रीन का प्रत्यक्ष अनुभव हुआ
इस्तेमाल किया गया प्रॉम्प्ट : Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
नतीजे में Gemini 3.0 द्वारा बनाया गया Xbox कंट्रोलर SVG डिटेल, सटीकता और लेआउट की पूर्णता के मामले में मौजूदा मॉडल से कहीं बेहतर था
Gemini 3.0 का मॉडल ID ecpt50a2y6mpgkcn के रूप में पुष्टि हुआ, लेकिन सटीक वर्ज़न जानकारी जानना मुश्किल है
चूँकि डिफ़ॉल्ट चयनित मॉडल Gemini 2.5 Pro था, इसलिए यह अनुमान लगाया जा सकता है कि तुलना वास्तव में Gemini 3.0 Pro से थी
Gemini 2.5 Pro की तुलना में
- TTFT(Time to First Token) में लगभग 24 सेकंड की वृद्धि
- आउटपुट लंबाई में लगभग 40% वृद्धि
- reasoning tokens शामिल होने की संभावना

Appendix

Gemini 3.0 और Gemini 2.5 Pro के बीच A/B तुलना के आउटपुट इमेजों की सूची

1 टिप्पणियां

GN⁺ 2025-10-17

Hacker News राय

शायद मैं अल्पसंख्यक में हूँ, लेकिन मेरी कंपनी में सभी pro models उपलब्ध हैं, और मेरे अनुभव में Gemini हमेशा ChatGPT, Claude, Deepseek से बेहतर रहा है। शायद इसलिए क्योंकि मैं web development, खासकर HTML/SCSS पर बहुत काम करता हूँ, और मुझे लगता है Google के पास इंटरनेट crawl करने की वजह से ज्यादा data होने का फायदा है। हर model की अपनी ताकत होती है, लेकिन UI/UX web development में Gemini वाकई शानदार लगता है। 3.0 version का सच में इंतज़ार है
- मुझे लगा कि Gemini 2.5 Pro, Claude और GPT-5 से खासकर नीचे दिए गए दो मामलों में बेहतर है।
  - creative writing: Gemini दूसरे models की तुलना में बहुत आगे है। मेरी नज़र में Gemini 2.5 Pro ही एकमात्र model है जिसे किसी हद तक creative writing (कविता, short story) के लिए इस्तेमाल किया जा सकता है। nuance समझने की इसकी क्षमता काफी अच्छी है, इसलिए मैं अपनी रचनात्मक लिखाई की समीक्षा के लिए इसका इस्तेमाल करता हूँ। हालांकि कविता लेखन जैसे क्षेत्रों में अभी भी सभी models कमज़ोर हैं
  - complex reasoning (undergrad/graduate level mathematics): Gemini थोड़ा सा ज्यादा accurate है, इसलिए मुझे यह सबसे अच्छा लगता है। Claude Opus 4.1 और Sonnet 4.5 भी करीब हैं, लेकिन Gemini 2.5 ज्यादा consistent और predictable जवाब देता है (मैं इसे algebra, commutative algebra, category theory, algebraic geometry, topology आदि में अक्सर इस्तेमाल करता हूँ)
  - लेकिन पूरे बड़े codebase को search करने या open-ended सवालों पर refactoring करवाने जैसे 'agent' रोल में Gemini, Claude और GPT-5 से कमजोर है। tool calling में कुछ आंशिक समस्याएँ हैं, इसलिए Copilot/Cursor में यह inconsistent व्यवहार करता है
  - कुल मिलाकर मुझे Gemini 2.5 Pro सबसे smart लगता है, लेकिन हर task के लिए अलग model इस्तेमाल करना ही सही है
- कुछ हफ्ते पहले, एक third-party script मेरे React button के click event में दखल दे रही थी, इसलिए मैं mousedown event जोड़कर उसे ठीक करना चाहता था। मैं थका हुआ था, इसलिए जल्दी-जल्दी mousedown के कुछ ms बाद click simulate करने वाले code से काम चलाना चाहता था। मैंने Gemini को अपना plan समझाया, तो उसने सीधे मना कर दिया और कहा कि mousedown और mouseup को combine करके handle करो, और एक ज्यादा साफ़ solution दिया। उसने समस्या को पूरी तरह समझकर मेरी माँगी हुई approach की बजाय बेहतर तरीका सुझाया, यह देखकर मैं सच में हैरान था
- हमारी कंपनी में major LLM models का benchmarking चल रहा है, और Gemini 2.5 कुछ बहुत specific क्षेत्रों को छोड़कर भारी अंतर से नंबर 1 है। यह इस बात से मेल खाता है कि Google की pretraining सबसे अच्छी होने की चर्चा है, बस tuning/alignment में थोड़ी कमी लगती है। यही वजह है कि Gemini 3 version का बहुत इंतज़ार है। 2.5 बेहतरीन है, लेकिन इसमें अभी भी सुधार की काफी गुंजाइश है। (specific क्षेत्र: 'real reasoning' (GPT-5) और Python scripting (Claude परिवार))
- search accuracy या fact-based tasks में मुझे Claude और Gemini दोनों, ChatGPT से काफी कमजोर लगते हैं। Gemini कुछ ही searches के बाद बातें गढ़ने लगता है, जबकि ChatGPT दर्जनों से लेकर सैकड़ों बार तक search दोहराता है, और पहले मिले नतीजों के आधार पर आगे और searches करता रहता है
- मुझे Gemini का बड़ा context window बहुत पसंद है। मेरा workflow यह है कि पूरे codebase को string में बदलकर Gemini में paste कर देता हूँ और फिर सवाल पूछता हूँ। लोग खुश होते हैं कि 'agent' सिर्फ कुछ files चुनकर देखता है, लेकिन मेरे लिए पूरा codebase एक साथ डालकर, code generation, file edits वगैरह पर interactive तरीके से काम करना कहीं ज्यादा सुविधाजनक और प्रभावी है
मुझे समझ नहीं आता कि LLM से SVG generate करवाने को लेकर इतनी दिलचस्पी क्यों है। यह ऐसा काम है जो एक बार में सफल होना मुश्किल है, और इंसान के लिए भी करना आसान नहीं, इसलिए बहुत उपयोगी नहीं है। अगर model visual feedback लेकर output बेहतर कर सके तो यह ज्यादा उपयोगी होगा। अब यह एक लोकप्रिय benchmarking task बन गया है, इसलिए कंपनियाँ training set में example data जोड़ रही हैं, और अंत में तुलना बस इस बात की रह जाती है कि किसने बेहतर 'text to SVG' dataset इस्तेमाल किया, न कि model की overall quality कैसी है
लगभग एक महीने से Gemini 3 को लेकर तरह-तरह की अटकलों के साथ खबरें आ रही हैं। official announcement से पहले फैसला रोककर रखना चाहिए; यह Pro, Flash, Flash Lite replacement होगा, बिल्कुल नया model होगा, release भी होगा या नहीं — कोई नहीं जानता। AIStudio में A/B testing की वजह से एक prompt पर सिर्फ एक result मिलता है, इसलिए सिर्फ speed, latency, और instruction following जैसी बातें ही समझी जा सकती हैं। मुझे नहीं लगता कि एक ही prompt से किसी model की असली performance का professional evaluation हो सकता है। multiple files handling या tool calling capability तो वैसे भी इससे पता नहीं चलती। बेवजह excitement बढ़ाने के बजाय, उम्मीद या निराशा दोनों में ज़्यादा बहने से बचना चाहिए। यही कारण है कि मुझे speculative content ज़्यादा पसंद नहीं — असली context और analysis के बिना सिर्फ उत्तेजक चीज़ों पर ज़ोर दिया जाता है
- आजकल hype खुद एक नौकरी जैसा लगने लगा है, लेकिन हर Twitter लिंक पर "GAME CHANGER!!!", "सब हैरान रह जाएंगे!" जैसी बढ़ा-चढ़ाकर प्रतिक्रियाएँ भरी रहती हैं, और यह थोड़ा परेशान करता है। असली examples शानदार हैं, लेकिन ऊपर बताए गए गैर-पेशेवर evaluations से ही सब भरा हुआ है, यह अफ़सोस की बात है
यह वाकई कमाल की pelican drawing है। Gemini 3 को आज़माने का बहुत इंतज़ार है संबंधित Twitter example
- benchmark (आख़िरकार) टूट गया
- उम्मीद से बढ़कर कलाकृति जैसा लग रहा है
- क्या यह सच में अच्छा है? मुझे तो बस औसत सा लग रहा है
मुझे जो बात अजीब लगी, वह यह है कि Gemini 2.5 Pro ज़्यादातर कामों में top-tier है, लेकिन सिर्फ पहले सवाल पर। यानी context पूरा भर देने के बाद एक बार पूछो और एक बार जवाब लो, तभी यह सबसे अच्छा है। बातचीत लंबी चलने पर quality तेज़ी से गिरती है। दूसरे models की तुलना में इसका context window लंबा है, फिर भी यह अजीब है। मैं पूरे project (लगभग 200k tokens) को chat window में डालता हूँ, एक अच्छी तरह बनाया गया सवाल पूछता हूँ, और फिर उस chat window को तुरंत बंद कर देता हूँ
- लंबी बातचीत में जवाबों की quality लगातार गिरने की समस्या मुझे अब तक इस्तेमाल किए गए हर LLM में दिखी है। इसलिए मैं दो messages से आगे नहीं जाता। अगर पहले जवाब में मनचाहा न मिले, तो messages बढ़ाने के साथ सही जवाब मिलने की संभावना और कम होती जाती है। हमेशा नए chat से शुरू करके prompt tweak करते हुए कोशिश करना बेहतर लगता है
यह कहा जा रहा है कि "Gemini 3.0 इस समय सबसे ज़्यादा प्रतीक्षित AI releases में से एक है, खासकर code writing performance में सुधार की वजह से", लेकिन Google के अंदर इस्तेमाल करने वाले दोस्तों से सुना है कि सब लोग निराश होंगे।
संपादन: असल में वे Gemini 3 का उपयोग कर ही नहीं सकते, इसलिए उनका इसे खराब कहना शायद स्वाभाविक है
- Gemini 3.0 अभी Google के अंदर भी व्यापक रूप से deploy नहीं हुआ है। "Gemini for Google" दरअसल 2.5 Pro या 2.5 Flash के fine-tuned versions हैं। 3.0 model खुद अभी व्यापक उपयोग में नहीं है। (Google employee, payments-related टीम में काम करता हूँ, यह मेरी निजी राय है)
- इस excitement पर पानी फेरने के लिए माफ़ी, लेकिन हमारी Google की Vibecoding टीम में भी Gemini 3 इस्तेमाल नहीं हो रहा
- इसमें हैरानी की बात नहीं। LLMs performance improvement की सीमाओं (diminishing returns) के करीब पहुँच चुके हैं, और अब सस्ते GPU बनाने का तरीका चाहिए
Twitter पर Gemini 3 के examples बहुत तेज़ी से बढ़ रहे हैं। उन्हें देखने के बाद मैंने तुरंत Google का stock खरीद लिया। outputs देखकर लगता है कि यह पुराने templates copy-paste नहीं कर रहा, बल्कि सच में creative नए designs बना रहा है। code level पर इतना consistent और सुंदर output देना बेहद मुश्किल है, और Gemini 3 जैसे वह कर रहा हो, यह देखकर मैं चौंक गया। ऊपर से Google ही एक ऐसी कंपनी है जिसने model से hardware तक vertical integration पूरा किया है, इसलिए AI युग में इसके सफल होने की संभावना बहुत बड़ी लगती है
- मैं financial expert नहीं हूँ, लेकिन सिर्फ hype भरे Twitter posts देखकर stock खरीदना सुरक्षित investment तरीका नहीं है — यह सलाह दे सकता हूँ। हाँ, अगर extra पैसे से मज़े के लिए कर रहे हो तो जो चाहो करो
chetaslua Twitter पर Gemini 3 से जुड़े कई experiments के results पोस्ट हो रहे हैं (web desktop, Vampire Survivor clone, वास्तव में चलने वाला Vogel 3D model, कई game clones, SVG आदि)। खासकर one-shot फ़ॉर्म में outputs बहुत शानदार और प्रभावशाली हैं
- यह example सच में नया और दिलचस्प था: real-time demo codepen
  अगर Python terminal चलाओ तो थोड़ा मज़ेदार fourth-wall-breaking effect दिखता है
  1. "Python" print keyword इस्तेमाल करने पर browser में असली print dialog खुल जाता है
  2. "Python" open keyword इस्तेमाल करने पर browser नया tab खोलकर उस file तक पहुँचने की कोशिश करता है
    यानी print और open सीधे browser से जुड़े हुए चलने लगते हैं
उम्मीद है looping की समस्या सुधरे। यह सच में गंभीर issue है। CLI में loop detection feature भी है, और इस्तेमाल के 1 मिनट के अंदर ही इसने पकड़ लिया। Gemini app का 2.5 Pro भी कई बार repeat न करने को कहने पर आखिरकार शब्द दोहराता रहता है, इसलिए यह लगभग उपयोग लायक नहीं रहता
मैं जानना चाहता हूँ कि models SVG को "देखकर" evaluate करते हुए कई बार revise करते हैं, या उनसे एक ही बार में perfect result देने की उम्मीद की जाती है
- मेरे benchmark में सिर्फ एक ही मौका मिलता है।
  rendered result को visual model को दिखाकर अधिकतम तीन बार improve करने वाला test भी किया था, लेकिन हैरानी की बात है कि नतीजे बेहतर नहीं हुए

Gemini 3.0, A/B टेस्टिंग के ज़रिये सार्वजनिक रूप से पकड़ा गया

Gemini 3.0 का अनौपचारिक सार्वजनिक प्रकट होना और संदर्भ

Appendix

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय