Gemini AI

(deepmind.google)

2 पॉइंट द्वारा GN⁺ 2023-12-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Gemini युग का आगमन

Gemini को text, image, video, audio और code को समेटने वाली multimodal capabilities के आधार पर बनाया गया है.
Gemini के पहले version को अब तक का सबसे सक्षम AI model बताया गया है.
यह पहला model है जिसने human experts को पीछे छोड़ा है, और AI models के ज्ञान व problem-solving क्षमता को परखने वाले MMLU में इसने उच्च performance दिखाई है.

टेक्स्ट क्षमताओं के benchmarks

Gemini Ultra ने सामान्य MMLU, जटिल reasoning की मांग करने वाले Big-Bench Hard, और reading comprehension का मूल्यांकन करने वाले DROP सहित कई benchmarks में उच्च performance दर्ज की है.
इसने रोज़मर्रा के common-sense reasoning, गणित की समस्याएँ हल करने और Python code generation में भी बेहतरीन नतीजे दिखाए हैं.
अन्य methodologies पर performance को technical report में विस्तार से देखा जा सकता है.

Multimodal capabilities benchmarks

Image, video और audio क्षेत्रों में भी Gemini ने मौजूदा state-of-the-art performance को पार किया है.
University-level के विभिन्न academic problems को हल करने, natural image understanding, और document understanding जैसे कार्यों में Gemini Ultra ने उच्च performance दिखाई है.
Audio क्षेत्र में automatic speech translation और recognition में Gemini Pro ने competing models को पीछे छोड़ा है.

Bard में Gemini Pro का उपयोग

Bard में Gemini Pro का अनुभव करने पर आप नई creation, planning, brainstorming आदि के तरीके खोज सकते हैं.

GN⁺ की राय

इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि Gemini AI model में text, image, video, audio और code जैसे विभिन्न प्रकार के data को समझने और process करने वाली multimodal capabilities हैं, और इसने कई benchmarks में human experts से बेहतर performance दिखाई है.
यह प्रगति AI technology के advancement को दिखाती है, और उम्मीद है कि आगे चलकर creation, planning, learning जैसे कई क्षेत्रों में AI के उपयोग की संभावनाएँ काफी बढ़ेंगी, इसलिए यह लोगों के लिए एक दिलचस्प खबर है.

1 टिप्पणियां

GN⁺ 2023-12-07

Hacker News राय

संबंधित ब्लॉग पोस्ट: Google की नई AI तकनीक Gemini पर ब्लॉग पोस्ट का लिंक और Hacker News चर्चा का लिंक दिया गया है। Gemini Ultra अभी रिलीज़ नहीं हुआ है और इसमें अभी कुछ महीने बाकी हैं।
Bard w/ Gemini Pro यूरोप में उपलब्ध नहीं है और यह multimodal भी नहीं है। Gemini Pro के बारे में कोई सार्वजनिक आँकड़े नहीं हैं, लेकिन तकनीकी दस्तावेज़ में छिपी हुई जानकारी मौजूद है।
यह राय कि आज GPT-4 से प्रतिस्पर्धा करने वाला उत्पाद जारी नहीं हुआ, इसलिए यह बढ़ा-चढ़ाकर किया गया प्रचार लगता है। अधिकांश देशों में उपलब्ध और विज्ञापित आँकड़ों वाला उत्पाद जारी करना बेहतर होता।
Gemini AI का प्रभावशाली प्रदर्शन: TypeScript की एक असंभव सुविधा के बारे में पूछने पर इसने सही जवाब दिया कि यह असंभव है और संबंधित GitHub issue का लिंक भी दिया। GPT-4, जब web browsing mode में नहीं होता, तब लिंक बनाना अच्छी तरह नहीं करता। साथ ही, अभी beta version में मौजूद Pixi.js v8 को इसने GPT-4 से तेज़ी से पहचाना और इसकी प्रमुख विशेषताओं को सही तरह से समझाया।
Gemini versions को लेकर भ्रमित लोगों के लिए स्पष्टीकरण: मुख्य रूप से चर्चा Gemini Ultra की हो रही है, जिसके बारे में दावा है कि वह GPT-4 से बेहतर है। Bard के ज़रिए जो उपलब्ध है, वह Gemini Pro है।
तकनीकी रिपोर्ट के अनुसार Gemini Ultra, Gemini Pro और GPT-4 के benchmark performance की तुलना। विभिन्न datasets पर score comparison दिया गया है।
Gemini AI demo video का लिंक दिया गया है।
Sundar Pichai के प्रमुख वीडियो बयानों पर एक टिप्पणी: ऐसा लगता है कि Google यह ज़ोर देकर बताना चाहता है कि वह लंबे समय से AI पर काम कर रहा है। चूँकि इस समय सार्वजनिक रूप से उपलब्ध सबसे उन्नत मॉडल OpenAI का बनाया हुआ है, इसलिए यह ज़ोर कुछ हद तक अनुचित महसूस होता है। राय यह है कि वास्तव में दिखाना बेहतर रणनीति होती।
Google AI Studio और Google Cloud Vertex AI के ज़रिए Gemini models को applications में integrate करने की जानकारी। यह 13 दिसंबर से उपलब्ध हो सकता है।
benchmarks में यह तय करना मुश्किल होने की चिंता कि test data training data का हिस्सा था या नहीं। उदाहरण के तौर पर, GPT-4 गणित के सवालों में गलती करता है लेकिन GSM8k पर ऊँचा score लेता है।
GPT-4 को बस थोड़ा-सा पीछे छोड़ने पर अलग-अलग राय। उम्मीद जताई गई कि प्रतिस्पर्धा बढ़ेगी तो सभी को फायदा होगा। pre-release announcement को लेकर असंतोष और यह टिप्पणी कि वास्तव में उपलब्ध होने तक इंतज़ार करना चाहिए।
Codeforces (competitive programming platform) पर Gemini model से जुड़ी चर्चा का लिंक दिया गया है। 3200 rating की समस्या को data leak के बिना हल करने के दावे पर संदेह जताया गया है।
Gemini Nano को लेकर बड़ी उम्मीदें। Pixel 8 thread में यह राय थी कि web API का इस्तेमाल अस्थायी है और आगे चलकर इसे on-device model से बदला जा सकता है; यह उसकी शुरुआत हो सकती है।

Gemini AI

Gemini युग का आगमन

टेक्स्ट क्षमताओं के benchmarks

Multimodal capabilities benchmarks

Bard में Gemini Pro का उपयोग

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय