Gemini AI
(deepmind.google)Gemini युग का आगमन
- Gemini को text, image, video, audio और code को समेटने वाली multimodal capabilities के आधार पर बनाया गया है.
- Gemini के पहले version को अब तक का सबसे सक्षम AI model बताया गया है.
- यह पहला model है जिसने human experts को पीछे छोड़ा है, और AI models के ज्ञान व problem-solving क्षमता को परखने वाले MMLU में इसने उच्च performance दिखाई है.
टेक्स्ट क्षमताओं के benchmarks
- Gemini Ultra ने सामान्य MMLU, जटिल reasoning की मांग करने वाले Big-Bench Hard, और reading comprehension का मूल्यांकन करने वाले DROP सहित कई benchmarks में उच्च performance दर्ज की है.
- इसने रोज़मर्रा के common-sense reasoning, गणित की समस्याएँ हल करने और Python code generation में भी बेहतरीन नतीजे दिखाए हैं.
- अन्य methodologies पर performance को technical report में विस्तार से देखा जा सकता है.
Multimodal capabilities benchmarks
- Image, video और audio क्षेत्रों में भी Gemini ने मौजूदा state-of-the-art performance को पार किया है.
- University-level के विभिन्न academic problems को हल करने, natural image understanding, और document understanding जैसे कार्यों में Gemini Ultra ने उच्च performance दिखाई है.
- Audio क्षेत्र में automatic speech translation और recognition में Gemini Pro ने competing models को पीछे छोड़ा है.
Bard में Gemini Pro का उपयोग
- Bard में Gemini Pro का अनुभव करने पर आप नई creation, planning, brainstorming आदि के तरीके खोज सकते हैं.
GN⁺ की राय
- इस लेख का सबसे महत्वपूर्ण बिंदु यह है कि Gemini AI model में text, image, video, audio और code जैसे विभिन्न प्रकार के data को समझने और process करने वाली multimodal capabilities हैं, और इसने कई benchmarks में human experts से बेहतर performance दिखाई है.
- यह प्रगति AI technology के advancement को दिखाती है, और उम्मीद है कि आगे चलकर creation, planning, learning जैसे कई क्षेत्रों में AI के उपयोग की संभावनाएँ काफी बढ़ेंगी, इसलिए यह लोगों के लिए एक दिलचस्प खबर है.
1 टिप्पणियां
Hacker News राय