Google का अगली पीढ़ी का मॉडल: Gemini 1.5
(blog.google)- पिछले हफ्ते Google ने अपना अब तक का सबसे सक्षम मॉडल Gemini 1.0 Ultra लॉन्च किया, जो Google प्रोडक्ट्स को और उपयोगी बनाने की दिशा में एक महत्वपूर्ण प्रगति है
- डेवलपर्स और cloud ग्राहक AI Studio और Vertex AI में Gemini API के जरिए 1.0 Ultra के साथ build शुरू कर सकते हैं
- safety को केंद्र में रखते हुए मॉडल की सीमाओं को आगे बढ़ाने वाली टीमें तेज़ी से प्रगति कर रही हैं, और अब अगली पीढ़ी Gemini 1.5 को पेश करने के लिए तैयार हैं
- Gemini 1.5 कई आयामों में उल्लेखनीय सुधार दिखाता है, और 1.5 Pro कम computing का उपयोग करते हुए 1.0 Ultra जैसी quality हासिल करता है
- नई पीढ़ी modalities के पार लंबे context को समझने में breakthrough देती है, और मॉडल द्वारा प्रोसेस की जा सकने वाली जानकारी की मात्रा को बहुत बढ़ाकर 10 लाख tokens तक लगातार चल सकती है
Gemini 1.5 का परिचय
- AI क्षेत्र में यह नई प्रगति भविष्य में अरबों लोगों के लिए AI को और उपयोगी बनाने की क्षमता रखती है
- Gemini 1.0 को पेश करने के बाद से, testing, refinement और capability improvements लगातार जारी हैं
- Gemini 1.5 उल्लेखनीय रूप से बेहतर performance देता है, और research व engineering innovations के आधार पर approach में बदलाव को दर्शाता है
- training और serving को अधिक efficient बनाने के लिए नई Mixture-of-Experts (MoE) architecture का उपयोग किया गया है
- Gemini 1.5 Pro एक मध्यम आकार का multimodal मॉडल है, जिसे विभिन्न प्रकार के tasks के लिए optimize किया गया है, और यह अब तक के सबसे बड़े मॉडल 1.0 Ultra के समान स्तर का performance देता है
- Gemini 1.5 Pro standard 128,000-token context window देता है, लेकिन डेवलपर्स और enterprise ग्राहक AI Studio और Vertex AI के जरिए 10 लाख tokens तक की context window आज़मा सकते हैं
efficient architecture
- Gemini 1.5 Transformer और MoE architecture पर अग्रणी research के आधार पर बनाया गया है
- पारंपरिक Transformer एक बड़े neural network की तरह काम करता है, जबकि MoE मॉडल छोटे-छोटे "expert" neural networks में विभाजित होता है
- input के प्रकार के अनुसार, MoE मॉडल neural network में सबसे प्रासंगिक expert paths को ही चुनकर activate करना सीखता है
- यह specialization मॉडल की efficiency को काफ़ी बढ़ा देता है
बड़ा context, अधिक उपयोगी capabilities
- AI मॉडल की "context window" उन tokens से बनी होती है जिनका उपयोग जानकारी प्रोसेस करने के लिए किया जाता है
- context window जितनी बड़ी होगी, मॉडल एक बार में उतनी ही अधिक जानकारी प्रोसेस कर सकेगा, जिससे output अधिक consistent, relevant और useful होगा
- machine learning innovations की मदद से 1.5 Pro की context window क्षमता को Gemini 1.0 के मूल 32,000 tokens से बहुत आगे बढ़ाया गया है
- अब 1.5 Pro एक बार में बहुत बड़ी मात्रा में जानकारी प्रोसेस कर सकता है, और research में इसे 1 करोड़ tokens तक सफलतापूर्वक test किया गया है
performance में सुधार
- text, code, image, audio और video evaluations सहित एक व्यापक panel पर testing के दौरान, 1.5 Pro ने large language models (LLMs) के विकास में उपयोग किए गए benchmarks के 87% में 1.0 Pro को पीछे छोड़ दिया
- context window बढ़ने के बावजूद 1.5 Pro उच्च स्तर का performance बनाए रखता है
व्यापक ethics और safety testing
- AI principles और मज़बूत safety policies के अनुरूप, यह सुनिश्चित किया गया है कि मॉडल व्यापक ethics और safety testing से गुज़रे
- 1.0 Ultra के लॉन्च के बाद से, टीम ने मॉडल को लगातार refine किया है ताकि उसे व्यापक रिलीज़ के लिए सुरक्षित बनाया जा सके
- 1.5 Pro की रिलीज़ से पहले content safety और representational harms जैसे क्षेत्रों में व्यापक evaluation किए जा रहे हैं, और इन tests का दायरा आगे भी बढ़ाया जाएगा
Gemini मॉडल के साथ build और experiment करें
- लक्ष्य यह है कि नई पीढ़ी के Gemini मॉडल को दुनिया भर के अरबों लोगों, डेवलपर्स और enterprises तक ज़िम्मेदारी के साथ पहुँचाया जाए
- आज से AI Studio और Vertex AI के जरिए 1.5 Pro का limited preview डेवलपर्स और enterprise ग्राहकों के लिए उपलब्ध है
- जब मॉडल व्यापक रिलीज़ के लिए तैयार होगा, तब standard 128,000-token context window के साथ 1.5 Pro को पेश किया जाएगा
- शुरुआती testers testing अवधि के दौरान 10 लाख-token context window को मुफ़्त में आज़मा सकते हैं, लेकिन इस experimental feature के कारण latency अधिक हो सकती है
GN⁺ की राय
- Gemini 1.5 की सबसे महत्वपूर्ण बात यह है that AI मॉडल जितनी जानकारी प्रोसेस कर सकते हैं, उसकी मात्रा में बड़ा इज़ाफ़ा हुआ है, जिससे वे अधिक जटिल और विविध tasks कर सकते हैं
- यह मॉडल AI की प्रगति को एक नए स्तर पर ले जाता है और डेवलपर्स व enterprises को अधिक उपयोगी मॉडल और applications बनाने में मदद करेगा
- यह Google की research और innovation का एक उदाहरण है, जो दिखाता है कि AI तकनीक का भविष्य कैसे आकार ले रहा है, और यह इस बात की रोचक झलक देता है कि आने वाले समय में AI हमारे रोज़मर्रा के जीवन में कैसे एकीकृत हो सकता है
3 टिप्पणियां
फ़िलहाल जिन AI का इस्तेमाल कर रहा हूँ, उनमें GPT-4 का सबसे ज़्यादा उपयोग करता हूँ, और लगता है कि धीरे-धीरे AI तकनीकें रोज़मर्रा की ज़िंदगी में और ज़्यादा शामिल होंगी।
लगता है Google काफ़ी दबाव में है; रिलीज़ से पहले ही लगातार यह लीक कर रहा है कि क्या बेहतर है, और Ultra में अभी तक multilingual support भी ठीक से नहीं है, जबकि उसका स्तर ऐसा है जैसे OpenAI को एक साल पहले prompt genie की ज़रूरत पड़ती थी।
Hacker News राय
श्वेतपत्र पर टिप्पणियों का सारांश:
technical report से दिलचस्प जानकारी:
technical report में उल्लेखनीय प्रदर्शन:
large language models की नई क्षमता:
Google पर भरोसे की कमी:
Demis Hassabis को लेकर संदेह:
10M token की परिवर्तनकारी प्रकृति:
Gemini के साथ नकारात्मक अनुभव:
Pro और Ultra के बीच अंतर:
context window आकार में नवाचार: