Google का अगली पीढ़ी का मॉडल: Gemini 1.5

(blog.google)

9 पॉइंट द्वारा GN⁺ 2024-02-16 | 3 टिप्पणियां | WhatsApp पर शेयर करें

पिछले हफ्ते Google ने अपना अब तक का सबसे सक्षम मॉडल Gemini 1.0 Ultra लॉन्च किया, जो Google प्रोडक्ट्स को और उपयोगी बनाने की दिशा में एक महत्वपूर्ण प्रगति है
डेवलपर्स और cloud ग्राहक AI Studio और Vertex AI में Gemini API के जरिए 1.0 Ultra के साथ build शुरू कर सकते हैं
safety को केंद्र में रखते हुए मॉडल की सीमाओं को आगे बढ़ाने वाली टीमें तेज़ी से प्रगति कर रही हैं, और अब अगली पीढ़ी Gemini 1.5 को पेश करने के लिए तैयार हैं
Gemini 1.5 कई आयामों में उल्लेखनीय सुधार दिखाता है, और 1.5 Pro कम computing का उपयोग करते हुए 1.0 Ultra जैसी quality हासिल करता है
नई पीढ़ी modalities के पार लंबे context को समझने में breakthrough देती है, और मॉडल द्वारा प्रोसेस की जा सकने वाली जानकारी की मात्रा को बहुत बढ़ाकर 10 लाख tokens तक लगातार चल सकती है

Gemini 1.5 का परिचय

AI क्षेत्र में यह नई प्रगति भविष्य में अरबों लोगों के लिए AI को और उपयोगी बनाने की क्षमता रखती है
Gemini 1.0 को पेश करने के बाद से, testing, refinement और capability improvements लगातार जारी हैं
Gemini 1.5 उल्लेखनीय रूप से बेहतर performance देता है, और research व engineering innovations के आधार पर approach में बदलाव को दर्शाता है
training और serving को अधिक efficient बनाने के लिए नई Mixture-of-Experts (MoE) architecture का उपयोग किया गया है
Gemini 1.5 Pro एक मध्यम आकार का multimodal मॉडल है, जिसे विभिन्न प्रकार के tasks के लिए optimize किया गया है, और यह अब तक के सबसे बड़े मॉडल 1.0 Ultra के समान स्तर का performance देता है
Gemini 1.5 Pro standard 128,000-token context window देता है, लेकिन डेवलपर्स और enterprise ग्राहक AI Studio और Vertex AI के जरिए 10 लाख tokens तक की context window आज़मा सकते हैं

efficient architecture

Gemini 1.5 Transformer और MoE architecture पर अग्रणी research के आधार पर बनाया गया है
पारंपरिक Transformer एक बड़े neural network की तरह काम करता है, जबकि MoE मॉडल छोटे-छोटे "expert" neural networks में विभाजित होता है
input के प्रकार के अनुसार, MoE मॉडल neural network में सबसे प्रासंगिक expert paths को ही चुनकर activate करना सीखता है
यह specialization मॉडल की efficiency को काफ़ी बढ़ा देता है

बड़ा context, अधिक उपयोगी capabilities

AI मॉडल की "context window" उन tokens से बनी होती है जिनका उपयोग जानकारी प्रोसेस करने के लिए किया जाता है
context window जितनी बड़ी होगी, मॉडल एक बार में उतनी ही अधिक जानकारी प्रोसेस कर सकेगा, जिससे output अधिक consistent, relevant और useful होगा
machine learning innovations की मदद से 1.5 Pro की context window क्षमता को Gemini 1.0 के मूल 32,000 tokens से बहुत आगे बढ़ाया गया है
अब 1.5 Pro एक बार में बहुत बड़ी मात्रा में जानकारी प्रोसेस कर सकता है, और research में इसे 1 करोड़ tokens तक सफलतापूर्वक test किया गया है

performance में सुधार

text, code, image, audio और video evaluations सहित एक व्यापक panel पर testing के दौरान, 1.5 Pro ने large language models (LLMs) के विकास में उपयोग किए गए benchmarks के 87% में 1.0 Pro को पीछे छोड़ दिया
context window बढ़ने के बावजूद 1.5 Pro उच्च स्तर का performance बनाए रखता है

व्यापक ethics और safety testing

AI principles और मज़बूत safety policies के अनुरूप, यह सुनिश्चित किया गया है कि मॉडल व्यापक ethics और safety testing से गुज़रे
1.0 Ultra के लॉन्च के बाद से, टीम ने मॉडल को लगातार refine किया है ताकि उसे व्यापक रिलीज़ के लिए सुरक्षित बनाया जा सके
1.5 Pro की रिलीज़ से पहले content safety और representational harms जैसे क्षेत्रों में व्यापक evaluation किए जा रहे हैं, और इन tests का दायरा आगे भी बढ़ाया जाएगा

Gemini मॉडल के साथ build और experiment करें

लक्ष्य यह है कि नई पीढ़ी के Gemini मॉडल को दुनिया भर के अरबों लोगों, डेवलपर्स और enterprises तक ज़िम्मेदारी के साथ पहुँचाया जाए
आज से AI Studio और Vertex AI के जरिए 1.5 Pro का limited preview डेवलपर्स और enterprise ग्राहकों के लिए उपलब्ध है
जब मॉडल व्यापक रिलीज़ के लिए तैयार होगा, तब standard 128,000-token context window के साथ 1.5 Pro को पेश किया जाएगा
शुरुआती testers testing अवधि के दौरान 10 लाख-token context window को मुफ़्त में आज़मा सकते हैं, लेकिन इस experimental feature के कारण latency अधिक हो सकती है

GN⁺ की राय

Gemini 1.5 की सबसे महत्वपूर्ण बात यह है that AI मॉडल जितनी जानकारी प्रोसेस कर सकते हैं, उसकी मात्रा में बड़ा इज़ाफ़ा हुआ है, जिससे वे अधिक जटिल और विविध tasks कर सकते हैं
यह मॉडल AI की प्रगति को एक नए स्तर पर ले जाता है और डेवलपर्स व enterprises को अधिक उपयोगी मॉडल और applications बनाने में मदद करेगा
यह Google की research और innovation का एक उदाहरण है, जो दिखाता है कि AI तकनीक का भविष्य कैसे आकार ले रहा है, और यह इस बात की रोचक झलक देता है कि आने वाले समय में AI हमारे रोज़मर्रा के जीवन में कैसे एकीकृत हो सकता है

3 टिप्पणियां

yoo04233 2024-02-17

फ़िलहाल जिन AI का इस्तेमाल कर रहा हूँ, उनमें GPT-4 का सबसे ज़्यादा उपयोग करता हूँ, और लगता है कि धीरे-धीरे AI तकनीकें रोज़मर्रा की ज़िंदगी में और ज़्यादा शामिल होंगी।

riskatcher 2024-02-16

लगता है Google काफ़ी दबाव में है; रिलीज़ से पहले ही लगातार यह लीक कर रहा है कि क्या बेहतर है, और Ultra में अभी तक multilingual support भी ठीक से नहीं है, जबकि उसका स्तर ऐसा है जैसे OpenAI को एक साल पहले prompt genie की ज़रूरत पड़ती थी।

GN⁺ 2024-02-16

Hacker News राय

श्वेतपत्र पर टिप्पणियों का सारांश:
- 10M token context तक पहुंचने के तरीके पर पर्याप्त विवरण की कमी: श्वेतपत्र में 10M token context तक कैसे पहुंचा गया, इसका उल्लेख नहीं है.
- RAG stack की जटिलता में कमी: 10M context क्षमता अधिकांश RAG stack की जटिलता को तुरंत हटा देती है, जिससे कई use case काफी सरल हो जाते हैं.
- 1.5 Pro की श्रेष्ठता: यह स्पष्ट किया जा रहा है कि 1.5 Pro आम तौर पर GPT-4 से बेहतर है, और नए LLM-as-judge leader के रूप में यह दिलचस्प है.
- 1.5 Ultra की उच्च क्षमता: 1.5 Ultra बहुत सक्षम प्रतीत होता है, और 1.5 Pro पहले से ही बहुत सक्षम है. इसे विभिन्न tests में उच्च scores मिले हैं, और जिन tests में score कम आया, वे अधिकतर false negative निकले.
- 1.5 Pro की संभावनाएं: 1.5 Pro को workflow tasks के लिए मानक स्थापित करना चाहिए. 1.0 Ultra बहुत सक्षम है, लेकिन थोड़ा धीमा है. इसे इस्तेमाल करने वाले open models की गुणवत्ता में काफी सुधार हो सकता है.
- coding test की पुनर्समीक्षा: ऐसे coding test को फिर से आज़माने का समय है जिनमें नए modules लिखने की आवश्यकता होती है.
- 10M context तक पहुंचने के तरीके को लेकर जिज्ञासा: 10M tokens में लगभग पूर्ण recall दिखाने वाले audio और video "needle" tests से संकेत मिलता है कि केवल एक single ultra-long vector नहीं, बल्कि compression जैसी कोई संरचना हो सकती है.
technical report से दिलचस्प जानकारी:
- HumanEval benchmark में data leakage की समस्या: HumanEval उद्योग का standard open source evaluation benchmark है, लेकिन webpages और open source code repositories से आकस्मिक leakage को नियंत्रित करना आसान नहीं है. Gemini 1.0 Ultra के test data leakage विश्लेषण से पता चलता है कि HumanEval के test split की सिर्फ एक epoch शामिल करने वाले dataset पर continued pre-training करने से score 74.4% से 89.0% तक काफी बढ़ गया. यह वृद्धि तब भी बनी रहती है जब examples JSON, HTML जैसे अन्य formats में शामिल हों. शोधकर्ताओं से अनुरोध किया गया है कि इन models की coding क्षमता का मूल्यांकन करते समय हमेशा internally written, truly held-out test functions का एक छोटा set बनाए रखें ताकि leakage risk कम हो सके. Natural2Code benchmark इस gap को भरने के लिए बनाया गया था, और यह HumanEval जैसा ही format अपनाता है, लेकिन इसके prompts और test sets अलग हैं.
technical report में उल्लेखनीय प्रदर्शन:
- Gemini 1.5 Pro की long-context क्षमता: Gemini 1.5 Pro की long-context क्षमता पर अध्ययन में कम से कम 10M tokens तक next-token prediction में लगातार सुधार और लगभग perfect retrieval (>99%) पाया गया.
large language models की नई क्षमता:
- Kalamang भाषा अनुवाद: दुनिया भर में 200 से कम वक्ताओं वाली Kalamang भाषा के लिए grammar manual दिए जाने पर, model ने उसी सामग्री से सीखने वाले इंसान के समान स्तर पर English से Kalamang में अनुवाद करना सीख लिया.
Google पर भरोसे की कमी:
- Google की घोषणा पर संदेह: पहले जारी किए गए marketing-edited videos ने वास्तविक product नहीं दिखाया था, इसलिए जब तक Google की किसी चीज़ के लिए तुरंत test किया जा सकने वाला input form n हो, उस पर भरोसा नहीं किया जाएगा.
Demis Hassabis को लेकर संदेह:
- पिछली प्रचार रणनीतियों पर संशय: Demis Hassabis के video game development के दिनों से ही उनकी publicity को लेकर संदेहपूर्ण दृष्टिकोण रहा है. "Infinite Polygons" उद्योग में मज़ाक का विषय बन गया था, और उनका game Republic एक दिलचस्प न होने वाली असफलता माना गया.
10M token की परिवर्तनकारी प्रकृति:
- prompt आकार और गुणवत्ता के बीच संबंध: 10M tokens game changer हैं; अगर prompt के आकार और गुणवत्ता के बीच कोई स्पष्ट गिरावट नहीं है, तो यह बहुत क्रांतिकारी है. लोग prompt को static input नहीं, बल्कि एक तरह के runtime के रूप में देखना शुरू कर सकते हैं.
Gemini के साथ नकारात्मक अनुभव:
- Gemini का कमजोर प्रदर्शन: Gemini को आज़माने पर प्रदर्शन बहुत निराशाजनक लगा. इसने ChatGPT या local llama की तुलना में कहीं खराब प्रदर्शन किया. Google की AI strategy पर भरोसा नहीं है, और ऐसा मान लिया गया है कि सारे सक्षम लोग OpenAI या Anthropic में चले गए हैं.
Pro और Ultra के बीच अंतर:
- context window का आकार: फिलहाल 100k tokens से लेकर 1 million तक की context window बहुत दिलचस्प सुविधाएं खोलती है. RAG इतनी जानकारी के साथ बहुत शक्तिशाली हो सकता है.
context window आकार में नवाचार:
- input token समस्या का समाधान: अगर यह विज्ञापित तरीके से वास्तव में काम करता है, तो यह RAG या खास analysis के लिए fine-tuning की आवश्यकता को बदल सकता है. यह जानने की जिज्ञासा है कि input tokens भरने की समस्या को कैसे हल किया गया.