Gemma - Google के अत्याधुनिक ओपन मॉडल

xguru · 2024-02-22T09:52:20+09:00

Google का मानना है कि सभी के लिए उपयोगी AI बनाया जाना चाहिए, और उसने Transformers, TensorFlow, BERT, T5, JAX, AlphaFold, AlphaCode जैसे ओपन कम्युनिटी इनोवेशन में योगदान दिया है Gemma हल्के वज़न वाले अत्याधुनिक ओपन मॉडल्स का एक परिवार है, जिसे Gemini मॉडल बनाने में इस्तेमाल हुए उसी रिसर्च और टेक्नोलॉजी के आधार पर तैयार किया गया है इसे Google DeepMind और अन्य टीमों ने विकसित किया है, और इसका नाम लैटिन शब्द 'gemma' से प्रेरित है, जिसका अर्थ 'रत्न' होता है यह आज से दुनियाभर में उपलब्ध है, और इसके साथ मॉडल weights, डेवलपर इनोवेशन को सपोर्ट करने वाले tools, सहयोग को बढ़ावा देने वाले resources, तथा Gemma मॉडल्स के ज़िम्मेदार उपयोग का मार्गदर्शन करने वाले tools भी दिए जा रहे हैं Gemini के साथ टेक्नोलॉजी और इंफ्रास्ट्रक्चर कॉम्पोनेंट्स साझा करने की वजह से Gemma 2B और 7B ने अन्य ओपन मॉडल्स की तुलना में अपने आकार के हिसाब से बेहतरीन प्रदर्शन हासिल किया है इसे डेवलपर्स अपने लैपटॉप या डेस्कटॉप कंप्यूटर पर सीधे चला सकते हैं, और यह प्रमुख benchmarks में इससे कहीं बड़े मॉडल्स को पीछे छोड़ते हुए भी सुरक्षित और ज़िम्मेदार आउटपुट देने के सख्त मानकों का पालन करता है Native Keras 3.0 के ज़रिए JAX, PyTorch, TensorFlow सहित सभी प्रमुख frameworks में inference और SFT(सुपरवाइज़्ड फाइन-ट्यूनिंग) के लिए toolchain उपलब्ध कराई जाती है Colab और Kaggle notebooks के साथ Hugging Face, MaxText, NVIDIA NeMo और TensorRT-LLM जैसे लोकप्रिय tools के integration के कारण Gemma के साथ शुरुआत करना आसान है प्री-ट्रेंड और instruction-tuned Gemma मॉडल्स को Vertex AI और Google Kubernetes Engine (GKE) पर आसानी से deploy किया जा सकता है, ताकि उन्हें notebooks, workstations या Google Cloud पर चलाया जा सके NVIDIA GPU और Google Cloud TPU सहित कई AI hardware platforms के लिए optimization के माध्यम से उद्योग-स्तरीय बेहतरीन performance सुनिश्चित की जाती है उपयोग की शर्तों के अनुसार, किसी भी आकार के सभी संगठनों के लिए commercial use और distribution की अनुमति है Responsible by design Gemma को AI principles को प्राथमिकता में रखकर डिज़ाइन किया गया है, और training set से व्यक्तिगत जानकारी तथा अन्य संवेदनशील डेटा को फ़िल्टर करने के लिए automated techniques का उपयोग किया गया है इसके अलावा, ज़िम्मेदार व्यवहार के अनुरूप instruction-tuned मॉडल्स के लिए human feedback से reinforcement learning (RLHF) का व्यापक उपयोग किया गया है Gemma मॉडल्स के risk profile को समझने और कम करने के लिए manual red teaming, automated adversarial testing, और खतरनाक गतिविधियों के लिए मॉडल की क्षमता के आकलन जैसी मज़बूत evaluations की गई हैं Frameworks, tools और hardware में व्यापक optimization Gemma मॉडल्स को किसी विशेष application की आवश्यकताओं के अनुसार अपने डेटा पर fine-tune किया जा सकता है, और यह विभिन्न tools और systems को सपोर्ट करते हैं Multi-framework tools: Keras 3.0, native PyTorch, JAX और Hugging Face Transformers जैसे पसंदीदा frameworks उपलब्ध हैं। Reference implementations भी प्रदान की जाती हैं Cross-device compatibility: इसे लैपटॉप, डेस्कटॉप, IoT, मोबाइल और cloud सहित लोकप्रिय devices पर चलाया जा सकता है अत्याधुनिक hardware platforms: NVIDIA के साथ partnership के माध्यम से data center से cloud और local RTX AI PC तक NVIDIA GPU के लिए optimization दी गई है, जिससे industry-leading performance और cutting-edge technologies के साथ integration सुनिश्चित होता है Google Cloud पर optimization: Vertex AI के उपयोग से व्यापक MLOps toolset और कई tuning options मिलते हैं, साथ ही built-in inference optimization के साथ one-click deployment भी संभव है रिसर्च और डेवलपमेंट के लिए मुफ्त credits Gemma डेवलपर्स और researchers की उस कम्युनिटी के लिए बनाया गया है जो AI innovation को आगे बढ़ा रही है, और Kaggle पर free access, Colab notebooks के free tier, तथा पहली बार Google Cloud इस्तेमाल करने वालों के लिए $300 credits के साथ आज से ही काम शुरू किया जा सकता है Researchers अपने प्रोजेक्ट्स को तेज़ करने के लिए अधिकतम $500,000 तक के Google Cloud credits के लिए आवेदन कर सकते हैं

(blog.google)

17 पॉइंट द्वारा xguru 2024-02-22 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Google का मानना है कि सभी के लिए उपयोगी AI बनाया जाना चाहिए, और उसने Transformers, TensorFlow, BERT, T5, JAX, AlphaFold, AlphaCode जैसे ओपन कम्युनिटी इनोवेशन में योगदान दिया है
Gemma हल्के वज़न वाले अत्याधुनिक ओपन मॉडल्स का एक परिवार है, जिसे Gemini मॉडल बनाने में इस्तेमाल हुए उसी रिसर्च और टेक्नोलॉजी के आधार पर तैयार किया गया है
- इसे Google DeepMind और अन्य टीमों ने विकसित किया है, और इसका नाम लैटिन शब्द 'gemma' से प्रेरित है, जिसका अर्थ 'रत्न' होता है
यह आज से दुनियाभर में उपलब्ध है, और इसके साथ मॉडल weights, डेवलपर इनोवेशन को सपोर्ट करने वाले tools, सहयोग को बढ़ावा देने वाले resources, तथा Gemma मॉडल्स के ज़िम्मेदार उपयोग का मार्गदर्शन करने वाले tools भी दिए जा रहे हैं
Gemini के साथ टेक्नोलॉजी और इंफ्रास्ट्रक्चर कॉम्पोनेंट्स साझा करने की वजह से Gemma 2B और 7B ने अन्य ओपन मॉडल्स की तुलना में अपने आकार के हिसाब से बेहतरीन प्रदर्शन हासिल किया है
इसे डेवलपर्स अपने लैपटॉप या डेस्कटॉप कंप्यूटर पर सीधे चला सकते हैं, और यह प्रमुख benchmarks में इससे कहीं बड़े मॉडल्स को पीछे छोड़ते हुए भी सुरक्षित और ज़िम्मेदार आउटपुट देने के सख्त मानकों का पालन करता है
Native Keras 3.0 के ज़रिए JAX, PyTorch, TensorFlow सहित सभी प्रमुख frameworks में inference और SFT(सुपरवाइज़्ड फाइन-ट्यूनिंग) के लिए toolchain उपलब्ध कराई जाती है
Colab और Kaggle notebooks के साथ Hugging Face, MaxText, NVIDIA NeMo और TensorRT-LLM जैसे लोकप्रिय tools के integration के कारण Gemma के साथ शुरुआत करना आसान है
प्री-ट्रेंड और instruction-tuned Gemma मॉडल्स को Vertex AI और Google Kubernetes Engine (GKE) पर आसानी से deploy किया जा सकता है, ताकि उन्हें notebooks, workstations या Google Cloud पर चलाया जा सके
NVIDIA GPU और Google Cloud TPU सहित कई AI hardware platforms के लिए optimization के माध्यम से उद्योग-स्तरीय बेहतरीन performance सुनिश्चित की जाती है
उपयोग की शर्तों के अनुसार, किसी भी आकार के सभी संगठनों के लिए commercial use और distribution की अनुमति है

Responsible by design

Gemma को AI principles को प्राथमिकता में रखकर डिज़ाइन किया गया है, और training set से व्यक्तिगत जानकारी तथा अन्य संवेदनशील डेटा को फ़िल्टर करने के लिए automated techniques का उपयोग किया गया है
इसके अलावा, ज़िम्मेदार व्यवहार के अनुरूप instruction-tuned मॉडल्स के लिए human feedback से reinforcement learning (RLHF) का व्यापक उपयोग किया गया है
Gemma मॉडल्स के risk profile को समझने और कम करने के लिए manual red teaming, automated adversarial testing, और खतरनाक गतिविधियों के लिए मॉडल की क्षमता के आकलन जैसी मज़बूत evaluations की गई हैं

Frameworks, tools और hardware में व्यापक optimization

Gemma मॉडल्स को किसी विशेष application की आवश्यकताओं के अनुसार अपने डेटा पर fine-tune किया जा सकता है, और यह विभिन्न tools और systems को सपोर्ट करते हैं
Multi-framework tools: Keras 3.0, native PyTorch, JAX और Hugging Face Transformers जैसे पसंदीदा frameworks उपलब्ध हैं। Reference implementations भी प्रदान की जाती हैं
Cross-device compatibility: इसे लैपटॉप, डेस्कटॉप, IoT, मोबाइल और cloud सहित लोकप्रिय devices पर चलाया जा सकता है
अत्याधुनिक hardware platforms: NVIDIA के साथ partnership के माध्यम से data center से cloud और local RTX AI PC तक NVIDIA GPU के लिए optimization दी गई है, जिससे industry-leading performance और cutting-edge technologies के साथ integration सुनिश्चित होता है
Google Cloud पर optimization: Vertex AI के उपयोग से व्यापक MLOps toolset और कई tuning options मिलते हैं, साथ ही built-in inference optimization के साथ one-click deployment भी संभव है

रिसर्च और डेवलपमेंट के लिए मुफ्त credits

Gemma डेवलपर्स और researchers की उस कम्युनिटी के लिए बनाया गया है जो AI innovation को आगे बढ़ा रही है, और Kaggle पर free access, Colab notebooks के free tier, तथा पहली बार Google Cloud इस्तेमाल करने वालों के लिए $300 credits के साथ आज से ही काम शुरू किया जा सकता है
Researchers अपने प्रोजेक्ट्स को तेज़ करने के लिए अधिकतम $500,000 तक के Google Cloud credits के लिए आवेदन कर सकते हैं

2 टिप्पणियां

dodok8 2024-02-22

अब लगता है कि सिर्फ OpenAI ही बंद रह गया है।

xguru 2024-02-22

Hacker News की राय

Google के Gemma उपयोग की शर्तों में ध्यान देने वाली बात यह है कि एक प्रावधान है जिसके अनुसार उपयोगकर्ताओं को Gemma के नवीनतम संस्करण का उपयोग करने के लिए उचित प्रयास करने चाहिए। यह खास तौर पर इसलिए संतोषजनक नहीं लगता, क्योंकि अपना खुद का मॉडल चलाने का एक बड़ा फायदा यह होता है कि मॉडल अपडेट के कारण सावधानी से टेस्ट किए गए prompts के टूटने के जोखिम से बचाव मिलता है।
Gemma 7B के benchmark नतीजे Mistral 7B के समान स्तर के दिखते हैं। MMLU, HellaSwag, HumanEval जैसे tests में Gemma 7B का प्रदर्शन Mistral 7B की तुलना में प्रतिस्पर्धी दिखाई देता है।
Gemma मॉडल में कुछ दिलचस्प विशेषताएँ हैं:
- feedforward hidden size, d_model का 16 गुना है, जबकि ज़्यादातर मॉडलों में यह 4 गुना होता है।
- vocabulary size, Mistral के 32K की तुलना में 10 गुना अधिक यानी 256K है।
- training tokens की संख्या, Llama2 के 2T की तुलना में 3 गुना अधिक यानी 6T है।
- इसके अलावा यह MQA, RoPE, RMSNorm जैसे क्लासिक transformer variants का उपयोग करता है।
- यह सवाल भी उठाया गया है कि मॉडल को तेज़ी से train करने के लिए batch size कितना था।
यह सवाल उठाया गया कि क्या मॉडल को "alignment" के बिना उपलब्ध कराया जा सकता है, जिसका मतलब शायद वैचारिक fine-tuning से है। यह भी कहा गया कि Gemini मॉडल के जवाब कई बार ऐसी वैचारिक fine-tuning के कारण बेकार हो जाते हैं।
Google के मॉडल पर भरोसा न कर पाने की व्यक्तिगत राय व्यक्त की गई। जापान के Heian काल के बारे में पूछने पर मॉडल ने पूरी तरह बेमेल जानकारी दी, और उसकी गलती इतनी स्पष्ट थी कि वह मज़ाक या parody जैसी लगी। यह भी कहा गया कि Llama मॉडल ने कहीं बेहतर प्रदर्शन दिखाया।
यह सकारात्मक राय दी गई कि Gemma टीम का comments section में आकर सवालों के जवाब देना सराहनीय है।
Gemma मॉडल ने दुनिया की सबसे ऊँची कृत्रिम संरचना, दुनिया के सबसे धनी देश, और प्रति फुट सेंटीमीटर की संख्या के बारे में गलत जानकारी दी। इन त्रुटियों से मॉडल की accuracy पर सवाल उठते हैं।
Gemma-7B मॉडल Vectara HHEM leaderboard में सूचीबद्ध है, जहाँ उसने 100% answer rate और 7.5% hallucination rate दर्ज किया। 7B parameters वाले मॉडल के लिए यह काफ़ी अच्छा प्रदर्शन है।
Gemma मॉडल के प्रभावशाली benchmarks का उल्लेख किया गया, और यहाँ तक कि 2B मॉडल भी काफ़ी अच्छा लग रहा है। इसे सप्ताहांत में explore करने की उत्सुकता भी जताई गई।
यह कहा गया कि अगर 5 साल पहले पूछा जाता कि OpenAI, Meta, और Google में से AI के मामले में सबसे अधिक खुला कौन होगा, तो ज़्यादातर लोग OpenAI चुनते। लेकिन अब यह विडंबना लगती है कि Meta और Google जैसी trillion-dollar कंपनियाँ ऐसे शक्तिशाली open models जारी कर रही हैं जिनका व्यावसायिक उपयोग किया जा सकता है।