- Gemma 3 Google DeepMind की नई हल्की open model family है, जिसमें parameter size 1B से 27B तक हैं
- मुख्य सुधार:
- मल्टीमोडल क्षमता जोड़ी गई → इसमें visual understanding शामिल है
- लंबा context processing → अधिकतम 128K tokens प्रोसेस कर सकता है
- बहुभाषी समर्थन मजबूत किया गया → विभिन्न भाषाओं में प्रदर्शन बेहतर
- मेमोरी उपयोग का अनुकूलन → local और global attention layers का अनुपात (5:1) समायोजित कर KV-cache memory उपयोग कम किया गया
- Knowledge Distillation तरीके से training की गई → पिछले version की तुलना में प्रदर्शन बेहतर
# मॉडल आर्किटेक्चर
- decoder-only Transformer आर्किटेक्चर बरकरार
- Grouped-Query Attention (GQA) अपनाया गया → अधिक कुशल attention mechanism लागू
- local/global attention ratio 5:1 सेट किया गया → local window size को 1024 tokens पर रखा गया
- RoPE (Rotary Position Embedding) की base frequency को 10K से 1M तक बढ़ाया गया → long-context support मजबूत
- visual encoder: SigLIP-आधारित encoder का उपयोग (400M parameters)
# विज़न मोडैलिटी
- visual encoder: 896 x 896 resolution पर काम करता है
- Pan & Scan (P&S) तकनीक लागू → irregular aspect ratio वाली images को प्रोसेस कर सकता है
- visual encoder को 4B, 12B, 27B models में साझा किया गया → training के दौरान इसे fixed रखा गया
# प्री-ट्रेनिंग (Pre-training)
- Knowledge Distillation तरीके से training की गई
- training में इस्तेमाल token count:
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
- बहुभाषी प्रदर्शन में सुधार → monolingual और parallel data दोनों शामिल
- refinement process → personal information और sensitive data हटाया गया
# क्वांटाइज़ेशन-अवेयर ट्रेनिंग (Quantization Aware Training)
- training के बाद quantization किया गया → int4, fp8 आदि विभिन्न formats में उपलब्ध
- मेमोरी बचत प्रभाव:
- 27B model के लिए:
- मूल: 54GB → quantization के बाद: न्यूनतम 14.1GB
# इंस्ट्रक्शन ट्यूनिंग (Instruction Tuning)
- reinforcement learning और Knowledge Distillation को साथ में लागू किया गया
- helpfulness, mathematics, coding, reasoning, बहुभाषी क्षमता को मजबूत किया गया
- reinforcement learning में उपयोग की गई प्रमुख तकनीकें:
- BOND, WARM, WARP → reward-based reinforcement learning techniques लागू
- data refinement → अनावश्यक data और sensitive information हटाई गई
# प्रदर्शन मूल्यांकन
LMSYS Chatbot Arena मूल्यांकन परिणाम
- Gemma 3 27B IT model का Elo score: 1338 → शीर्ष 10 स्तर का प्रदर्शन
- GPT-4.5 और Grok-3-Preview के करीब प्रदर्शन दर्ज
- पिछले version Gemma 2 27B की तुलना में 118 points की बढ़त
मानक benchmark प्रदर्शन
- MMLU-Pro: 67.5 (Gemma 2 की तुलना में लगभग 10 points अधिक)
- MATH: 89.0 (Gemma 2 की तुलना में लगभग 34 points अधिक)
- LiveCodeBench: 29.7 (Gemma 2 की तुलना में लगभग 9 points अधिक)
# संरचनात्मक बदलावों के अनुसार प्रदर्शन विश्लेषण
- local:global attention ratio → 5:1 प्रदर्शन और memory उपयोग दोनों में सबसे उपयुक्त
- sliding window size → 1024 tokens पर memory efficiency बनी रही, प्रदर्शन में गिरावट नहीं
- KV cache memory reduction → global-only attention की तुलना में 15% कम
# लंबा context support मजबूत
- training के दौरान 32K tokens से शुरुआत → बाद में 128K tokens तक scale up
- RoPE frequency adjustment → प्रदर्शन में गिरावट के बिना context विस्तार
# visual encoder प्रदर्शन मूल्यांकन
- input resolution बढ़ाने पर प्रदर्शन बेहतर:
- 256 → 896 resolution पर प्रदर्शन अधिकतम 20% बढ़ा
- Pan & Scan तकनीक लागू होने पर प्रदर्शन में वृद्धि:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# मेमोरी और प्राइवेसी सुरक्षा
- memorization rate में कमी:
- Gemma 3 में Gemma 2 की तुलना में memory usage rate कम
- personal information leakage का जोखिम कम
# ज़िम्मेदारी, सुरक्षा और संरक्षा
- Google की safety policy के अनुसार harmful content को रोका गया:
- child abuse, hate speech, personal information leakage आदि की रोकथाम
- उन्नत reinforcement learning और RLHF लागू → harmful content generation को न्यूनतम किया गया
# निष्कर्ष
- Gemma 3 में मौजूदा Gemma 2 models की तुलना में मल्टीमोडल, बहुभाषी, लंबे context प्रदर्शन में बड़ा सुधार
- visual understanding, mathematics और coding performance मजबूत
- मेमोरी उपयोग का अनुकूलन करके प्रदर्शन और efficiency दोनों बेहतर किए गए
अभी कोई टिप्पणी नहीं है.