Google DeepMind की Gemma 3 तकनीकी रिपोर्ट [pdf]

(storage.googleapis.com)

2 पॉइंट द्वारा GN⁺ 2025-03-13 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Gemma 3 Google DeepMind की नई हल्की open model family है, जिसमें parameter size 1B से 27B तक हैं
मुख्य सुधार:
- मल्टीमोडल क्षमता जोड़ी गई → इसमें visual understanding शामिल है
- लंबा context processing → अधिकतम 128K tokens प्रोसेस कर सकता है
- बहुभाषी समर्थन मजबूत किया गया → विभिन्न भाषाओं में प्रदर्शन बेहतर
- मेमोरी उपयोग का अनुकूलन → local और global attention layers का अनुपात (5:1) समायोजित कर KV-cache memory उपयोग कम किया गया
Knowledge Distillation तरीके से training की गई → पिछले version की तुलना में प्रदर्शन बेहतर

# मॉडल आर्किटेक्चर

decoder-only Transformer आर्किटेक्चर बरकरार
Grouped-Query Attention (GQA) अपनाया गया → अधिक कुशल attention mechanism लागू
local/global attention ratio 5:1 सेट किया गया → local window size को 1024 tokens पर रखा गया
RoPE (Rotary Position Embedding) की base frequency को 10K से 1M तक बढ़ाया गया → long-context support मजबूत
visual encoder: SigLIP-आधारित encoder का उपयोग (400M parameters)

# विज़न मोडैलिटी

visual encoder: 896 x 896 resolution पर काम करता है
Pan & Scan (P&S) तकनीक लागू → irregular aspect ratio वाली images को प्रोसेस कर सकता है
visual encoder को 4B, 12B, 27B models में साझा किया गया → training के दौरान इसे fixed रखा गया

# प्री-ट्रेनिंग (Pre-training)

Knowledge Distillation तरीके से training की गई
training में इस्तेमाल token count:
- 1B → 2T tokens
- 4B → 4T tokens
- 12B → 12T tokens
- 27B → 14T tokens
बहुभाषी प्रदर्शन में सुधार → monolingual और parallel data दोनों शामिल
refinement process → personal information और sensitive data हटाया गया

# क्वांटाइज़ेशन-अवेयर ट्रेनिंग (Quantization Aware Training)

training के बाद quantization किया गया → int4, fp8 आदि विभिन्न formats में उपलब्ध
मेमोरी बचत प्रभाव:
- 27B model के लिए:
  - मूल: 54GB → quantization के बाद: न्यूनतम 14.1GB

# इंस्ट्रक्शन ट्यूनिंग (Instruction Tuning)

reinforcement learning और Knowledge Distillation को साथ में लागू किया गया
helpfulness, mathematics, coding, reasoning, बहुभाषी क्षमता को मजबूत किया गया
reinforcement learning में उपयोग की गई प्रमुख तकनीकें:
- BOND, WARM, WARP → reward-based reinforcement learning techniques लागू
data refinement → अनावश्यक data और sensitive information हटाई गई

# प्रदर्शन मूल्यांकन

LMSYS Chatbot Arena मूल्यांकन परिणाम

Gemma 3 27B IT model का Elo score: 1338 → शीर्ष 10 स्तर का प्रदर्शन
GPT-4.5 और Grok-3-Preview के करीब प्रदर्शन दर्ज
पिछले version Gemma 2 27B की तुलना में 118 points की बढ़त

मानक benchmark प्रदर्शन

MMLU-Pro: 67.5 (Gemma 2 की तुलना में लगभग 10 points अधिक)
MATH: 89.0 (Gemma 2 की तुलना में लगभग 34 points अधिक)
LiveCodeBench: 29.7 (Gemma 2 की तुलना में लगभग 9 points अधिक)

# संरचनात्मक बदलावों के अनुसार प्रदर्शन विश्लेषण

local:global attention ratio → 5:1 प्रदर्शन और memory उपयोग दोनों में सबसे उपयुक्त
sliding window size → 1024 tokens पर memory efficiency बनी रही, प्रदर्शन में गिरावट नहीं
KV cache memory reduction → global-only attention की तुलना में 15% कम

# लंबा context support मजबूत

training के दौरान 32K tokens से शुरुआत → बाद में 128K tokens तक scale up
RoPE frequency adjustment → प्रदर्शन में गिरावट के बिना context विस्तार

# visual encoder प्रदर्शन मूल्यांकन

input resolution बढ़ाने पर प्रदर्शन बेहतर:
- 256 → 896 resolution पर प्रदर्शन अधिकतम 20% बढ़ा
Pan & Scan तकनीक लागू होने पर प्रदर्शन में वृद्धि:
- DocVQA → +4.8%
- InfoVQA → +17.0%

# मेमोरी और प्राइवेसी सुरक्षा

memorization rate में कमी:
- Gemma 3 में Gemma 2 की तुलना में memory usage rate कम
- personal information leakage का जोखिम कम

# ज़िम्मेदारी, सुरक्षा और संरक्षा

Google की safety policy के अनुसार harmful content को रोका गया:
- child abuse, hate speech, personal information leakage आदि की रोकथाम
उन्नत reinforcement learning और RLHF लागू → harmful content generation को न्यूनतम किया गया

# निष्कर्ष

Gemma 3 में मौजूदा Gemma 2 models की तुलना में मल्टीमोडल, बहुभाषी, लंबे context प्रदर्शन में बड़ा सुधार
visual understanding, mathematics और coding performance मजबूत
मेमोरी उपयोग का अनुकूलन करके प्रदर्शन और efficiency दोनों बेहतर किए गए

Google DeepMind की Gemma 3 तकनीकी रिपोर्ट [pdf]

# मॉडल आर्किटेक्चर

# विज़न मोडैलिटी

# प्री-ट्रेनिंग (Pre-training)

# क्वांटाइज़ेशन-अवेयर ट्रेनिंग (Quantization Aware Training)

# इंस्ट्रक्शन ट्यूनिंग (Instruction Tuning)

# प्रदर्शन मूल्यांकन

LMSYS Chatbot Arena मूल्यांकन परिणाम

मानक benchmark प्रदर्शन

# संरचनात्मक बदलावों के अनुसार प्रदर्शन विश्लेषण

# लंबा context support मजबूत

# visual encoder प्रदर्शन मूल्यांकन

# मेमोरी और प्राइवेसी सुरक्षा

# ज़िम्मेदारी, सुरक्षा और संरक्षा

# निष्कर्ष

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.