quantized मॉडल

(huggingface.co)

40 पॉइंट द्वारा xguru 14 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Gemma 4 26B IT पर आधारित Apple Silicon MLX-optimized/4-bit quantized टेक्स्ट-ओनली मॉडल, लगभग 13GB आकार
मूल मॉडल से ज़्यादा स्मार्ट, उसी मशीन पर ज़्यादा तेज़, और code·tool use·Korean में स्थिर uncensored मॉडल
टेक्स्ट-ओनली फ्लैगशिप, multimodal नहीं बल्कि तेज़ टेक्स्ट प्रोसेसिंग पर फोकस
QuickBench में 95.8 (मूल 91.4) तक सुधार और 8.7% तेज़ generation speed (46.2 tok/s), जिससे वास्तविक उपयोग में response wait time साफ़ तौर पर कम होता है
uncensored विशेषता को मुख्य गुण के रूप में बनाए रखते हुए भी code, tool use, और Korean prompts में स्थिर output देता है
- code generation स्कोर 98.6 (+6.3) है, और लोकल पर Python functions लिखवाने या refactoring कराने में मूल मॉडल से कहीं अधिक सटीक परिणाम दिखाता है
- Korean prompt score 95.0 (+4.3) है, इसलिए Korean में पूछने पर भी output टूटता नहीं और सीधे उपयोग किया जा सकता है
- Korean और agent-style prompts प्रोसेसिंग प्रदर्शन मूल मॉडल से बेहतर है
- uncensored मॉडल होने के कारण content filters से रुके हुए जवाब शून्य, फिर भी output अस्थिर या टूटा हुआ नहीं होता
browser automation, tool calling, planning जैसे local agent workloads/pipelines में सीधे लगाया जा सकता है
चलाने का तरीका:
- mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --port 8080
- OpenAI-compatible serving अपने-आप सपोर्ट होता है, अलग template सेट करने की ज़रूरत नहीं (--chat-template में path देने पर उल्टा response खराब हो सकता है)
MLX 4-bit, BF16·U32 tensors, Safetensors format

SuperGemma4 - Google Gemma 4 26B का uncensored/स्पीड-इम्प्रूव्ड/quantized मॉडल

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.