- Gemma 4 26B IT पर आधारित Apple Silicon MLX-optimized/4-bit quantized टेक्स्ट-ओनली मॉडल, लगभग 13GB आकार
- मूल मॉडल से ज़्यादा स्मार्ट, उसी मशीन पर ज़्यादा तेज़, और code·tool use·Korean में स्थिर uncensored मॉडल
- टेक्स्ट-ओनली फ्लैगशिप, multimodal नहीं बल्कि तेज़ टेक्स्ट प्रोसेसिंग पर फोकस
- QuickBench में 95.8 (मूल 91.4) तक सुधार और 8.7% तेज़ generation speed (46.2 tok/s), जिससे वास्तविक उपयोग में response wait time साफ़ तौर पर कम होता है
- uncensored विशेषता को मुख्य गुण के रूप में बनाए रखते हुए भी code, tool use, और Korean prompts में स्थिर output देता है
- code generation स्कोर 98.6 (+6.3) है, और लोकल पर Python functions लिखवाने या refactoring कराने में मूल मॉडल से कहीं अधिक सटीक परिणाम दिखाता है
- Korean prompt score 95.0 (+4.3) है, इसलिए Korean में पूछने पर भी output टूटता नहीं और सीधे उपयोग किया जा सकता है
- Korean और agent-style prompts प्रोसेसिंग प्रदर्शन मूल मॉडल से बेहतर है
- uncensored मॉडल होने के कारण content filters से रुके हुए जवाब शून्य, फिर भी output अस्थिर या टूटा हुआ नहीं होता
- browser automation, tool calling, planning जैसे local agent workloads/pipelines में सीधे लगाया जा सकता है
- चलाने का तरीका:
mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --port 8080
- OpenAI-compatible serving अपने-आप सपोर्ट होता है, अलग template सेट करने की ज़रूरत नहीं (
--chat-template में path देने पर उल्टा response खराब हो सकता है)
- MLX 4-bit, BF16·U32 tensors, Safetensors format
अभी कोई टिप्पणी नहीं है.