• Gemma 4 26B IT पर आधारित Apple Silicon MLX-optimized/4-bit quantized टेक्स्ट-ओनली मॉडल, लगभग 13GB आकार
  • मूल मॉडल से ज़्यादा स्मार्ट, उसी मशीन पर ज़्यादा तेज़, और code·tool use·Korean में स्थिर uncensored मॉडल
  • टेक्स्ट-ओनली फ्लैगशिप, multimodal नहीं बल्कि तेज़ टेक्स्ट प्रोसेसिंग पर फोकस
  • QuickBench में 95.8 (मूल 91.4) तक सुधार और 8.7% तेज़ generation speed (46.2 tok/s), जिससे वास्तविक उपयोग में response wait time साफ़ तौर पर कम होता है
  • uncensored विशेषता को मुख्य गुण के रूप में बनाए रखते हुए भी code, tool use, और Korean prompts में स्थिर output देता है
    • code generation स्कोर 98.6 (+6.3) है, और लोकल पर Python functions लिखवाने या refactoring कराने में मूल मॉडल से कहीं अधिक सटीक परिणाम दिखाता है
    • Korean prompt score 95.0 (+4.3) है, इसलिए Korean में पूछने पर भी output टूटता नहीं और सीधे उपयोग किया जा सकता है
    • Korean और agent-style prompts प्रोसेसिंग प्रदर्शन मूल मॉडल से बेहतर है
    • uncensored मॉडल होने के कारण content filters से रुके हुए जवाब शून्य, फिर भी output अस्थिर या टूटा हुआ नहीं होता
  • browser automation, tool calling, planning जैसे local agent workloads/pipelines में सीधे लगाया जा सकता है
  • चलाने का तरीका:
    • mlx_lm.server --model Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2 --port 8080
    • OpenAI-compatible serving अपने-आप सपोर्ट होता है, अलग template सेट करने की ज़रूरत नहीं (--chat-template में path देने पर उल्टा response खराब हो सकता है)
  • MLX 4-bit, BF16·U32 tensors, Safetensors format

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.