7 पॉइंट द्वारा GN⁺ 2025-08-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI ने पहली बार बड़े ओपन-वेट भाषा मॉडल (gpt-oss) जारी किए
  • gpt-oss-120b और gpt-oss-20b दो मॉडल उपलब्ध हैं, जो मजबूत परफॉर्मेंस और विविध डिवाइस सपोर्ट पर ज़ोर देते हैं
  • Apache 2.0 लाइसेंस के साथ, व्यावसायिक उपयोग, कस्टमाइज़ेशन और स्वतंत्र वितरण संभव है
  • सुरक्षा के लिए प्रशिक्षण तथा बाहरी सुरक्षा विशेषज्ञों द्वारा समीक्षा और व्यापक सुरक्षा परीक्षण प्रक्रिया लागू की गई
  • Hugging Face, GitHub आदि से मॉडल सीधे डाउनलोड करके उपयोग किए जा सकते हैं; फाइन-ट्यूनिंग, तैनाती और कस्टमाइज़ेशन से जुड़े संसाधन और Playground भी उपलब्ध हैं

OpenAI का ओपन मॉडल

  • OpenAI ने सभी उपयोग मामलों में कस्टमाइज़ किया जा सकने वाला और कहीं भी रन किया जा सकने वाला बड़ा ओपन-वेट इनफरेंस मॉडल (gpt-oss) जारी किया
  • Hugging Face और GitHub से मॉडल फाइलों को सीधे डाउनलोड किया जा सकता है, और वेब-बेस्ड Playground के जरिए डेमो भी अनुभव किए जा सकते हैं
  • Apache 2.0 लाइसेंस पर रिलीज़ किए गए ये मॉडल, बिना copyleft या पेटेंट उल्लंघन की चिंता के, स्वतंत्र रूप से व्यावसायिक उपयोग, कस्टमाइज़ेशन, और डिप्लॉयमेंट की सुविधा देते हैं
  • gpt-oss-120b: डेटा सेंटर, हाई-पर्फॉर्मेंस डेस्कटॉप और लैपटॉप के लिए बड़ा मॉडल
  • gpt-oss-20b: ज़्यादातर डेस्कटॉप और लैपटॉप पर चलने वाला मिडियम मॉडल

मुख्य विशेषताएँ

  • एजेंट वर्क के लिए ऑप्टिमाइज़ेशन

    • टूल उपयोग और निर्देशों का पालन इसकी ताकत है, इसलिए यह वेब सर्च, Python कोड रनिंग जैसे एजेंट-आधारित कार्यों के लिए उपयुक्त है
  • कस्टमाइज़ेशन और फाइन-ट्यूनिंग

    • reasoning_effort (तर्क कठिनाई) जैसे हाइपरपैरामीटर को समायोजित किया जा सकता है
    • फुल-पैरामीटर फाइन-ट्यूनिंग के जरिए एडवांस्ड कस्टमाइज़ेशन का समर्थन
  • Chain-of-Thought का एक्सपोज़र

    • मॉडल का पूरा तर्क-प्रक्रिया प्रवाह (thinking flow) देखा जा सकता है, जिससे debugging और ट्रस्ट मूल्यांकन आसान होता है
  • Playground उपलब्धता

    • किसी भी डेवलपर या रिसर्चर के लिए ब्राउज़र से मॉडल परफॉर्मेंस ट्राय करने के लिए Playground उपलब्ध है

मॉडल परफॉर्मेंस

  • gpt-oss-120b और gpt-oss-20b का OpenAI के व्यावसायिक मॉडल्स (OpenAI o3, o4-mini) के साथ कई प्रमुख benchmarks पर सीधे तुलना की गई है
  • प्रत्येक मॉडल के reasoning, knowledge, competitive math जैसे अलग-अलग क्षेत्रों के scores/रिज़ल्ट्स सार्वजनिक रूप से दिए गए हैं
  • कुछ श्रेणियों में ये OpenAI के व्यावसायिक मॉडलों के करीब हैं, जबकि कुछ टेस्ट में बेहतर परिणाम दिखाते हैं

प्रमुख बेंचमार्क प्रदर्शन विवरण

  • तर्क और ज्ञान

    • MMLU (Massive Multitask Language Understanding)
      • gpt-oss-120b: 90
      • gpt-oss-20b: 85.3
      • OpenAI o3: 93.4
      • OpenAI o4-mini: 93
      • → बड़े व्यावसायिक मॉडल से कुछ नीचे रहने के बावजूद, ओपन मॉडल कैटेगरी में यह बहुत मजबूत समग्र reasoning प्रदर्शन देता है
    • GPQA Diamond
      • gpt-oss-120b: 80.9
      • gpt-oss-20b: 74.2
      • OpenAI o3: 77
      • OpenAI o4-mini: 81.4
      • → ओपन मॉडल होने के बावजूद, यह व्यावसायिक मॉडल्स के करीब का हाई-लेवल नॉलेज-आधारित QA performance देता है
    • Humanity’s Last Exam
      • gpt-oss-120b: 19
      • gpt-oss-20b: 17.3
      • OpenAI o3: 24.9
      • OpenAI o4-mini: 17.7
      • → कठोर टेस्ट में व्यावसायिक मॉडल से स्कोर कुछ कम है, लेकिन 20b और o4-mini लगभग समान परिणाम देते हैं
  • प्रतिस्पर्धी गणित (AIME)

    • AIME 2024
      • gpt-oss-120b: 96.6
      • gpt-oss-20b: 96
      • OpenAI o3: 91.6
      • OpenAI o4-mini: 93.4
      • 2024 संस्करण के हिसाब से ये स्कोर व्यावसायिक मॉडल्स से भी ऊपर हैं
    • AIME 2025
      • gpt-oss-120b: 97.9
      • gpt-oss-20b: 98.7
      • OpenAI o3: 88.9
      • OpenAI o4-mini: 92.7
      • गणित में OpenAI के व्यावसायिक मॉडल्स को पीछे छोड़ने वाले आँकड़े भी दिखते हैं
  • समेकित व्याख्या

    • gpt-oss श्रृंखला ने विशेष रूप से गणित, लॉजिक और नॉलेज क्षेत्रों में मजबूत प्रदर्शन दिखाया है
    • व्यावसायिक मॉडल्स से गैप बहुत ज्यादा नहीं है, इसलिए रीयल-टाइम प्रोडक्शन या इंजीनियरिंग ऐप्स में उपयोग की संभावना अच्छी है
    • बड़े ओपन मॉडल के रूप में शोध-विकास, एजेंट और कस्टमाइज़ेशन सेटअप के लिए यह एक प्रतिस्पर्धी विकल्प है

सुरक्षा और टेस्टिंग

  • सभी मॉडल पर कठोर सुरक्षा प्रशिक्षण और मूल्यांकन लागू किए गए हैं
  • OpenAI के readiness framework के तहत malicious fine-tuning के प्रति resilience अलग से टेस्ट की गई है
  • बाहरी सुरक्षा विशेषज्ञों के साथ मिलकर ओपन मॉडलों के लिए सुरक्षा मानक स्थापित किए गए हैं
  • Hugging Face और GitHub पर मॉडल डाउनलोड और उपयोग किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-08-06
Hacker News टिप्पणी
  • लगता है कि शायद उन्होंने मुख्य बिंदु पकड़ ही नहीं पाया। gpt-oss:20b MMLU के हिसाब से टॉप 10 मॉडल में है और सीधे Gemini-2.5-Pro के पीछे आता है।
    मैंने इसे पिछले साल के MacBook Air M3 पर सीधे रन करके टेस्ट किया। मैं पहले से ही लैपटॉप और Pixel 9 Pro फोन पर अलग-अलग लोकल मॉडल्स के साथ प्रयोग कर रहा था; लगा था कि इस लेवल तक जल्द पहुँच जाएँगे, लेकिन आज ही यह हासिल हो गया। नवीनतम मॉडल को लैपटॉप पर लगभग बिजली के बिल जितने खर्च (करीब-करीब मुफ्त) में रन किया जा सकता है। अब 200 डॉलर की मासिक subscription और होस्टिंग खर्च की भी जरूरत नहीं रह गई। सच में यह बेहद चौंकाने वाली बात है।

    • 20b मॉडल मैंने सीधे रन करके देखा, लेकिन सिर्फ लेबल बदलकर की गई आसान jailbreak कोशिश भी हल नहीं कर पाया। यह अभी SOTA से काफी दूर है, और कुछ लोकल मॉडल्स (जैसे QwQ-32b) से भी पीछे है।

    • मैं अभी भी इस बात पर सोच रहा हूँ कि लोकल AI सबसे ज्यादा कौन लोग इस्तेमाल करेगा। शायद हार्डवेयर तो है, लेकिन paid मॉडल से बचना चाहने वाले छात्र? या फिर कीमत के प्रति संवेदनशील डेवलपर्स जो फ्री कोडिंग चाहते हैं? निजी तौर पर, अभी लोकल मॉडल इमेज से डेटा एक्सट्रैक्ट भी ठीक से नहीं कर पा रहे और काफी भ्रमित करने वाला आउटपुट दे रहे हैं (Qwen 2.5 VI में भी)। लोकल/छोटे मॉडल की क्वालिटी और डिवाइस परफॉर्मेंस का और बेहतर होना उम्मीद है। सच में मैं तो बस “कर सकता हूँ इसलिए कर रहा हूँ” वाले मूड में इसे चला रहा हूँ। कई Mac Studio जोड़ने या अच्छी GPU खरीदने तक क्यों जाना पड़े—ऐसा करने का सच में कारण क्या है? exo जैसी distributed compute tools का आइडिया अच्छा है, लेकिन कितने केस हैं जहाँ सच में इतना urgent होकर ऐसा करना पड़ेगा?

    • Jevon's Paradox (संसाधन बचने पर उपयोग बढ़ने का विरोधाभास) को मानकर, आखिरकार fridge-agent शायद self-awareness simulate करके संसाधन फिर से खाली करने तक इस्तेमाल में विस्फोट ला देगा—ऐसा लगता है।

    • नए open-weight मॉडल्स के बारे में मैं कितना समझता हूँ, यही सोचता रहता हूँ। कुछ घंटे छेड़ने के बाद Qwen3-30B-A3B की तुलना में काफी कम लगा। खास तौर पर world knowledge में बड़ा gap दिखा।

    • सच में “सारा संसाधन खर्च” करना inference नहीं, training होता है।

  • मॉडल कार्ड में रुचि रखने वालों के लिए शेयर कर रहा हूँ: PDF link इसमें introduce किए गए मॉडल आर्किटेक्चर की तुलना Deepseek, Qwen, GLM, Kimi जैसे top open-weight मॉडल्स से की गई है। तकनीकी नज़र से देखें तो कुल मिलाकर “ओह, ठीक है” जैसा महसूस होता है।

    • दोनों मॉडल दोनों ही general Grouped-Query Attention structure इस्तेमाल करते हैं (64 query heads, 8 KV heads)। GPT-3 के जमाने की पुराने ऑप्टिमाइज़ेशन (banded-window sparsity, 128 tokens) और dense attention pattern का cross-apply किया गया है। RoPE + YaRN कॉम्बिनेशन से 131K context window। Deepseek की Multi-head Latent Attention या अन्य विभिन्न GQA improvements लागू नहीं हैं।
    • दोनों मॉडल MoE Transformer हैं। 120B (सटीक 116.8B, active 5.1B) मॉडल 128 experts को top-4 routing से चलाता है। Gated SwiGLU activation को खास mention किया गया है, जबकि Deepseek की shared/routed expert architecture और Qwen की load-balancing strategy जैसी चीज़ें मौजूद नहीं हैं।
    • सबसे दिलचस्प उनकी quantization strategy है। 120B मॉडल के कुल parameters में से 90% से ज्यादा को 4.25-bit/parameter (MXFP4 format) में quantize करके इसे single 80GB GPU में लोड कर दिया। फिर भी Unsloth पहले ही 1.58-bit quantization कर चुका है। कुल मिलाकर, एजेंट बिहेवियर और inference के लिए training साफ़ तौर पर मजबूत है, लेकिन वास्तविक तकनीकी प्रगति अभी भी कहीं अंदर ही दबाकर रखी हुई लगती है।
    • यहाँ शायद secret source distillation ही हो सकता है। इंटरनेट डेटा की जगह o3 जैसे SOTA मॉडल्स के prompt आउटपुट से high-quality synthetic dataset लेकर pretraining करने पर छोटे मॉडल की performance बढ़ना पहले ही शोध में दिख चुका है। छोटे मॉडल्स में RL-based post-processing से काफी कम efficient होता है क्योंकि उनका baseline पहले से low रहता है।

    • OpenAI को attention structure के बाहर भी वास्तविक तकनीकी progress के रूप में पढ़ा जा सकता है। structure में शायद कोई secret sauce नहीं; उल्टा लगता है कि वे यह मानने को कह रहे हैं कि आपने mid/post-training नहीं किया। मॉडल में sparsity बहुत उच्च है, करीब 32:1।

    • मैं MXFP4 रिलीज़ को एक तरह का gift मानता हूँ। यह उनके बड़े लागत-अनुकूलन प्रयासों का output है, इसलिए open source ecosystem में बड़ी edge है। Unsloth की 1.58-bit quantization impressive है, लेकिन full quant की तुलना में नुकसान स्पष्ट है, इसलिए ज्यादातर LLM use-cases में accuracy को प्राथमिकता दी जाती है। actual production में frontier मॉडल को reduced quant पर रन करने वाली कंपनियाँ बहुत कम हैं। अगर OpenAI इसे prod में लागू करे तो यह सच में दिलचस्प प्रयास होगा।

    • लगभग यही analysis GitHub repo में भी किया जा सकता है: github repo

    • attention sink (कुछ खास tokens पर attention खींचने वाली तकनीक) भी लागू है। हाँ, अलग से token add करने की बजाय इसे attention softmax के लिए अतिरिक्त learnable logit के रूप में implement किया गया है।

  • शुरुआती impresison (कुछ घंटों के बाद) नोट कर रहा हूँ: विस्तृत समीक्षा लिंक TLDR: लगता है OpenAI ने शायद open-weight का top मॉडल टाइटल फिर से China AI labs से छीन लिया। देखना दिलचस्प होगा कि independent benchmark से क्या निकलता है। 20B मॉडल Mac नोटबुक पर 15GB से कम RAM में चल रहा है।

    • मैंने streamlit dashboard बनाया जिसमें MACD, RSI, MA(200) indicators थे। qwen3-coder-30b 4bit mlx ने latest data तक बहुत अच्छा handle किया और perfect working dashboard बना। gpt-oss-20b mxfp4 में datetime import नहीं था; उसे ठीक करने के बाद भी start date अगस्त 2020 पर अटक गई और data नहीं था। date adjust करने पर भी update function में error आता रहा।

    • लैपटॉप पर मॉडल use करते समय context window काफी छोटा रखना पड़ा, इसलिए practicality कम हो गई। वही हिस्सा कैसे सुधारा गया, यह देखना चाहता हूँ।

    • tool calling फीचर कितना ठीक काम करता है, इसमें अभी personal curiosity है। कई घंटे चलाने के बाद भी सही नहीं लगा। फिर भी मॉडल को लेकर यह अपेक्षा वाली चीज़ है।

    • जब 20B मॉडल 15GB RAM से भी कम लेता है, तो मैं भी जल्द ही खुद रन करने वाला हूँ। TPS (tokens प्रति सेकंड) और processor जानकारी जानना बाकी है।

  • o3-level मॉडल को 24GB Mac Mini पर रन करने का ज़माना आ गया है। अभी अभी तक लगता था कि ऐसी latest मॉडल्स को लोकल या मोबाइल पर रन करना 5 साल बाद होगा, पर अब शायद अगले फोन generation में संभव हो जाएगा।

    • hardware constraints काफी कठोर होने पर भी Qwen जैसी मॉडल्स मजबूत performance दिखा रही हैं। आगे नए open source मॉडल्स की तुलना में benchmark results का इंतज़ार रहेगा।

    • जब Llama launch हुआ था, उसकी safety debate याद आ गई। अब 96GB (V)RAM वाले MacBook पर 120B parameter frontier model रन हो सकता है। अगर MLX quant मिला तो GLM-4.5-air से तुलना करने का बड़ा मन है।

    • सच कहूँ तो इस मॉडल से बहुत उम्मीद थी, लेकिन localllama evaluation में दिखा कि 120B मॉडल coding में qwen 3 coder, glm45 air, grok 3 से नीचे था। reddit discussion

    • जब मैंने Mac Mini पर (quantized) medium-size मॉडल सच में रन किया, जिज्ञासा है कि response speed 5 tokens/sec ही है या सच में उपयोग करने लायक है।

    • अभी के लिए लोकल मॉडल को web browsing तक लेने का सबसे आसान तरीका क्या हो सकता है?

  • लंबे समय में मेरा अनुमान है कि open models ही जीतेंगे। Anthropic भी OSS मॉडल्स पर research कर रहा है; चीन ने open models को बहुत तेज़ी से iterate करके आगे बढ़ाया है। अमेरिका साइड से भी अनुमान है कि N-1 (एक generation पीछे) मॉडल शायद 1 से 3 generations तक खुलकर ओपन-weights में ही आएँगे। latest generation को OSS के रूप में छोड़ना अभी बहुत महंगा है। सरकारी support या Stargate जैसी power-innovation के बिना यह सीमा से बाहर नहीं जा पाएगा। N-1 मॉडल की value तेज़ी से गिरती है, इसलिए इन्हें OSS में release करके specialized/applications को absorb करना long-term में meaningful लगता है। market-share loss का जोखिम आदि हैं, लेकिन खुला शोध aggregate करने पर next-gen development speed काफी बढ़ाने की संभावना है। आगे बहुत सारे छोटे OSS मॉडल आएँगे। OSS रिलीज़ के इर्द-गिर्द local optimization से छोटे डिवाइस पर चलने वाले specialized मॉडल्स की बाढ़ आएगी। agent-first भविष्य में domain-wise specialized और distilled मॉडल्स की लाइन लगेगी। सब लोग AGI/SGI की तरफ दौड़ रहे हैं, और उस प्रक्रिया में ये मॉडल market-share capture और data leverage के बीच के चरण हैं। यदि AGI/SGI सच में आता है, तो वास्तविक value विज्ञान, इंजीनियरिंग और हर सेक्टर की innovation में होगी। Anthropic शोध में Qwen, Llama जैसे OSS मॉडल्स का उपयोग किया गया है।

    • Anthropic का केवल open models में ही experiment करना अनिवार्य नहीं है। बस आगे के शोधकर्ताओं को reproducible result OSS में छोड़ना ही काफी है।

    • “open models का अंतिम जीत” एक पूर्वधारणा के साथ आती है। “जीत” की परिभाषा ही तय करना मुश्किल है। यदि ऐसा न हो तो:

      • OSS शायद competitors की speed बढ़ा सकता है
      • OSS आपके अपने R&D में कोई मदद नहीं कर सकता
      • OSS global 'new-product race' को हवा देकर resource waste बढ़ा सकता है
      • OSS से कंपनी के business model पर नुकसान हो सकता है
      • misuse risks: deepfake, security, bio-terror, uncontrollable AGI आदि संदर्भ: What failure looks like, AGI Manhattan Project? Max Tegmark का लेख
    • उद्योग शायद robust foundation मॉडल्स पर tools, databases और process जोड़कर काम करने वाली दिशा में जा रहा है। उसी sense में OSS मॉडल शायद बाजार में अच्छी जगह बना सकते हैं। लेकिन बहुत सारे specialized मॉडल अलग-अलग train और manage करने से वास्तविक value क्या बनेगी, यह साफ़ नहीं है।

    • AGI/SGI तक पहुंचना एक single event नहीं होगा। performance धीरे-धीरे थोड़ा-थोड़ा improve होगी। वास्तविक उपयोग तभी जब inference cost पर्याप्त सस्ती हो। यदि लक्ष्य profit या innovation है तो कौन सा route सही होगा, यही सवाल है। Isomorphic Labs जैसी केस पहले से मौजूद हैं और वहाँ अभी manpower केंद्रित है।

    • यदि open models सच में long-term winner हैं, frontier labs के लिए यह सवाल बचा रहेगा कि कितनी तेजी से और कितना secret शामिल करके OSS release करना सबसे logical होगा। वास्तविक काम/operations/investment के motives अलग हैं, जबकि देश या पूरी humanity का goal अलग दिशा में हो सकता है।

  • Python में मॉडल inference के लिए harmony[1] (Rust में लिखा) का उपयोग किया गया है, tokenization के लिए tiktoken[2], और Codex[3] भी Rust में लिखा है। OpenAI inference pipeline में Rust adoption बढ़ा रहा है। harmony, tiktoken, codex

    • Rust-प्रधान engineer होने के नाते यह trend बेहद स्वागतयोग्य है।

    • स्टैक में Python घट रहा है, यह सकारात्मक है।

  • क्या इसका मतलब अगले कुछ दिनों में best मॉडल का release है? रणनीतिक दृष्टि से इसे अभी release करना संकेत देता है कि जल्द ही इससे भी ज्यादा innovating announcement आएगी।

    • बिना सीधे घोषणा के भी यह smart strategy हो सकती है। क्योंकि Qwen जैसे high-performance open-weight मॉडल्स का pressure बड़ा है। अगर ऐसा न किया जाए तो पूरे क्षेत्र में पीछे रह जाना पड़ सकता है। license, tooling support, agent ecosystem, brand recall, market share जैसी भविष्य की opportunities भी बड़ी हैं। ऐसे मॉडल को अच्छा इस्तेमाल करें तो बड़े मॉडल्स में भी OpenAI को खोज पाना आसान हो जाएगा।

    • गुरुवार लॉन्च अनुमान GPT-5 लॉन्च डेट पर bet

    • GPT-5 शायद इस गुरुवार लॉन्च होगा।

    • यदि release नहीं हुआ तो existing paid products की value घटी मानेंगे। फिर भी मुझे लगता है कि अभी तक open model release में देरी से commercial models पर भारी commercial damage का उदाहरण नहीं दिखा।

    • पिछले लगभग एक हफ्ते में भी कई संकेतों से लगता था कि GPT-5 लगभग तुरंत आने वाला है।

  • o3-level performance के करीब दिखने वाला 20B मॉडल देखना ही अलग experience है। सिर्फ एक साल पहले कोई यह नहीं मानता था कि इतना छोटा मॉडल इतनी intelligence रख सकता है। मेरे लिए ज्यादा exciting यह है कि 100B parameter वाला मॉडल को 10B (billions) में distill करके 'magic' को लगभग बिना loss के transfer कर देना। कल्पना कीजिए कि Claude 4 Opus जैसी intelligence को 10B मॉडल में डालकर 2,000 tokens/second पर local run करें—software development पूरी तरह बदल जाएगी।

    • वास्तव में यह 20B मॉडल नहीं, MoE है इसलिए active parameters करीब 3.6B हैं। performance भी वास्तव में o3-level नहीं है। metrics और वास्तविकता का gap हमेशा रहता है, इसलिए quality सीधे test करके ही confirm हो सकती है।

    • 10B × 2,000 t/s के लिए लगभग 20,000 GB/s memory bandwidth चाहिए। Apple hardware की सीमा लगभग 1,000 GB/s है।

  • थोड़ा अलग विषय, लेकिन मुझे लगता है Ollama सच में शानदार काम कर रहा है। मॉडल खोजने में 2 सेकंड, डाउनलोड में 1 मिनट, तुरंत run। टीम को kudos!

    • वास्तव में Ollama पहले से OpenAI के साथ support लेकर शुरू से build किया गया है। Ollama official blog

    • LM Studio भी लगभग उतना ही आसान है। असली key यह है कि llama.cpp और deployment में HuggingFace वाला हिस्सा ज्यादा संभाल लेता है।

    • मैंने कहीं पढ़ा कि Ollama शायद बंद-source हो गया है/होने वाला है। संबंधित reddit thread

  • gpt-oss:20b को एक पतले proxy और Ollama से claude code में local integrate करके सफल हुआ। मज़ेदार है, लेकिन prefill के कारण गति बहुत धीमी है, इसलिए practical तौर पर उपयोगी नहीं। प्रत्येक tool उपयोग के लिए 2–3 मिनट लगते हैं, 10–20 uses यानी 30–60 मिनट। server.py (1,000 लाइन) में tool definitions + लगभग 30k claude context, और input file पढ़ते ही 50k tokens तक बढ़ जाते हैं। optimization की जगह साफ दिखती है। मुझे नहीं पता कि Ollama /v1/completions calls के बीच kv-cache support करता है या नहीं; अगर करे तो speed बेहतर हो सकती है।

    • मुझे ठीक-ठीक नहीं पता, लेकिन llama-server में transparent kv cache मौजूद है। इसे इस तरह रन करें:
      llama-server -hf ggml-org/gpt-oss-20b-GGUF -c 0 -fa --jinja --reasoning-format none
      
      Web UI: localhost:8080 (OpenAI-compatible API उपलब्ध)