• Gemma 4 mixture-of-experts संरचना का उपयोग करता है, जिसमें केवल कुछ पैरामीटर सक्रिय होते हैं, इसलिए कम-स्पेक हार्डवेयर पर भी उच्च-प्रदर्शन inference संभव है
  • LM Studio 0.4.0 नया Headless CLI (llmster) लाता है, जिससे डेस्कटॉप ऐप के बिना मॉडल डाउनलोड, लोड, चैट और API सर्वर चलाना संभव है
  • OpenAI·Anthropic-compatible API के जरिए Gemma 4 को लोकल सर्वर के रूप में उपलब्ध कराया जा सकता है, और Claude Code को पूरी तरह ऑफलाइन code assistant की तरह इस्तेमाल किया जा सकता है
  • context length, GPU offloading, parallel requests जैसी बारीक हार्डवेयर tuning के जरिए performance और memory efficiency को समायोजित किया जा सकता है
  • MoE model-आधारित लोकल inference API लागत के बिना तेज code review और prompt test संभव बनाता है, और डेवलपर्स के लिए offline AI environment बनाने की एक प्रमुख तकनीक बनकर उभर रहा है

लोकल में Google Gemma 4 चलाना — LM Studio के नए Headless CLI और Claude Code इंटीग्रेशन के साथ

  • लोकल रनिंग की जरूरत

    • cloud AI API में शुल्क, rate limit, privacy, network latency जैसी सीमाएं होती हैं
    • code review, draft writing, prompt testing जैसी तेज़ iteration वाली tasks के लिए लोकल मॉडल चलाना फायदेमंद है
    • लोकल रनिंग के फायदे हैं API लागत 0, डेटा बाहर ट्रांसफर नहीं होता, और हमेशा उपलब्ध रहना
    • Gemma 4** mixture-of-experts(MoE) संरचना का उपयोग करता है, जिसमें 26B मॉडल में से केवल 4B पैरामीटर सक्रिय होते हैं, इसलिए**कम-स्पेक हार्डवेयर पर भी उच्च-प्रदर्शन रनिंग संभव है

      • M4 Pro MacBook (48GB) पर 51 tokens प्रति सेकंड की generation speed दर्ज की गई, हालांकि Claude Code के भीतर यह कुछ धीमा हो जाता है
  • Gemma 4 मॉडल परिवार

    • Google ने Gemma 4 को 4 मॉडल परिवारों में जारी किया है, जो अलग-अलग हार्डवेयर के लिए optimized हैं
    • E series (E2B, E4B) Per-Layer Embeddings का उपयोग करती है और audio input (speech recognition·translation) को support करती है
    • 31B dense मॉडल MMLU Pro 85.2% और AIME 2026 89.2% प्रदर्शन देता है
    • 26B-A4B मॉडल 128 experts में से केवल 8 (3.8B parameters) को सक्रिय करता है, इसलिए 10B-स्तर की quality को 4B-स्तर की cost पर चलाता है
    • MMLU Pro 82.6%, AIME 88.3% के साथ यह 31B dense मॉडल के करीब है, और Elo 1441 के साथ 400B+ मॉडलों से प्रतिस्पर्धा करता है
    • 256K context, vision input, function calling, और reasoning mode settings के support के कारण यह लोकल inference के लिए उपयुक्त है
  • LM Studio 0.4.0 में प्रमुख बदलाव

    • llmster नाम का एक standalone inference engine जोड़ा गया है, जिससे डेस्कटॉप ऐप के बिना CLI से पूरी तरह चलाना संभव है

      • lms CLI के जरिए मॉडल डाउनलोड, लोड, चैट और सर्वर रन—सब कुछ किया जा सकता है
      • प्रमुख सुविधाएँ:
      • llmster daemon: बैकग्राउंड में मॉडल लोडिंग और inference का प्रबंधन
      • parallel request handling: continuous batching के जरिए कई requests को एक साथ संभालना
      • Stateful REST API: /v1/chat endpoint के जरिए conversation history बनाए रखना
      • MCP integration: लोकल Model Context Protocol support
  • इंस्टॉलेशन और मॉडल डाउनलोड

    • इंस्टॉल कमांड:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      
    • daemon चलाना: lms daemon up
    • runtime update: lms runtime update llama.cpp, lms runtime update mlx
    • Gemma 4 26B मॉडल डाउनलोड: lms get google/gemma-4-26b-a4b
    • डिफ़ॉल्ट quantization है Q4_K_M (17.99GB)
    • डाउनलोड के बाद lms load google/gemma-4-26b-a4b से लोड करें
  • लोकल मॉडल प्रबंधन

    • इंस्टॉल किए गए मॉडलों की सूची देखें: lms ls
    • उदाहरण output में Gemma 4, Qwen 3.5, GLM 4.7 Flash जैसे कई MoE मॉडल शामिल हैं
    • MoE मॉडल केवल कुछ सक्रिय पैरामीटर का उपयोग करके efficient inference संभव बनाते हैं
  • संवाद चलाना और प्रदर्शन

    • चैट शुरू करें: lms chat google/gemma-4-26b-a4b --stats
    • उदाहरण output:
      Tokens/Second: 51.35
      Time to First Token: 1.551s
      
    • 51 tok/sec और 1.5 सेकंड initial response के साथ इंटरैक्टिव उपयोग के लिए पर्याप्त गति मिलती है
  • मॉडल स्टेटस और मेमोरी जांच

    • लोड किए गए मॉडल देखें: lms ps
    • उदाहरण: 17.99GB memory उपयोग, 48K context, 2 parallel requests, TTL 1 घंटा
    • JSON output (lms ps --json | jq) में दिखने वाले प्रमुख फ़ील्ड:
      • "architecture": "gemma4"
      • "quantization": {"name": "Q4_K_M", "bits": 4}
      • "vision": true, "trainedForToolUse": true
      • "maxContextLength": 262144, "parallel": 2
  • context length के अनुसार memory estimate

    • --estimate-only विकल्प से memory requirement का अनुमान लगाया जा सकता है
    • बेस मॉडल लगभग 17.6GiB लेता है, और context हर 2x बढ़ने पर 3~4GiB बढ़ता है
    • 48K context पर लगभग 21GiB चाहिए, जबकि 256K पर 37.48GiB
    • उदाहरण कमांड:
      lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
      
    • context length और memory के linear relationship के कारण capacity planning में मदद मिलती है
  • हार्डवेयर के अनुसार लोड tuning

    • context length

      • OS उपयोग (4~6GB) को छोड़कर उपलब्ध memory सीमा के भीतर सेट करें
      • उदाहरण: lms load google/gemma-4-26b-a4b --context-length 128000
    • GPU offloading

      • Apple Silicon में unified memory architecture होती है, इसलिए --gpu=1.0 से पूरा GPU उपयोग किया जा सकता है
      • NVIDIA सिस्टम में VRAM सीमा के भीतर --gpu=0.5 जैसे विकल्पों से विभाजन किया जा सकता है
    • parallel requests

      • continuous batching के जरिए कई requests को एक साथ संभाला जा सकता है
      • GUI में Max Concurrent Predictions सेट करें (डिफ़ॉल्ट 4)
      • Gemma 4 के लिए 48GB सिस्टम पर 48K context और 2 parallel requests उपयुक्त हैं
    • TTL auto unload

      • --ttl 1800 से 30 मिनट inactivity पर auto unload
      • डिफ़ॉल्ट 1 घंटा है, और 0 या -1 से disable किया जा सकता है
    • मॉडल-विशिष्ट defaults सेव करना

      • डेस्कटॉप ऐप के My Models → settings icon में GPU, context और Flash Attention defaults सेव किए जा सकते हैं
    • speculative decoding

      • MoE मॉडलों में यह अप्रभावी होता है, इसलिए Gemma 4 में इसे disable करने की सलाह है
      • Mixtral टेस्ट में code tasks में 39% सुधार, लेकिन math tasks में 54% गिरावट देखी गई
    • Flash Attention

      • KV cache memory बचत के जरिए लंबा context support करता है
      • Apple Silicon पर enabled होने पर memory saving में मदद मिलती है
  • LM Studio डेस्कटॉप ऐप

    • GUI में server status, model loading, API endpoints, log stream को विज़ुअल रूप में देखा जा सकता है
    • Anthropic protocol (POST /v1/messages) भी शामिल है
    • vision capability के जरिए image analysis संभव है
    • उदाहरण: Timezone Scheduler image analysis में 504 tokens generate हुए, 54.51 tok/sec की गति से
    • system monitoring परिणाम:
      • memory उपयोग 46.69GB/48GB, swap 27.49GB
      • GPU 90% उपयोग, CPU 91°C, GPU 92°C
      • power 23.56W (CPU 11.06W, GPU 13.32W)
    • unified memory architecture के कारण CPU/GPU के बीच data copy की जरूरत नहीं होती
  • API सर्वर के रूप में मॉडल उपलब्ध कराना

    • सर्वर शुरू करें: lms server start
    • OpenAI-compatible API: http://localhost:1234/v1
    • Anthropic-compatible endpoint: POST /v1/messages
    • पोर्ट बदलें: --port 8080
    • JIT model loading के जरिए request पर auto load और TTL के बाद auto unload संभव है
    • real-time log stream: lms log stream --source model --stats
    • नेटवर्क के दूसरे डिवाइसों से भी access संभव है, और API token authentication support करता है
  • Claude Code के साथ इंटीग्रेशन

    • Anthropic-compatible endpoint के जरिए Claude Code को लोकल मॉडल के साथ चलाना संभव है
    • ~/.zshrc में claude-lm function जोड़ें:
      export ANTHROPIC_BASE_URL=http://localhost:1234
      export ANTHROPIC_MODEL="gemma-4-26b-a4b"
      ...
      claude "$@"
      
    • Claude Code के सभी मॉडल कॉल्स (Opus, Sonnet, Haiku) को Gemma 4 पर route किया जा सकता है
    • 48K context, 8K token output limit, और केवल लोकल environment के साथ सेटअप किया जा सकता है
    • claude-lm चलाने पर पूरी तरह offline code assistant का उपयोग संभव है
    • गति cloud की तुलना में धीमी है, लेकिन code review, छोटे बदलाव, exploratory work के लिए उपयुक्त है
  • प्रमुख सीख

    • MoE मॉडल लोकल inference की कुंजी हैं: Gemma 4 26B-A4B, 10B-स्तर की quality को 4B-स्तर की लागत पर देता है
    • Headless daemon के साथ पूरी CLI-आधारित workflow संभव है
    • context length memory usage का मुख्य variable है
    • --estimate-only से OOM से बचाव संभव है
    • Anthropic-compatible endpoint के जरिए Claude Code को लोकल में पूरी तरह offline चलाया जा सकता है
  • सीमाएँ

    • lms chat में मॉडल का नाम सीधे नहीं दिखता
    • डिफ़ॉल्ट 48K context conservative है; memory उपलब्ध हो तो इसे बढ़ाने की सलाह है
    • Claude Code का लोकल रन Anthropic API का पूर्ण विकल्प नहीं है; बड़े कार्यों में सीमाएँ हैं
    • 48GB सिस्टम में memory pressure और swap usage होता है; 64GB या अधिक की सलाह दी जाती है
  • अगले कदम

    • Qwen 3.5 35B, GLM 4.7 Flash, Nemotron 3 Nano आदि के साथ comparison testing की योजना है
    • रनिंग प्रक्रिया का सार:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      lms daemon up
      lms get google/gemma-4-26b-a4b
      lms chat google/gemma-4-26b-a4b --stats
      
    • Claude Code इंटीग्रेशन: claude-lm function जोड़ें और फिर claude-lm चलाएँ
    • लोकल AI workflow बनाने और web app व developer environment integration में इसका उपयोग किया जा सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.