17 पॉइंट द्वारा GN⁺ 2026-04-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemma 4 mixture-of-experts संरचना का उपयोग करता है, जिसमें केवल कुछ पैरामीटर सक्रिय होते हैं, इसलिए कम-स्पेक हार्डवेयर पर भी उच्च-प्रदर्शन inference संभव है
  • LM Studio 0.4.0 नया Headless CLI (llmster) लाता है, जिससे डेस्कटॉप ऐप के बिना मॉडल डाउनलोड, लोड, चैट और API सर्वर चलाना संभव है
  • OpenAI·Anthropic-compatible API के जरिए Gemma 4 को लोकल सर्वर के रूप में उपलब्ध कराया जा सकता है, और Claude Code को पूरी तरह ऑफलाइन code assistant की तरह इस्तेमाल किया जा सकता है
  • context length, GPU offloading, parallel requests जैसी बारीक हार्डवेयर tuning के जरिए performance और memory efficiency को समायोजित किया जा सकता है
  • MoE model-आधारित लोकल inference API लागत के बिना तेज code review और prompt test संभव बनाता है, और डेवलपर्स के लिए offline AI environment बनाने की एक प्रमुख तकनीक बनकर उभर रहा है

लोकल में Google Gemma 4 चलाना — LM Studio के नए Headless CLI और Claude Code इंटीग्रेशन के साथ

  • लोकल रनिंग की जरूरत

    • cloud AI API में शुल्क, rate limit, privacy, network latency जैसी सीमाएं होती हैं
    • code review, draft writing, prompt testing जैसी तेज़ iteration वाली tasks के लिए लोकल मॉडल चलाना फायदेमंद है
    • लोकल रनिंग के फायदे हैं API लागत 0, डेटा बाहर ट्रांसफर नहीं होता, और हमेशा उपलब्ध रहना
    • Gemma 4** mixture-of-experts(MoE) संरचना का उपयोग करता है, जिसमें 26B मॉडल में से केवल 4B पैरामीटर सक्रिय होते हैं, इसलिए**कम-स्पेक हार्डवेयर पर भी उच्च-प्रदर्शन रनिंग संभव है

      • M4 Pro MacBook (48GB) पर 51 tokens प्रति सेकंड की generation speed दर्ज की गई, हालांकि Claude Code के भीतर यह कुछ धीमा हो जाता है
  • Gemma 4 मॉडल परिवार

    • Google ने Gemma 4 को 4 मॉडल परिवारों में जारी किया है, जो अलग-अलग हार्डवेयर के लिए optimized हैं
    • E series (E2B, E4B) Per-Layer Embeddings का उपयोग करती है और audio input (speech recognition·translation) को support करती है
    • 31B dense मॉडल MMLU Pro 85.2% और AIME 2026 89.2% प्रदर्शन देता है
    • 26B-A4B मॉडल 128 experts में से केवल 8 (3.8B parameters) को सक्रिय करता है, इसलिए 10B-स्तर की quality को 4B-स्तर की cost पर चलाता है
    • MMLU Pro 82.6%, AIME 88.3% के साथ यह 31B dense मॉडल के करीब है, और Elo 1441 के साथ 400B+ मॉडलों से प्रतिस्पर्धा करता है
    • 256K context, vision input, function calling, और reasoning mode settings के support के कारण यह लोकल inference के लिए उपयुक्त है
  • LM Studio 0.4.0 में प्रमुख बदलाव

    • llmster नाम का एक standalone inference engine जोड़ा गया है, जिससे डेस्कटॉप ऐप के बिना CLI से पूरी तरह चलाना संभव है

      • lms CLI के जरिए मॉडल डाउनलोड, लोड, चैट और सर्वर रन—सब कुछ किया जा सकता है
      • प्रमुख सुविधाएँ:
      • llmster daemon: बैकग्राउंड में मॉडल लोडिंग और inference का प्रबंधन
      • parallel request handling: continuous batching के जरिए कई requests को एक साथ संभालना
      • Stateful REST API: /v1/chat endpoint के जरिए conversation history बनाए रखना
      • MCP integration: लोकल Model Context Protocol support
  • इंस्टॉलेशन और मॉडल डाउनलोड

    • इंस्टॉल कमांड:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      
    • daemon चलाना: lms daemon up
    • runtime update: lms runtime update llama.cpp, lms runtime update mlx
    • Gemma 4 26B मॉडल डाउनलोड: lms get google/gemma-4-26b-a4b
    • डिफ़ॉल्ट quantization है Q4_K_M (17.99GB)
    • डाउनलोड के बाद lms load google/gemma-4-26b-a4b से लोड करें
  • लोकल मॉडल प्रबंधन

    • इंस्टॉल किए गए मॉडलों की सूची देखें: lms ls
    • उदाहरण output में Gemma 4, Qwen 3.5, GLM 4.7 Flash जैसे कई MoE मॉडल शामिल हैं
    • MoE मॉडल केवल कुछ सक्रिय पैरामीटर का उपयोग करके efficient inference संभव बनाते हैं
  • संवाद चलाना और प्रदर्शन

    • चैट शुरू करें: lms chat google/gemma-4-26b-a4b --stats
    • उदाहरण output:
      Tokens/Second: 51.35
      Time to First Token: 1.551s
      
    • 51 tok/sec और 1.5 सेकंड initial response के साथ इंटरैक्टिव उपयोग के लिए पर्याप्त गति मिलती है
  • मॉडल स्टेटस और मेमोरी जांच

    • लोड किए गए मॉडल देखें: lms ps
    • उदाहरण: 17.99GB memory उपयोग, 48K context, 2 parallel requests, TTL 1 घंटा
    • JSON output (lms ps --json | jq) में दिखने वाले प्रमुख फ़ील्ड:
      • "architecture": "gemma4"
      • "quantization": {"name": "Q4_K_M", "bits": 4}
      • "vision": true, "trainedForToolUse": true
      • "maxContextLength": 262144, "parallel": 2
  • context length के अनुसार memory estimate

    • --estimate-only विकल्प से memory requirement का अनुमान लगाया जा सकता है
    • बेस मॉडल लगभग 17.6GiB लेता है, और context हर 2x बढ़ने पर 3~4GiB बढ़ता है
    • 48K context पर लगभग 21GiB चाहिए, जबकि 256K पर 37.48GiB
    • उदाहरण कमांड:
      lms load google/gemma-4-26b-a4b --estimate-only --context-length 48000
      
    • context length और memory के linear relationship के कारण capacity planning में मदद मिलती है
  • हार्डवेयर के अनुसार लोड tuning

    • context length

      • OS उपयोग (4~6GB) को छोड़कर उपलब्ध memory सीमा के भीतर सेट करें
      • उदाहरण: lms load google/gemma-4-26b-a4b --context-length 128000
    • GPU offloading

      • Apple Silicon में unified memory architecture होती है, इसलिए --gpu=1.0 से पूरा GPU उपयोग किया जा सकता है
      • NVIDIA सिस्टम में VRAM सीमा के भीतर --gpu=0.5 जैसे विकल्पों से विभाजन किया जा सकता है
    • parallel requests

      • continuous batching के जरिए कई requests को एक साथ संभाला जा सकता है
      • GUI में Max Concurrent Predictions सेट करें (डिफ़ॉल्ट 4)
      • Gemma 4 के लिए 48GB सिस्टम पर 48K context और 2 parallel requests उपयुक्त हैं
    • TTL auto unload

      • --ttl 1800 से 30 मिनट inactivity पर auto unload
      • डिफ़ॉल्ट 1 घंटा है, और 0 या -1 से disable किया जा सकता है
    • मॉडल-विशिष्ट defaults सेव करना

      • डेस्कटॉप ऐप के My Models → settings icon में GPU, context और Flash Attention defaults सेव किए जा सकते हैं
    • speculative decoding

      • MoE मॉडलों में यह अप्रभावी होता है, इसलिए Gemma 4 में इसे disable करने की सलाह है
      • Mixtral टेस्ट में code tasks में 39% सुधार, लेकिन math tasks में 54% गिरावट देखी गई
    • Flash Attention

      • KV cache memory बचत के जरिए लंबा context support करता है
      • Apple Silicon पर enabled होने पर memory saving में मदद मिलती है
  • LM Studio डेस्कटॉप ऐप

    • GUI में server status, model loading, API endpoints, log stream को विज़ुअल रूप में देखा जा सकता है
    • Anthropic protocol (POST /v1/messages) भी शामिल है
    • vision capability के जरिए image analysis संभव है
    • उदाहरण: Timezone Scheduler image analysis में 504 tokens generate हुए, 54.51 tok/sec की गति से
    • system monitoring परिणाम:
      • memory उपयोग 46.69GB/48GB, swap 27.49GB
      • GPU 90% उपयोग, CPU 91°C, GPU 92°C
      • power 23.56W (CPU 11.06W, GPU 13.32W)
    • unified memory architecture के कारण CPU/GPU के बीच data copy की जरूरत नहीं होती
  • API सर्वर के रूप में मॉडल उपलब्ध कराना

    • सर्वर शुरू करें: lms server start
    • OpenAI-compatible API: http://localhost:1234/v1
    • Anthropic-compatible endpoint: POST /v1/messages
    • पोर्ट बदलें: --port 8080
    • JIT model loading के जरिए request पर auto load और TTL के बाद auto unload संभव है
    • real-time log stream: lms log stream --source model --stats
    • नेटवर्क के दूसरे डिवाइसों से भी access संभव है, और API token authentication support करता है
  • Claude Code के साथ इंटीग्रेशन

    • Anthropic-compatible endpoint के जरिए Claude Code को लोकल मॉडल के साथ चलाना संभव है
    • ~/.zshrc में claude-lm function जोड़ें:
      export ANTHROPIC_BASE_URL=http://localhost:1234
      export ANTHROPIC_MODEL="gemma-4-26b-a4b"
      ...
      claude "$@"
      
    • Claude Code के सभी मॉडल कॉल्स (Opus, Sonnet, Haiku) को Gemma 4 पर route किया जा सकता है
    • 48K context, 8K token output limit, और केवल लोकल environment के साथ सेटअप किया जा सकता है
    • claude-lm चलाने पर पूरी तरह offline code assistant का उपयोग संभव है
    • गति cloud की तुलना में धीमी है, लेकिन code review, छोटे बदलाव, exploratory work के लिए उपयुक्त है
  • प्रमुख सीख

    • MoE मॉडल लोकल inference की कुंजी हैं: Gemma 4 26B-A4B, 10B-स्तर की quality को 4B-स्तर की लागत पर देता है
    • Headless daemon के साथ पूरी CLI-आधारित workflow संभव है
    • context length memory usage का मुख्य variable है
    • --estimate-only से OOM से बचाव संभव है
    • Anthropic-compatible endpoint के जरिए Claude Code को लोकल में पूरी तरह offline चलाया जा सकता है
  • सीमाएँ

    • lms chat में मॉडल का नाम सीधे नहीं दिखता
    • डिफ़ॉल्ट 48K context conservative है; memory उपलब्ध हो तो इसे बढ़ाने की सलाह है
    • Claude Code का लोकल रन Anthropic API का पूर्ण विकल्प नहीं है; बड़े कार्यों में सीमाएँ हैं
    • 48GB सिस्टम में memory pressure और swap usage होता है; 64GB या अधिक की सलाह दी जाती है
  • अगले कदम

    • Qwen 3.5 35B, GLM 4.7 Flash, Nemotron 3 Nano आदि के साथ comparison testing की योजना है
    • रनिंग प्रक्रिया का सार:
      curl -fsSL https://lmstudio.ai/install.sh | bash
      lms daemon up
      lms get google/gemma-4-26b-a4b
      lms chat google/gemma-4-26b-a4b --stats
      
    • Claude Code इंटीग्रेशन: claude-lm function जोड़ें और फिर claude-lm चलाएँ
    • लोकल AI workflow बनाने और web app व developer environment integration में इसका उपयोग किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2026-04-07
Hacker News टिप्पणियाँ
  • लोकल LLM चलाने के लिए सीधे llama.cpp server का उपयोग किया जा सकता है और उसे Claude Code या दूसरे CLI एजेंट्स में इस्तेमाल किया जा सकता है
    M1 Max 64GB MacBook पर Gemma4 जैसे नए open-weight LLMs को टेस्ट करने के लिए पूरा सेटअप गाइड साझा किया गया
    26BA4B मॉडल इस हार्डवेयर पर सबसे दिलचस्प लगा, और इसने Qwen3.5 35BA3B की तुलना में लगभग दोगुनी token generation speed (40 tok/s) दिखाई
    लेकिन tau2 benchmark का परिणाम Qwen variants से कम था (68% vs 81%), इसलिए माना गया कि यह tool-centric जटिल कामों के लिए उपयुक्त नहीं होगा

    • जिज्ञासा है कि Claude Code में Anthropic और OpenAI के बीच spec conflict की समस्या नहीं आई क्या
      मैं mlx_vlm और vMLX इस्तेमाल कर रहा हूँ, लेकिन Claude Code में 400 Bad Request error मिलती है
      पूछना चाहता हूँ कि llama-server में ऐसी समस्या नहीं थी क्या
  • लगता है कि लोकल मॉडल अब सिर्फ “चल सकता है” वाले स्तर से आगे बढ़कर आराम से उपयोग करने लायक चरण में पहुँच गए हैं
    खास तौर पर headless LM Studio वाला flow प्रभावशाली लगा। यह असली टूल्स में लोकल inference इस्तेमाल करने देता है
    मैं cloclo नाम का एक open source CLI coding agent बना रहा हूँ, जो LM Studio, Ollama, vLLM, Jan, llama.cpp जैसे कई backends को support करता है
    लोकल मॉडल निजी और कम-खर्च वाले रोज़मर्रा के उपयोग के लिए, और cloud models हाई-परफॉर्मेंस कामों के लिए—यह संयोजन अब लगभग आदर्श लगता है

    • जानना चाहता हूँ कि cloclo, pi-mono से किस तरह अलग है
  • इस चर्चा का मुख्य बिंदु Gemma 4 से ज्यादा यह है कि harness और मॉडल अब पूरी तरह अलग हो गए हैं
    Claude Code, OpenCode, Pi, Codex—सब किसी भी backend के साथ काम कर सकते हैं
    यानी coding agents धीरे-धीरे generalized layer बनते जा रहे हैं, और प्रतिस्पर्धा का केंद्र मॉडल की quality और cost की तरफ जा रहा है
    यह यूज़र्स के लिए अच्छी बात है, और harness पर निर्भर कंपनियों के लिए खतरा

    • मुझे तो इसका उल्टा लगता है। मॉडल commoditized हो रहे हैं, और harness व tooling ही असली performance improvement का केंद्र बन रहे हैं
      उदाहरण के लिए “Improving 15 LLMs at Coding in One Afternoon” पोस्ट में भी कहा गया कि सिर्फ harness बदलने से बड़ा सुधार मिला
    • सच कहें तो Claude Code या OpenCode को सीधे लोकल HTTP endpoint से जोड़ना पहले से संभव था
  • ollama launch claude --model gemma4:26b कमांड से इसे आसानी से चलाया जा सकता है

    • अगर context window का आकार नहीं बढ़ाया जाए, तो tool-calling फीचर काम नहीं करता
    • यह देखकर हैरानी हुई कि सिर्फ ollama और claude इंस्टॉल हों तो चीज़ें इतनी आसानी से चल जाती हैं
    • लेकिन मेरे मामले में यह काम नहीं किया। claude infinite loop में चला गया और कोई response नहीं आया
      Nemotron, glm, qwen 3.5 ठीक चले, लेकिन समस्या सिर्फ gemma में थी
  • लगता है यह तरीका web software test automation में भी उपयोगी हो सकता है
    Selenium या Puppeteer में वेब डिज़ाइन थोड़ा बदलते ही टेस्ट टूट जाते हैं
    जबकि ऐसे मॉडल बदलावों के अनुसार ढल सकते हैं, इसलिए ज्यादा flexible testing संभव लगती है
    खासकर छोटे मॉडल्स से भी यह पर्याप्त रूप से किया जा सकता है

  • MoE वास्तव में (V)RAM नहीं बचाता
    सभी weights memory में मौजूद रहने चाहिए, बस एक inference में उनमें से कुछ ही इस्तेमाल होते हैं
    इसलिए tok/s बेहतर हो सकता है, लेकिन VRAM usage वही रहता है

    • मैं भी शुरुआत में भ्रमित था। inactive experts computation skip करते हैं, लेकिन फिर भी memory में loaded रहते हैं
      यह visualization समझने में मददगार था
    • कुछ inference engines में कुछ experts को CPU RAM पर offload किया जा सकता है
      उदाहरण के लिए 35B parameter MoE को 12GB VRAM GPU + 16GB RAM के साथ चलाया जा सकता है
    • सभी weights को एक साथ memory में रखना हमेशा ज़रूरी नहीं है
      RAM, disk, network आदि से ज़रूरत के हिसाब से हिस्से swap-load किए जा सकते हैं
      MoE अगली inference step में बदले जाने वाले data की मात्रा कम कर देता है
  • मैं Claude Code को data pipeline की दोहरावदार प्रक्रियाओं के मुख्य interface के रूप में इस्तेमाल कर रहा हूँ
    खासकर government regulatory filings (XBRL) को standardize करके REST और MCP के जरिए expose करने के काम में
    MCP दिलचस्प हिस्सा है, क्योंकि इसमें client को सीधे call करने के बजाय tools को declarative तरीके से define किया जाता है, और मॉडल तय करता है कि उन्हें कब call करना है
    उदाहरण के लिए “इस कंपनी के 10 साल के leverage trend की industry average से तुलना करो” जैसी query अपने-आप सही tool-calling sequence में टूट जाती है
    लेकिन MCP के conversational use में latency कहीं ज्यादा संवेदनशील होती है
    2-second response scripts में ठीक है, लेकिन बातचीत के flow को तोड़ देती है
    इसलिए मैंने अक्सर इस्तेमाल होने वाली tables को memory में cache किया और 100ms से कम response हासिल किया
    जानना चाहता हूँ कि क्या दूसरों ने भी ऐसा latency threshold महसूस किया है

    • मैं भी MCP को उपयोगी मानता हूँ, लेकिन इसमें token usage काफी बढ़ सकता है
      साधारण implementation में वही functionality पाने के लिए भी कई दसियों हज़ार अतिरिक्त tokens खर्च हो जाते हैं
      Anthropic का यह explainer है, लेकिन सामग्री थोड़ी पुरानी है
    • मेरे अनुभव में हर tool call के लिए 300~500ms स्वाभाविक ऊपरी सीमा है
      उससे ऊपर multi-step chain धीमी लगने लगती है, और मॉडल अनावश्यक reasoning जोड़कर context को फुला देता है
      caching के अलावा, कई data points को एक साथ लौटाकर round trips कम करने की रणनीति भी प्रभावी रही
  • macOS पर Gemma 4 26B को Claude Code के लिए लोकल inference के रूप में सेट करने का तरीका साझा किया गया

    • मुझे लगा यह बहुत बढ़िया सारांश है
  • आगे चलकर संभव है कि बड़े AI labs लोकल LLMs को साथ में चलाएँ, ताकि cloud load कम हो और भारी computation ही cloud में जाए

    • लेकिन सवाल यह है कि क्या यह उनके business model से टकराएगा नहीं
  • जानना चाहता हूँ कि Gemma 4 मॉडल agentic coding tasks में वास्तव में कितना अच्छा काम करता है, और इसका व्यावहारिक प्रभाव कैसा है