18 पॉइंट द्वारा GN⁺ 2025-05-02 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • MLX लाइब्रेरी का उपयोग करके Mac पर सीधे चलाएं, और शक्तिशाली नवीनतम Qwen3-30B-A3B-8bit मॉडल को लोकल में serve करें
  • Localforge में इसे OpenAI API तरीके से जोड़कर agent loop बनाएं
  • ollama-आधारित सहायक मॉडल (Gemma3) को अतिरिक्त रूप से कॉन्फ़िगर करके agent की सहायक भूमिका अलग की जा सकती है, जिससे tools का अधिक कुशल उपयोग संभव होता है
  • agent को Localforge के UI में सेट करने के बाद यह "LS टूल चलाना", वेबसाइट बनाना, और Snake गेम को अपने आप चलाना तक कर सकता है
  • यह पूरी प्रक्रिया मुफ्त है और लोकल पर पूरी तरह स्वायत्त रूप से चल सकती है, इसलिए Mac यूज़र्स के लिए यह खुद आज़माने लायक प्रोजेक्ट है

Mac पर Qwen3 को लोकल में चलाना

  • लक्ष्य: नवीनतम Qwen3 मॉडल को Mac पर चलाना और Localforge के साथ उसे agent बनाकर coding automation का प्रयोग करना
  • Qwen3, Ollama और HuggingFace MLX community पर वितरित किया गया है
  • चरण 1: MLX environment install करें

    pip install mlx  
    pip install mlx-lm  
    
  • चरण 2: model server चलाएं

    mlx_lm.server --model mlx-community/Qwen3-30B-A3B-8bit --trust-remote-code --port 8082  
    
    • model अपने आप डाउनलोड होने के बाद 8082 पोर्ट पर API server के रूप में चलेगा
    • अगर log में "Starting httpd..." संदेश दिखाई दे, तो इसका मतलब है कि यह सही तरह से चल रहा है

Localforge सेटअप

  • आधिकारिक साइट: https://localforge.dev
  • install के बाद settings में नीचे दिया गया configuration चाहिए:
  • provider जोड़ें

    • a) Ollama provider (सहायक मॉडल)
      • नाम: LocalOllama
      • type: ollama
      • install आवश्यक: gemma3:latest मॉडल (सरल language processing के लिए उपयुक्त)
    • b) Qwen3 provider (मुख्य मॉडल)

  • agent बनाएं

    • नाम: qwen3-agent
    • main model: qwen3:mlx:30b (model name: mlx-community/Qwen3-30B-A3B-8bit)
    • सहायक मॉडल: LocalOllama (model name: gemma3:latest)

निष्कर्ष

  • Mac पर मुफ्त में बड़े मॉडल को लोकल में चलाकर agent-आधारित automatic coding संभव है
  • model selection या system prompt tuning के ज़रिए और अधिक सटीक परिणाम भी हासिल किए जा सकते हैं
  • Localforge + MLX + Qwen3 का संयोजन व्यक्तिगत LLM प्रयोगों के लिए बेहद उपयोगी है

3 टिप्पणियां

 
ragingwind 2025-05-02

अगर 30b लोकल पर चलता है तो यह काफी शानदार है, है न? Qwen2.5-Coder मुझे खास नहीं लगा था, लेकिन इसे आज़माना बनता है।

 
GN⁺ 2025-05-02
Hacker News राय
  • Qwen3-30B-A3B मॉडल को लोकल में इस्तेमाल कर रहा/रही हूँ और यह बहुत प्रभावशाली है। जो लोग GPT-4 का इंतज़ार कर रहे थे, उनके लिए यह एक विकल्प हो सकता है। M3 Max पर 70 tok/s मिल रहे हैं, इसलिए इस्तेमाल करना बहुत सुविधाजनक है

    • खास तौर पर यह बात प्रभावशाली है कि 0.6B मॉडल, 1B से छोटे मॉडलों में भी गैर-ज़रूरी कामों के लिए उपयोगी हो सकता है
    • कुल मिलाकर यह बहुत प्रभावशाली है, और अभी इसे मौजूदा सेटअप के साथ इंटीग्रेट करने के तरीके का मूल्यांकन कर रहा/रही हूँ
  • qwen3 चलाकर ls tool call करना "vibe coding" नहीं है। यह LocalForge के विज्ञापन जैसा लगता है

    • वास्तव में स्वायत्त काम, जैसे कई फाइलें पढ़ना, डायरेक्टरी में घूमना, और यह समझना कि कहाँ बदलाव करने हैं, उसमें यह शायद अच्छी तरह काम नहीं करेगा
  • MLX और MLX-LM की तारीफ़ करना चाहता/चाहती हूँ। Gemma 3 मॉडल को लोकल में fine-tune करने के लिए इसका इस्तेमाल कर रहा/रही हूँ, और Apple डेवलपर्स द्वारा बनाए गए libraries और tools अच्छी तरह व्यवस्थित हैं

  • संयोग से Qwen3 को एक सरल prompt से loop में फँसा दिया

    • "mqtt topic routing के लिए trie का उपयोग करने वाला Python decorator बनाओ" यह prompt इस्तेमाल किया
    • phi4-reasoning काम करता है, लेकिन कोड में bug लगता है
    • phi4-mini-reasoning भ्रमित हो जाता है
    • qwen3:30b loop में फँस जाता है और decorator को भूल जाता है
    • mistral-small तुरंत मुद्दे को समझ लेता है और कोड सही दिखता है
    • Copilot मॉडल का नियमित रूप से इस्तेमाल कर रहा/रही हूँ, और Claude 3.7 व Gemini tests के साथ उपयोग करने योग्य कोड आउटपुट करते हैं। लेकिन लोकल मॉडल अभी उस स्तर तक नहीं पहुँचे लगते
  • क्या किसी को MCP के साथ ऐसा सेटअप पता है जहाँ लोकल LLM मिलकर काम कर सकें, context को compress कर सकें, या cloud agents के साथ सहयोग कर सकें?

    • नया M3 box सिर्फ UI render करे और cloud LLM codebase को refactor करे, यह मूर्खतापूर्ण लगता है। ऐसा लगता है कि ये एक-दूसरे के साथ काम समन्वित कर सकते हैं
  • लोकल में असली autonomous agents चलाकर सरल काम करवाने पर एक तेज़ tutorial साझा करना चाहता/चाहती हूँ

    • सही MLX सेटअप या उपयुक्त मॉडल version खोज रहा/रही हूँ, लेकिन इस approach का framework मज़बूत है
  • LocalForge मिलने की खुशी है। LocalForge के बारे में एक सवाल है। क्या दो agents को जोड़कर image को multimodal agent को देकर html/css बनवाया जा सकता है, और दूसरा agent बाकी कोड लिख सकता है?

    • पोस्ट में Gemma3 (multimodal) और Qwen3 (non-multimodal) का ज़िक्र है। क्या इन्हें ऊपर बताए अनुसार इस्तेमाल किया जा सकता है?
    • जिज्ञासा है कि LocalForge को कैसे पता चलता है कि prompt किस agent को route करना है
  • बहुत प्रभावशाली है। इसे paid token model जितना अच्छा होने की ज़रूरत नहीं है

    • उदाहरण के लिए, पिछले महीने vibe coding पर कम से कम $300 खर्च किए। वजह यह थी कि मैं प्रतिस्पर्धी tools को जानना चाहता/चाहती था/थी, और side project का implementation पूरा करने के बाद उसे दूसरी programming language में फिर से लिखना चाहता/चाहती था/थी
    • अगर यहाँ थोड़ा भी आराम मिल जाए, तो refurbished Nvidia laptop एक साल के भीतर अपनी लागत निकाल सकता है। यह निराशाजनक है कि Ollama अभी पूरे flow को संभाल नहीं पाता। शायद यह एक single command से संभव हो सकता है
  • अच्छा लग रहा है। Google के Gemma 3 27B के साथ काम करने वाला local-first AI-assisted IDE ढूँढ रहा/रही था/थी

    • मेरा मानना है कि LocalForge को यह खुलासा करना चाहिए कि यह उन्हीं का प्रोजेक्ट है
  • लोकल में मॉडल चलाना अब दिलचस्प होता जा रहा है। खासकर 30B-A3B version एक आशाजनक दिशा जैसा दिखता है। 16 GB VRAM में यह अभी भी पहुँच से बाहर है, लेकिन काफ़ी करीब है

    • 24/32 GB VRAM वाले नए Nvidia RTX cards का इंतज़ार है। लगता है कि कुछ सालों में यह GPT-4 स्तर तक पहुँच सकता है। यह कई तरह के कामों में उपयोगी होगा