• r/LocalLLaMA subreddit और Ollama ब्लॉग से लोकल LLM चलाना शुरू करने के लिए उपयोगी जानकारी मिल सकती है

हार्डवेयर कॉन्फ़िगरेशन

  • Linux-आधारित लैपटॉप का उपयोग, जिसमें Core i9 (32 threads) CPU, 4090 GPU (16GB VRAM), और 96GB RAM लगा है
  • जो मॉडल VRAM में फिट हो जाते हैं, वे तेज़ चलते हैं; बड़े मॉडल RAM में offload हो जाते हैं, जिससे गति धीमी हो सकती है
  • हाई-परफॉर्मेंस कंप्यूटर ज़रूरी नहीं है; छोटे मॉडल पुराने GPU या CPU पर भी चल सकते हैं

उपयोग किए जाने वाले टूल

  • Ollama: Llama.cpp चलाने के लिए middleware, जिसमें Python और JavaScript libraries शामिल हैं; Docker में उपयोग किया जाता है
  • Open WebUI: टेक्स्ट और इमेज इनपुट के लिए परिचित interface देता है
  • llamafile: एक single executable file के रूप में LLM चलाने की सुविधा
  • AUTOMATIC1111 और Fooocus: इमेज जनरेशन टूल; जटिल workflows के लिए ComfyUI का उपयोग
  • Continue: VSCode में code auto-completion को सपोर्ट करता है
  • Obsidian Smart Connections: Ollama का उपयोग करके notes को query करने की सुविधा देता है

मॉडल चयन

  • Ollama model page के ज़रिए नवीनतम LLM डाउनलोड करें
  • RSS से model updates ट्रैक करें
  • CivitAI से इमेज जनरेशन मॉडल डाउनलोड करें (सावधानी: कुछ मॉडल adult images बनाने के लिए optimized हैं)
  • मुख्य रूप से उपयोग किए जाने वाले मॉडल:
    • Llama3.2: सामान्य queries और Smart Connections के लिए
    • Deepseek-coder-v2: VSCode में code completion के लिए
    • Qwen2.5-coder: code-संबंधित बातचीत के लिए
    • Stable Diffusion: इमेज जनरेशन के लिए

अपडेट

  • Docker containers अपडेट करने के लिए WatchTower का उपयोग
  • Open Web UI के माध्यम से model updates

फाइन-ट्यूनिंग और क्वांटाइज़ेशन

  • फिलहाल फाइन-ट्यूनिंग या क्वांटाइज़ेशन नहीं किया जा रहा है (CPU defect की संभावना के कारण लंबे समय तक high-temperature workload से बचा जा रहा है)

निष्कर्ष

  • लोकल LLM चलाने से डेटा पर पूरा नियंत्रण और कम response latency मिलती है
  • open source projects और free models की वजह से यह संभव है
  • नए टूल या मॉडल उपयोग करने पर सामग्री को अपडेट किया जाएगा

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.