लोकल में LLM चलाना
(abishekmuthian.com)- r/LocalLLaMA subreddit और Ollama ब्लॉग से लोकल LLM चलाना शुरू करने के लिए उपयोगी जानकारी मिल सकती है
हार्डवेयर कॉन्फ़िगरेशन
- Linux-आधारित लैपटॉप का उपयोग, जिसमें Core i9 (32 threads) CPU, 4090 GPU (16GB VRAM), और 96GB RAM लगा है
- जो मॉडल VRAM में फिट हो जाते हैं, वे तेज़ चलते हैं; बड़े मॉडल RAM में offload हो जाते हैं, जिससे गति धीमी हो सकती है
- हाई-परफॉर्मेंस कंप्यूटर ज़रूरी नहीं है; छोटे मॉडल पुराने GPU या CPU पर भी चल सकते हैं
उपयोग किए जाने वाले टूल
- Ollama: Llama.cpp चलाने के लिए middleware, जिसमें Python और JavaScript libraries शामिल हैं; Docker में उपयोग किया जाता है
- Open WebUI: टेक्स्ट और इमेज इनपुट के लिए परिचित interface देता है
- llamafile: एक single executable file के रूप में LLM चलाने की सुविधा
- AUTOMATIC1111 और Fooocus: इमेज जनरेशन टूल; जटिल workflows के लिए ComfyUI का उपयोग
- Continue: VSCode में code auto-completion को सपोर्ट करता है
- Obsidian Smart Connections: Ollama का उपयोग करके notes को query करने की सुविधा देता है
मॉडल चयन
- Ollama model page के ज़रिए नवीनतम LLM डाउनलोड करें
- RSS से model updates ट्रैक करें
- CivitAI से इमेज जनरेशन मॉडल डाउनलोड करें (सावधानी: कुछ मॉडल adult images बनाने के लिए optimized हैं)
- मुख्य रूप से उपयोग किए जाने वाले मॉडल:
- Llama3.2: सामान्य queries और Smart Connections के लिए
- Deepseek-coder-v2: VSCode में code completion के लिए
- Qwen2.5-coder: code-संबंधित बातचीत के लिए
- Stable Diffusion: इमेज जनरेशन के लिए
अपडेट
- Docker containers अपडेट करने के लिए WatchTower का उपयोग
- Open Web UI के माध्यम से model updates
फाइन-ट्यूनिंग और क्वांटाइज़ेशन
- फिलहाल फाइन-ट्यूनिंग या क्वांटाइज़ेशन नहीं किया जा रहा है (CPU defect की संभावना के कारण लंबे समय तक high-temperature workload से बचा जा रहा है)
निष्कर्ष
- लोकल LLM चलाने से डेटा पर पूरा नियंत्रण और कम response latency मिलती है
- open source projects और free models की वजह से यह संभव है
- नए टूल या मॉडल उपयोग करने पर सामग्री को अपडेट किया जाएगा
अभी कोई टिप्पणी नहीं है.