लोकल में LLM चलाना

(abishekmuthian.com)

27 पॉइंट द्वारा GN⁺ 2024-12-30 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

r/LocalLLaMA subreddit और Ollama ब्लॉग से लोकल LLM चलाना शुरू करने के लिए उपयोगी जानकारी मिल सकती है

हार्डवेयर कॉन्फ़िगरेशन

Linux-आधारित लैपटॉप का उपयोग, जिसमें Core i9 (32 threads) CPU, 4090 GPU (16GB VRAM), और 96GB RAM लगा है
जो मॉडल VRAM में फिट हो जाते हैं, वे तेज़ चलते हैं; बड़े मॉडल RAM में offload हो जाते हैं, जिससे गति धीमी हो सकती है
हाई-परफॉर्मेंस कंप्यूटर ज़रूरी नहीं है; छोटे मॉडल पुराने GPU या CPU पर भी चल सकते हैं

Ollama: Llama.cpp चलाने के लिए middleware, जिसमें Python और JavaScript libraries शामिल हैं; Docker में उपयोग किया जाता है
Open WebUI: टेक्स्ट और इमेज इनपुट के लिए परिचित interface देता है
llamafile: एक single executable file के रूप में LLM चलाने की सुविधा
AUTOMATIC1111 और Fooocus: इमेज जनरेशन टूल; जटिल workflows के लिए ComfyUI का उपयोग
Continue: VSCode में code auto-completion को सपोर्ट करता है
Obsidian Smart Connections: Ollama का उपयोग करके notes को query करने की सुविधा देता है

Ollama model page के ज़रिए नवीनतम LLM डाउनलोड करें
RSS से model updates ट्रैक करें
CivitAI से इमेज जनरेशन मॉडल डाउनलोड करें (सावधानी: कुछ मॉडल adult images बनाने के लिए optimized हैं)
मुख्य रूप से उपयोग किए जाने वाले मॉडल:
- Llama3.2: सामान्य queries और Smart Connections के लिए
- Deepseek-coder-v2: VSCode में code completion के लिए
- Qwen2.5-coder: code-संबंधित बातचीत के लिए
- Stable Diffusion: इमेज जनरेशन के लिए

फिलहाल फाइन-ट्यूनिंग या क्वांटाइज़ेशन नहीं किया जा रहा है (CPU defect की संभावना के कारण लंबे समय तक high-temperature workload से बचा जा रहा है)