- यह एक वेब-आधारित टूल है, जिससे पता किया जा सकता है कि लोकल मशीन वास्तव में कौन-से AI मॉडल चला सकती है
- यह ब्राउज़र के WebGPU API का उपयोग करके हार्डवेयर प्रदर्शन का अनुमान लगाता है, इसलिए परिणाम वास्तविक स्पेक्स से अलग हो सकते हैं
- यह हर मॉडल के लिए memory requirement, token processing speed, context length, run grade (S~F) आदि दिखाता है
- इसमें Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS जैसे प्रमुख open source और commercial मॉडल शामिल हैं
- यह जल्दी से आकलन करने में मदद करता है कि लोकल AI चल पाएगा या नहीं, इसलिए डेवलपर्स और शोधकर्ताओं के लिए उपयोगी संदर्भ संकेतक के रूप में काम आ सकता है
सेवा का अवलोकन
- CanIRun.ai एक वेबसाइट है जहाँ लोकल वातावरण में चल सकने वाले AI मॉडल खोजे जा सकते हैं
- उपयोगकर्ता अपने ब्राउज़र में साइट खोलकर, सिस्टम प्रदर्शन के आधार पर चल सकने वाले मॉडलों की सूची देख सकते हैं
- परिणाम WebGPU API के जरिए अनुमानित होते हैं, इसलिए वास्तविक हार्डवेयर प्रदर्शन से अंतर हो सकता है
- हर मॉडल को performance grade (S~F) के आधार पर वर्गीकृत किया गया है, जिससे उसकी run capability और efficiency को सहज रूप से समझा जा सकता है
मॉडल ग्रेड प्रणाली
- ग्रेड को S, A, B, C, D, F में बाँटा गया है, जहाँ S सबसे स्मूथ रनिंग को दर्शाता है
- उदाहरण: NVIDIA GeForce RTX 4070 12GB के आधार पर
- Qwen 3.5 9B, Llama 3.1 8B जैसे मॉडल S(90/100) के रूप में दिखते हैं, यानी वे स्मूथ तरीके से चल सकते हैं
- Phi-4 14B को A(70/100) यानी 'अच्छी तरह चलता है' के रूप में दिखाया गया है
- GPT-OSS 20B, Mistral Small 3.1 24B जैसे मॉडल D(34~39/100) यानी 'लगभग चल नहीं सकता' के स्तर पर हैं
- इसके अलावा Gemma 3 27B, Qwen 3 32B जैसे 27B से बड़े अधिकांश मॉडल F(0/100) यानी 'बहुत भारी' के रूप में दिखाए गए हैं
डेटा स्रोत और तकनीकी आधार
- मॉडल डेटा llama.cpp, Ollama, LM Studio से एकत्र किया गया है
- हर मॉडल पेज पर memory usage, context length, token speed, architecture type (Dense/MoE) आदि विस्तार से दिखाए जाते हैं
उपयोगिता
- लोकल वातावरण में AI मॉडल सीधे चलाने की कोशिश कर रहे डेवलपर्स, शोधकर्ताओं और open source उपयोगकर्ताओं के लिए यह व्यावहारिक संदर्भ सामग्री देता है
- GPU प्रदर्शन के मुकाबले मॉडल आकार और efficiency की तुलना करके, उपयुक्त मॉडल चयन और deployment strategy बनाने में मदद मिलती है
- यह ब्राउज़र-आधारित है, इसलिए बिना इंस्टॉल किए तुरंत टेस्ट किया जा सकता है — यही इसकी खासियत है
1 टिप्पणियां
Hacker News की राय
पिछले 2 सालों में local models के साथ प्रयोग करने में बहुत समय लगाया
छोटे मॉडल, जैसे qwen3.5:9b, local tools के उपयोग, information extraction, और embedded applications के लिए बहुत उपयुक्त रहे
coding के लिए Google Antigravity, gemini-cli, या Anthropic Claude जैसे cloud-based tools ज़्यादा प्रभावी रहे
Emacs और Claude Code को local में सेट करके 100 घंटे से ज़्यादा प्रयोग किया, लेकिन सामान्य उपयोगकर्ताओं को इसकी सिफारिश नहीं करूँगा
इसके बजाय, छोटे और व्यावहारिक local embedded models को अच्छी तरह इस्तेमाल करना सबसे सही संतुलन लगता है
यह मॉडल छोटा है, लेकिन multimodal reasoning क्षमता बेहतरीन है, और इसकी internal chain-of-thought (CoT) स्थिर है
खास तौर पर VRAM और context size के बीच इसका नया trade-off प्रभावशाली है — 100K tokens को 1.5GB VRAM में संभाल सकता है, इसलिए RTX 3060 पर भी लंबी बातचीत या दस्तावेज़ processing संभव है
GPT-OSS-120B पर सही चलने वाले Discord chatbot में Qwen के साथ tool calling की सिर्फ नकल करने और वास्तव में execute न करने की समस्या थी
आखिर में images के लिए Qwen और सामान्य बातचीत के लिए GPT अलग-अलग इस्तेमाल करना पड़ा
local code repo को explore करते समय 30~50% नतीजों में गलत file names या function names बना देता था
KimiK2 से verify किया तो ज़्यादातर गलत निकले। छोटे मॉडल अच्छे हैं, लेकिन reliability को लेकर सावधान रहना चाहिए
M4 MacBook Pro(128GB RAM) पर ollama के साथ प्रयोग कर रहा हूँ, लेकिन अभी तक संतोषजनक flow नहीं मिला
Claude Code या Codex पर निर्भरता कम करना चाहता हूँ
यह साइट शायद मॉडल के memory bandwidth और size के आधार पर performance का अनुमान लगाती है
लेकिन MoE models (GPT-OSS-20B आदि) हर token पर सभी parameters का उपयोग नहीं करते, इसलिए वही hardware होने पर भी वे tokens तेज़ी से generate कर सकते हैं
GPT-OSS-20B में 3.6B active parameters हैं, इसलिए इसकी speed 3~4B dense model जैसी होती है, लेकिन VRAM पूरे 20B model size जितना चाहिए
intelligence के मामले में इसे लगभग 8.5B dense model के स्तर का माना जाता है
MoE models के मामले में memory bandwidth की गणना सिर्फ active parameters के आधार पर होनी चाहिए
लेकिन वास्तविक उपयोग में अक्सर इससे छोटा context ही काफ़ी होता है
llama.cpp का llama-fit-params ऐसी स्थिति में उपयोगी है
Mixtral 8x7B जैसे MoE model में 46.7B में से लगभग 12.9B ही active होते हैं
यानी बड़े मॉडल की quality और छोटे मॉडल की speed दोनों मिल सकती हैं, लेकिन पूरा model फिर भी memory में resident रहना पड़ता है
canirun.ai दस्तावेज़
token generation speed तो मिलती-जुलती है, लेकिन prefill speed बड़े MoE में धीमी होती है
और speculative decoding इस्तेमाल करने पर छोटे dense models में 3 गुना तक speedup मिल सकता है, जबकि MoE models में लगभग कोई लाभ नहीं होता
TFA या llmfit जैसी कोशिशें अच्छी हैं, लेकिन मेरे hardware पर कौन-सा model सबसे अच्छी quality देगा, यह पता लगाना मुश्किल होने से निराशा होती है
उदाहरण के लिए Qwen 3.5 27B Q6 @ 100k context अच्छी तरह चलता है, लेकिन recommendation list में पुराना Qwen 2.5 पहले आता है
मुझे tok/s 50 से ऊपर पर्याप्त है, इसलिए अच्छा होगा अगर quality के आधार पर sort किया जा सके
उदाहरण के लिए, “8GB VRAM, 32GB RAM में t/s ≥ 30, context ≥ 32K के साथ high-quality coding के लिए open model” हो तो Qwen2.5-Coder-7B-Instruct
“24GB VRAM, 32GB RAM में web research के लिए” हो तो Qwen3-30B-A3B-Instruct-2507
“40GB VRAM, 128GB RAM में RAG embeddings के लिए” हो तो Qwen3-Embedding-8B
यानी hardware-specific model recommendations की ज़रूरत है
बिजली का खर्च छोड़ दें तो यह लगभग मुफ्त है, लेकिन speed और quality कम हो जाती है
क्या लोग सिर्फ data privacy की वजह से local को पसंद करते हैं, यह भी जानना चाहता हूँ
कई devices और models को साथ में देखते हुए quality और resource allocation को optimize करने की कोशिश में complexity बहुत बढ़ जाती है
आखिरकार अभी मैं बस सबसे बड़ा quant model चुन लेने वाले समझौते पर हूँ
इन्हें सामान्य calculator की तरह सटीक होना ज़रूरी नहीं, और model makers और users के goals अलग होते हैं, इसलिए मनचाहा परिणाम पहले से अनुमान लगाना कठिन है
यह बस llmfit का web version लगता है
llmfit GitHub लिंक
मेरे M2 Max MBP(96GB RAM) पर भी ज़्यादातर local LLM अच्छी तरह चलने की बात बताता है
उम्मीद से कहीं ज़्यादा locally runnable models हैं, यह देखकर हैरानी हुई
Docker या Python से हल्के विकल्प के रूप में Rust+Wasm stack की सिफारिश करता हूँ
LlamaEdge प्रोजेक्ट
इसने मेरे RTX 6000 Pro Max-Q(96GB VRAM) को सही पहचाना, लेकिन UI में 4GB दिखाता है
साथ ही यह quantized models को ध्यान में नहीं रखता और सिर्फ full-resolution models दिखाता है
इसमें सुधार की ज़रूरत है
mobile GPU सूची अधूरी है, और यह CPU memory sharing या KV cache offloading जैसी रणनीतियों को नहीं समझता
मेरा system Arc 750(2GB shared RAM) के रूप में दिखता है, लेकिन वास्तव में RTX1000 Ada(6GB GDDR6) है
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B आदि लगभग real-time में अच्छी तरह चलते हैं
बड़े models धीमे हैं, लेकिन token shortage की समस्या नहीं होती
बढ़िया idea है
लेकिन मैं M3 Ultra(256GB RAM) user हूँ, और options सिर्फ 192GB तक हैं
अगर model चुनकर processor-wise performance comparison भी किया जा सके तो अच्छा होगा
मुझे पहली बार पता चला कि मेरा browser hardware information वेबसाइट को अपने-आप दे देता है
साइट मुझे iPhone 19 Pro मानती है, लेकिन असल में मेरा फ़ोन iPhone SE 1st gen है
शायद उसी से hardware detect किया जाता है
privacy-focused browsers random जानकारी देते हैं
M4 और M5 chips के बीच कोई performance अंतर न दिखना अजीब है
ऐसा भी लगता है कि memory size का बड़े models की performance पर कोई असर नहीं है
कुल मिलाकर यह वास्तविक data नहीं बल्कि estimate-based लगता है, इसलिए “ESTIMATE” का label होना चाहिए
संदर्भ: Apple M5 Max related video