CanIRun.ai — क्या मेरे कंप्यूटर पर AI मॉडल चल सकता है?

(canirun.ai)

40 पॉइंट द्वारा GN⁺ 2026-03-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह एक वेब-आधारित टूल है, जिससे पता किया जा सकता है कि लोकल मशीन वास्तव में कौन-से AI मॉडल चला सकती है
यह ब्राउज़र के WebGPU API का उपयोग करके हार्डवेयर प्रदर्शन का अनुमान लगाता है, इसलिए परिणाम वास्तविक स्पेक्स से अलग हो सकते हैं
यह हर मॉडल के लिए memory requirement, token processing speed, context length, run grade (S~F) आदि दिखाता है
इसमें Qwen, Llama, Gemma, Mistral, DeepSeek, GPT-OSS जैसे प्रमुख open source और commercial मॉडल शामिल हैं
यह जल्दी से आकलन करने में मदद करता है कि लोकल AI चल पाएगा या नहीं, इसलिए डेवलपर्स और शोधकर्ताओं के लिए उपयोगी संदर्भ संकेतक के रूप में काम आ सकता है

सेवा का अवलोकन

CanIRun.ai एक वेबसाइट है जहाँ लोकल वातावरण में चल सकने वाले AI मॉडल खोजे जा सकते हैं
- उपयोगकर्ता अपने ब्राउज़र में साइट खोलकर, सिस्टम प्रदर्शन के आधार पर चल सकने वाले मॉडलों की सूची देख सकते हैं
- परिणाम WebGPU API के जरिए अनुमानित होते हैं, इसलिए वास्तविक हार्डवेयर प्रदर्शन से अंतर हो सकता है
हर मॉडल को performance grade (S~F) के आधार पर वर्गीकृत किया गया है, जिससे उसकी run capability और efficiency को सहज रूप से समझा जा सकता है

मॉडल ग्रेड प्रणाली

ग्रेड को S, A, B, C, D, F में बाँटा गया है, जहाँ S सबसे स्मूथ रनिंग को दर्शाता है
- उदाहरण: NVIDIA GeForce RTX 4070 12GB के आधार पर
- Qwen 3.5 9B, Llama 3.1 8B जैसे मॉडल S(90/100) के रूप में दिखते हैं, यानी वे स्मूथ तरीके से चल सकते हैं
- Phi-4 14B को A(70/100) यानी 'अच्छी तरह चलता है' के रूप में दिखाया गया है
- GPT-OSS 20B, Mistral Small 3.1 24B जैसे मॉडल D(34~39/100) यानी 'लगभग चल नहीं सकता' के स्तर पर हैं
- इसके अलावा Gemma 3 27B, Qwen 3 32B जैसे 27B से बड़े अधिकांश मॉडल F(0/100) यानी 'बहुत भारी' के रूप में दिखाए गए हैं

डेटा स्रोत और तकनीकी आधार

मॉडल डेटा llama.cpp, Ollama, LM Studio से एकत्र किया गया है
हर मॉडल पेज पर memory usage, context length, token speed, architecture type (Dense/MoE) आदि विस्तार से दिखाए जाते हैं

उपयोगिता

लोकल वातावरण में AI मॉडल सीधे चलाने की कोशिश कर रहे डेवलपर्स, शोधकर्ताओं और open source उपयोगकर्ताओं के लिए यह व्यावहारिक संदर्भ सामग्री देता है
GPU प्रदर्शन के मुकाबले मॉडल आकार और efficiency की तुलना करके, उपयुक्त मॉडल चयन और deployment strategy बनाने में मदद मिलती है
यह ब्राउज़र-आधारित है, इसलिए बिना इंस्टॉल किए तुरंत टेस्ट किया जा सकता है — यही इसकी खासियत है

1 टिप्पणियां

GN⁺ 2026-03-14

Hacker News की राय

पिछले 2 सालों में local models के साथ प्रयोग करने में बहुत समय लगाया
छोटे मॉडल, जैसे qwen3.5:9b, local tools के उपयोग, information extraction, और embedded applications के लिए बहुत उपयुक्त रहे
coding के लिए Google Antigravity, gemini-cli, या Anthropic Claude जैसे cloud-based tools ज़्यादा प्रभावी रहे
Emacs और Claude Code को local में सेट करके 100 घंटे से ज़्यादा प्रयोग किया, लेकिन सामान्य उपयोगकर्ताओं को इसकी सिफारिश नहीं करूँगा
इसके बजाय, छोटे और व्यावहारिक local embedded models को अच्छी तरह इस्तेमाल करना सबसे सही संतुलन लगता है
- qwen3.5:9b की ज़ोरदार सिफारिश करता हूँ
  यह मॉडल छोटा है, लेकिन multimodal reasoning क्षमता बेहतरीन है, और इसकी internal chain-of-thought (CoT) स्थिर है
  खास तौर पर VRAM और context size के बीच इसका नया trade-off प्रभावशाली है — 100K tokens को 1.5GB VRAM में संभाल सकता है, इसलिए RTX 3060 पर भी लंबी बातचीत या दस्तावेज़ processing संभव है
- मैंने qwen3.5 को local tools के लिए इस्तेमाल किया, लेकिन नतीजे अच्छे नहीं थे
  GPT-OSS-120B पर सही चलने वाले Discord chatbot में Qwen के साथ tool calling की सिर्फ नकल करने और वास्तव में execute न करने की समस्या थी
  आखिर में images के लिए Qwen और सामान्य बातचीत के लिए GPT अलग-अलग इस्तेमाल करना पड़ा
- मैंने qwen3.5 9b इस्तेमाल किया, लेकिन hallucination की दर काफ़ी ऊँची थी
  local code repo को explore करते समय 30~50% नतीजों में गलत file names या function names बना देता था
  KimiK2 से verify किया तो ज़्यादातर गलत निकले। छोटे मॉडल अच्छे हैं, लेकिन reliability को लेकर सावधान रहना चाहिए
- जानना चाहता हूँ कि लोग छोटे मॉडलों को वास्तविक workflow में कैसे integrate करते हैं
  M4 MacBook Pro(128GB RAM) पर ollama के साथ प्रयोग कर रहा हूँ, लेकिन अभी तक संतोषजनक flow नहीं मिला
- क्या बड़े मॉडल से planning और छोटे local models से code writing का संयोजन ठीक रहता है, यह जानना चाहता हूँ
  Claude Code या Codex पर निर्भरता कम करना चाहता हूँ
यह साइट शायद मॉडल के memory bandwidth और size के आधार पर performance का अनुमान लगाती है
लेकिन MoE models (GPT-OSS-20B आदि) हर token पर सभी parameters का उपयोग नहीं करते, इसलिए वही hardware होने पर भी वे tokens तेज़ी से generate कर सकते हैं
GPT-OSS-20B में 3.6B active parameters हैं, इसलिए इसकी speed 3~4B dense model जैसी होती है, लेकिन VRAM पूरे 20B model size जितना चाहिए
intelligence के मामले में इसे लगभग 8.5B dense model के स्तर का माना जाता है
- वास्तव में मेरे Strix Halo laptop पर test किए गए models की performance अनुमान से कहीं बेहतर थी
  MoE models के मामले में memory bandwidth की गणना सिर्फ active parameters के आधार पर होनी चाहिए
- लगता है यह calculation पूरे context size के आधार पर की गई है
  लेकिन वास्तविक उपयोग में अक्सर इससे छोटा context ही काफ़ी होता है
  llama.cpp का llama-fit-params ऐसी स्थिति में उपयोगी है
- दस्तावेज़ों में यह बात साफ़ तौर पर समझाई गई है
  Mixtral 8x7B जैसे MoE model में 46.7B में से लगभग 12.9B ही active होते हैं
  यानी बड़े मॉडल की quality और छोटे मॉडल की speed दोनों मिल सकती हैं, लेकिन पूरा model फिर भी memory में resident रहना पड़ता है
  canirun.ai दस्तावेज़
- फिर भी थोड़ी अशुद्धि है
  token generation speed तो मिलती-जुलती है, लेकिन prefill speed बड़े MoE में धीमी होती है
  और speculative decoding इस्तेमाल करने पर छोटे dense models में 3 गुना तक speedup मिल सकता है, जबकि MoE models में लगभग कोई लाभ नहीं होता
TFA या llmfit जैसी कोशिशें अच्छी हैं, लेकिन मेरे hardware पर कौन-सा model सबसे अच्छी quality देगा, यह पता लगाना मुश्किल होने से निराशा होती है
उदाहरण के लिए Qwen 3.5 27B Q6 @ 100k context अच्छी तरह चलता है, लेकिन recommendation list में पुराना Qwen 2.5 पहले आता है
मुझे tok/s 50 से ऊपर पर्याप्त है, इसलिए अच्छा होगा अगर quality के आधार पर sort किया जा सके
- सवाल बहुत व्यापक है
  उदाहरण के लिए, “8GB VRAM, 32GB RAM में t/s ≥ 30, context ≥ 32K के साथ high-quality coding के लिए open model” हो तो Qwen2.5-Coder-7B-Instruct
  “24GB VRAM, 32GB RAM में web research के लिए” हो तो Qwen3-30B-A3B-Instruct-2507
  “40GB VRAM, 128GB RAM में RAG embeddings के लिए” हो तो Qwen3-Embedding-8B
  यानी hardware-specific model recommendations की ज़रूरत है
- local run का cost efficiency ($/Mtok) जानना चाहता हूँ
  बिजली का खर्च छोड़ दें तो यह लगभग मुफ्त है, लेकिन speed और quality कम हो जाती है
  क्या लोग सिर्फ data privacy की वजह से local को पसंद करते हैं, यह भी जानना चाहता हूँ
- यह समस्या सच में बहुत कठिन है, और मैं भी 1 साल से ज़्यादा समय से इस पर शोध कर रहा हूँ
  कई devices और models को साथ में देखते हुए quality और resource allocation को optimize करने की कोशिश में complexity बहुत बढ़ जाती है
  आखिरकार अभी मैं बस सबसे बड़ा quant model चुन लेने वाले समझौते पर हूँ
- LLM आखिरकार सिर्फ specialized calculators हैं
  इन्हें सामान्य calculator की तरह सटीक होना ज़रूरी नहीं, और model makers और users के goals अलग होते हैं, इसलिए मनचाहा परिणाम पहले से अनुमान लगाना कठिन है
यह बस llmfit का web version लगता है
llmfit GitHub लिंक
- सही है। लेकिन llmfit system resources को auto-detect करता है, इसलिए बहुत अधिक उपयोगी है
- लिंक साझा करने के लिए धन्यवाद। यह सच में वेबसाइट से कहीं ज़्यादा उपयोगी है
  मेरे M2 Max MBP(96GB RAM) पर भी ज़्यादातर local LLM अच्छी तरह चलने की बात बताता है
  उम्मीद से कहीं ज़्यादा locally runnable models हैं, यह देखकर हैरानी हुई
Docker या Python से हल्के विकल्प के रूप में Rust+Wasm stack की सिफारिश करता हूँ
LlamaEdge प्रोजेक्ट
इसने मेरे RTX 6000 Pro Max-Q(96GB VRAM) को सही पहचाना, लेकिन UI में 4GB दिखाता है
साथ ही यह quantized models को ध्यान में नहीं रखता और सिर्फ full-resolution models दिखाता है
इसमें सुधार की ज़रूरत है
mobile GPU सूची अधूरी है, और यह CPU memory sharing या KV cache offloading जैसी रणनीतियों को नहीं समझता
मेरा system Arc 750(2GB shared RAM) के रूप में दिखता है, लेकिन वास्तव में RTX1000 Ada(6GB GDDR6) है
Qwen3 Coder Next, Devstral Small, Qwen3.5 4B आदि लगभग real-time में अच्छी तरह चलते हैं
बड़े models धीमे हैं, लेकिन token shortage की समस्या नहीं होती
बढ़िया idea है
लेकिन मैं M3 Ultra(256GB RAM) user हूँ, और options सिर्फ 192GB तक हैं
अगर model चुनकर processor-wise performance comparison भी किया जा सके तो अच्छा होगा
- दुर्भाग्य से Apple ने 512GiB model बंद कर दिया है
मुझे पहली बार पता चला कि मेरा browser hardware information वेबसाइट को अपने-आप दे देता है
- वास्तव में यह पूरी तरह सटीक नहीं है
  साइट मुझे iPhone 19 Pro मानती है, लेकिन असल में मेरा फ़ोन iPhone SE 1st gen है
- नए Librewolf में WebGL access permission माँगी जाती है
  शायद उसी से hardware detect किया जाता है
- ऐसी जानकारी अक्सर browser fingerprinting के लिए इस्तेमाल होती है
  privacy-focused browsers random जानकारी देते हैं
- मेरा मानना है कि airlines भी OS के हिसाब से अलग pricing इसी तरह करती होंगी
M4 और M5 chips के बीच कोई performance अंतर न दिखना अजीब है
ऐसा भी लगता है कि memory size का बड़े models की performance पर कोई असर नहीं है
कुल मिलाकर यह वास्तविक data नहीं बल्कि estimate-based लगता है, इसलिए “ESTIMATE” का label होना चाहिए
- शुरुआती वास्तविक tests में M5 Max ने performance improvement दिखाया था
  संदर्भ: Apple M5 Max related video

CanIRun.ai — क्या मेरे कंप्यूटर पर AI मॉडल चल सकता है?

सेवा का अवलोकन

मॉडल ग्रेड प्रणाली

डेटा स्रोत और तकनीकी आधार

उपयोगिता

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय