5 पॉइंट द्वारा GN⁺ 4 시간 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemma 4 26B-A4B को 2016 के single Intel Xeon E5-2620 v4, DDR3 128GB, बिना GPU वाले सर्वर पर ik_llama.cpp optimization के साथ पढ़ने की गति के स्तर तक चलाया गया
  • LLM decoder path में compute से ज़्यादा memory bandwidth bottleneck बनता है, और CPU का बड़ा हिस्सा RAM से cache में अगला weight लाने का इंतज़ार करने में जाता है
  • --spec-type mtp, --cpu-moe, --merge-up-gate-experts, --run-time-repack आदि MTP speculative decoding, MoE routing, और cache-friendly memory layout के ज़रिए DDR3 environment के bottleneck को कम करते हैं
  • लॉग के अनुसार कुल memory requirement 82,355MiB है, और पूरे 262K context में लगभग 25GB weights की तुलना में लगभग 56GB KV cache बड़ा है
  • ollama जैसे black-box tools में ज़रूरी model support और fine-tuning knobs की कमी होती है, और पुराने hardware पर performance निकालने के लिए inference engine और memory structure की गहरी समझ चाहिए

रनटाइम environment और मुख्य bottleneck

  • टेस्ट सर्वर reused hardware है, और इसकी specification है Intel Xeon E5-2620 v4 @ 2.10GHz, 8-core 16-thread, AVX2, 20MiB L3 cache, 2MiB L2, 128GB DDR3, बिना GPU
  • यह CPU AVX-512, AVX-VNNI, BF16 को support नहीं करता, और इसमें integrated GPU भी नहीं है
  • LLM inference में एक-एक token generate करने वाला decoder path मुख्य रूप से compute नहीं बल्कि memory bandwidth से बंधा होता है
  • अगला token निकालने के लिए model के learned knowledge वाले weights को RAM से CPU cache और cores तक लगातार लाना पड़ता है, और processor matrix compute से ज़्यादा समय अगले weights के आने का इंतज़ार करता है
  • यह “memory wall” सिर्फ Xeon पर नहीं, बल्कि H100 जैसे high-performance hardware पर भी एक अहम performance barrier है

Black-box tools की जगह ज़रूरी runtime knobs

  • DDR3 और बिना GPU वाले environment में अगर सिर्फ llama-cli चलाया जाए, तो यह बहुत धीमा होता है, और सामान्य GPU use case के लिए बनी optimization की वजह से काफ़ी improvement की गुंजाइश बचती है
  • ollama में ज़रूरी model support न हो सकता है, और यह performance को पूरी तरह निकालने लायक पर्याप्त detailed settings expose नहीं करता
  • वास्तविक execution के लिए ik_llama.cpp द्वारा exposed कई flags को मिलाकर इस्तेमाल करना पड़ता है
  • मुख्य flags का सेट इस प्रकार है
--spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune  
-sm graph -smgs -sas -mea 256 --split-mode-f32  
-t 8 --parallel 8  
--cpu-moe --merge-up-gate-experts  
--flash-attn on --mla-use 3  
--mlock --run-time-repack --no-kv-offload  

Speculative decoding और MoE optimization

  • --spec-type mtp --draft-max 3 --draft-p-min 0.0 --spec-autotune 26B verifier को पहले से बने छोटे MTP drafter के साथ इस्तेमाल करता है
  • --draft-max 3 का मतलब प्रति draft अधिकतम 3 token, --draft-p-min 0.0 का मतलब सभी probabilities स्वीकार करना, और --spec-autotune workload के हिसाब से chain length को adjust करता है
  • लंबे inference chain बनाते समय, भले ही user को सिर्फ छोटा final answer दिखे, हर hidden thinking token के लिए पूरा decoder path चलाना पड़ता है
  • CPU पर verifier weights को cache में stream करने की लागत बड़ी होती है, जबकि छोटे drafter की active layers L3 cache में अच्छी तरह fit हो जाती हैं, इसलिए speculative decoding का फ़ायदा और बढ़ जाता है
  • Gemma 4 26B-A4B एक MoE architecture है, जिसमें 128 experts में से प्रति token 8 active होते हैं, और कुल लगभग 25.2B parameters में से active parameters लगभग 3.8B हैं
  • --cpu-moe CPU cache hierarchy के हिसाब से routing adjust करता है, और 128 experts के बीच लगातार आने-जाने से होने वाली cache thrashing को कम करता है, जिसमें cache खाली होकर डेटा फिर DDR3 से लाना पड़ता है
  • --merge-up-gate-experts expert के अंदर up projection और gate projection को एक matrix multiply में fuse करता है, और लॉग में इसे fused_up_gate = 1 के रूप में देखा जा सकता है
  • -t 8 8 physical cores के हिसाब से सेट किया गया है, क्योंकि memory-bound workload में सभी 16 SMT threads का उपयोग throughput बढ़ाने के बजाय scheduling cost बढ़ा सकता है

Memory pinning, repacking, और graph splitting

  • --run-time-repack inference शुरू होने से ठीक पहले weight matrices को CPU cache layout के अनुसार फिर से व्यवस्थित करता है, और लॉग में यह Repacked 265 tensors के रूप में दिखता है
  • यह setting startup पर कुछ सेकंड की लागत लेकर RAM के भीतर मौजूद numeric tables को ऐसे रूप में rearrange करती है जिसे CPU बेहतर पढ़ सके, और वास्तविक text generation के दौरान memory bandwidth का अधिकतम उपयोग हो सके
  • --mlock model को RAM में pin करता है ताकि operating system उसे disk पर swap न कर सके
  • अगर kernel की memlock limit काफ़ी नहीं है, तो failed to mlock 27628376064-byte buffer और Try increasing RLIMIT_MEMLOCK जैसी warning आती है, जो LLM की समस्या नहीं बल्कि default ulimit setting की समस्या है
  • --no-kv-offload बिना GPU वाले environment में KV cache को GPU पर भेजने की कोशिश छोड़कर उसे system RAM में ही रखता है
  • -sm graph computation graph को vertically बाँटकर graph splitting की कोशिश करता है, ताकि कई processing devices या memory regions एक ही layer के अलग-अलग हिस्सों को साथ में compute कर सकें
  • इस run में Split mode 'graph' is not supported for Gemma4 external MTP लॉग के साथ यह सुरक्षित रूप से layer splitting पर fallback हो गया
  • -sas physical CPU sockets या NUMA nodes के बीच workload splitting का निर्देश देता है, और --split-mode-f32 split होने के बाद फिर से जुड़ने वाले intermediate points पर 32-bit floating-point precision का उपयोग कराता है

Attention, memory usage, और निष्कर्ष

  • ikawrakow ने CPU पर Flash Attention चलाने के लिए custom kernel लिखा है, जिससे भारी context processing GPU के बिना भी चल सके
  • --flash-attn on attention softmax और matrix multiply को fuse करता है, ताकि पूरा N×N attention matrix RAM में physically लिखने के बजाय छोटे chunks में cache के भीतर compute और consume किया जा सके
  • --mla-use 3 Multi-Head Latent Attention को enable करता है, जो KV cache के Key और Value को छोटे latent representation में compress करता है
  • लॉग में flash_attn = 1, fused_moe = 1, fused_up_gate = 1 दिखता है, जिससे पुष्टि होती है कि ये optimization वास्तव में लागू हुईं
  • memory log के अनुसार सभी layers का कुल योग 81,607.46MiB है, और model tensors तथा cache के लिए ज़रूरी memory 82,355MiB है
  • पूरे 262K context में weights लगभग 25GB हैं, जबकि KV cache लगभग 56GB है, यानी KV cache model से बड़ा है
  • यह configuration 25B parameter MoE को load करके MTP drafter के साथ speculative decoding चलाती है, और 2016 के Xeon, DDR3, तथा बिना GPU वाले सर्वर पर पढ़ने की गति से text generate करती है
  • निष्कर्ष यह है कि आधुनिक open-weight AI को local पर चलाने का bottleneck सिर्फ silicon नहीं, बल्कि inference engine के व्यवहार और memory structure की समझ भी है; सही fork, calibrated quantization, और memory architecture की समझ हो तो पुराने सर्वर पर भी इसे चलाया जा सकता है

2 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News की राय
  • मैंने यह पोस्ट इसलिए लिखी क्योंकि नए Gemma 4 Drafter मॉडल को चलाने के तरीके बहुत कम हैं, और मुख्यधारा के टूल performance tuning के बिंदुओं को छिपा देते हैं, जो काफ़ी निराशाजनक है।
    आखिरकार मैं GPU के बिना, सिर्फ़ एक single Xeon E5-2620 v4 और 128GB DDR3 RAM वाले पुराने recycled server पर, नवीनतम 26B MoE मॉडल को reading speed पर चलाने में सफल हुआ।
    मैंने पोस्ट के अंत में quantized model का लिंक भी दिया है, लेकिन वह तब तक नहीं चलेगा जब तक आप बताए गए ik_llama-cpp fork का इस्तेमाल न करें, और उसके विवरण के लिए दूसरी पोस्ट देखनी होगी।
    मैं machine learning engineer नहीं हूँ, और server भी Nix cache की भूमिका में व्यस्त है, लेकिन सवाल हों तो जहाँ तक संभव होगा जवाब दे सकता हूँ।

    • अगर काम memory bandwidth से बंधा है, तो क्या SMT उल्टा आम तौर पर उपयोगी नहीं होना चाहिए?
      क्योंकि जब एक thread DDR3 का इंतज़ार कर रहा हो, तब दूसरा thread चल सकता है।
      साथ ही, --cpu-moe का विवरण भी मुझे ठीक से समझ नहीं आ रहा। एक expert के पास लगभग 4.0GiB parameters हैं, और अगर L3 cache सिर्फ़ 20MiB है, तो expert order को optimize करने पर भी parameters को अर्थपूर्ण तरीके से cache करना मुश्किल लगेगा।
      और जैसा दूसरों ने कहा, Intel Xeon E5-2xxx v4 में सिर्फ़ कुछ मॉडल ही DDR3 को support करते थे, और Intel के दस्तावेज़ों के अनुसार E5-2620 v4 उनमें से एक नहीं है।
    • यह सच में व्यावहारिक रूप से शानदार उपलब्धि है। सोच रहा हूँ कि इसी तरह के Dell T7610 workstation पर समान या उससे बेहतर performance मिलेगी या नहीं।
      इसमें dual Xeon और 128GB DDR3 configuration है, और CPU कुल 24 cores/48 threads के 2 × Xeon E5-2697 v2 हैं, इसलिए core count बेहतर है, लेकिन असली फ़र्क़ शायद बड़ा न हो।
      यह मशीन बस धूल खा रही है, इसलिए reading speed Gemma काफ़ी उम्मीद जगाती है।
    • मैंने 2 साल पहले Amazon से refurbished 2× E5-2690v4 server, 128GB RAM, Dell T7810 को 500 डॉलर से कम में खरीदा था।
      Amazon पर “chia farming” सर्च करें, बस chia seeds वाले नतीजों को छोड़ दें।
      अब वही मशीन लगभग 2.5 गुना महंगी हो गई है, लेकिन फिर भी मौजूदा पीढ़ी की DDR5 मशीनों से काफ़ी सस्ती है।
      https://www.amazon.com/dp/B095TRGCSX
    • मुझे सच में शक है कि यह DDR3 है। मेरे घर में E5 v4 की दो मशीनें हैं और दोनों DDR4 हैं, इसलिए समझ नहीं आ रहा कि 2011-3 socket DDR3 और DDR4 दोनों को support करता है या नहीं।
    • यह setup मेरी स्थिति के लिए बिल्कुल सही लग रहा है।
      Intel(R) Xeon(R) CPU E5-2680 0 @ 2.70GHz, online CPU 0-31, 128GB RAM configuration है।
      जानना चाहता हूँ कि अगर DIMM slots 8 हों, तो क्या वास्तव में memory bandwidth बेहतर होती है। अभी यह बेचारा सिस्टम सिर्फ़ YouTube देखने के काम आ रहा है।
  • अभी हम वहाँ तक नहीं पहुँचे हैं, लेकिन मौजूदा bubble के खत्म होने का साफ़ अंतिम बिंदु यही है कि local hardware और devices पर चलने वाले open models ज़्यादातर उपयोगों के लिए “काफ़ी अच्छे” हो जाएँ।
    अगर ऐसा हुआ, तो अभी tech industry में जो कुछ हो रहा है, वह पूरी तरह बिखर सकता है।

    • मेरे साथ तो यह पहले ही हो चुका है। CoPilot की pricing change के बाद मैंने subscription cancel कर दिया और एक local coding model install किया जो सिर्फ़ VRAM के भीतर चलता है।
      जब सच में फँस जाऊँगा तब Claude API बुला लूँगा, लेकिन मेरी 80% ज़रूरतें एक कम समझदार local model से पूरी हो सकती हैं।
      Programming languages और techniques इतनी तेज़ी से नहीं बदलतीं, इसलिए उम्मीद है कि यह कम से कम 5 साल काम आएगा, और जब उसी VRAM में ज़्यादा स्मार्ट model फिट करने लायक optimization आ जाएगी तब upgrade कर लूँगा।
      मुझे यह दिशा पसंद है।
    • Amazon के नज़रिए से देखें तो क्या open models चलाकर, और execution cost के क़रीब दाम पर समय बेचना उसके लिए फ़ायदेमंद नहीं होगा?
      अगर वह ऐसा नहीं कर रहा, तो मेरा अनुमान है कि अभी AI labs अपने models बहुत बड़े घाटे पर बेच रही हैं, इसलिए Amazon के लिए low-margin compute बेचना उसके दूसरे high-margin products की तुलना में कम आकर्षक है।
      मौजूदा स्थिति के टूटने के लिए शायद local execution तक पहुँचना भी ज़रूरी न हो। जब AI labs की free-money runway खत्म होगी और उन्हें वास्तविक execution cost से ऊपर कीमत रखनी पड़ेगी, तब compute रखने वाला कोई भी खिलाड़ी open model service को सामान्य बाज़ार दर पर उससे सस्ता देने के लिए प्रेरित होगा।
    • OpenAI और Anthropic आख़िरकार AI companies से ज़्यादा computing infrastructure business के क़रीब हैं।
      आख़िर में हर किसी के पास model होगा और उसे चलाने की क्षमता भी, और इसी वजह से GPU की कमी अभी इनके पक्ष में काम कर रही है।
    • नई बनी multi-trillion valuation वाली कंपनियों के लिए यह सबसे बुरा scenario है।
      उनकी उम्मीद इस पर टिकी है कि enterprises और SMBs अपनी सारी work processes को cloud में ले जाएँ, और कर्मचारी जितना हो सके उतने tokens खर्च करने की होड़ लगाएँ।
    • मैं यह नहीं कहूँगा कि सब कुछ पूरी तरह ढह जाएगा, लेकिन यह साफ़ है कि दिशा उसी ओर है।
      “काफ़ी अच्छे” models के साथ privacy और long-term cost savings जुड़ जाएँ, तो वे आकर्षक बन जाते हैं।
      विडंबना यह है कि coding agents के लिए जितना बेहतर general-purpose execution environment बनेगा, Claude जैसी सेवाओं की moat उतनी कम होगी। कुछ महीने पहले के frontier models को कुछ open models ने जितनी तेज़ी से catch up किया है, उस पर यक़ीन करना मुश्किल है।
  • पोस्ट भी अच्छी है और तकनीकी रूप से भी प्रभावशाली है। मैं इस बात से सहमत हूँ कि build pipeline को समझना और चीज़ों को local पर चला पाना ज़रूरी है।
    लेकिन बिजली के दाम पर निर्भर करते हुए यह आर्थिक रूप से लाभकारी न भी हो सकता है। पुराने servers energy efficient नहीं होते, और मैं सोच रहा था कि पुराने Xeon server load पर लगभग 200W खाएँगे, जबकि वही model OpenRouter पर 0.1/0.3 डॉलर प्रति 1 million tokens, 76 tokens/second, और 262k context के साथ उपलब्ध है।
    और वैसे भी ऐसे servers शोर करते हैं। हालांकि, 200W का मेरा अनुमान शायद बहुत ज़्यादा था; पुराने Xeon servers जिन्हें मैं इस्तेमाल करता था वे काफ़ी बिजली खाते थे, लेकिन exact model याद नहीं है।

    • 2620v4 कोई बिजली चूसने वाला राक्षस नहीं है। server board पर निर्भर करता है, लेकिन server होना अपने-आप में ऐसा नहीं बनाता।
      Servers आम तौर पर शोर करते हैं, लेकिन वह भी configuration पर निर्भर है। ऐसे chips पर आधारित काफ़ी सस्ती hosting मिलती है, और ये उम्मीद से ज़्यादा power efficient हैं।
    • load पर यह 85W के ज़्यादा क़रीब होगा। सस्ते cooler पर भी यह बहुत शांत रहता है, और तापमान भी मुश्किल से 50°C के ऊपर जाता है।
    • ऐसे servers शोर इसलिए करते हैं क्योंकि 1U या 2U में लगाने पर ज़रूरी static pressure बनाने के लिए high-speed fans चाहिए होते हैं।
      अगर इसी तरह की configuration को 4U case और धीमे 120mm fans के साथ चलाएँ, तो सब ठीक रहता है।
  • यह देखकर अच्छा लगा कि दूसरे लोग भी यह बात समझ रहे हैं। मैं 2012 के Xeon और 16~24GB RAM कंटेनर पर Gemma 26B-A4B Q4 चला रहा हूँ, और लगभग 8~12 टोकन/सेकंड मिल रहे हैं
    बड़े context या GPU रन से इसकी तुलना नहीं की जा सकती, और llama.cpp का image decoder भी GPU से काफी धीमा है, लेकिन छोटे automation tasks या सामान्य ज्ञान वाले सवालों के लिए यह ठीक है। पढ़ते-पढ़ते साथ चल पाने जितनी गति है, इसलिए इंतज़ार कम खलता है
    सेटअप में OpenBLAS और OpenMP सक्षम llama.cpp build, OPENBLAS_NUM_THREADS=4, OMP_NUM_THREADS=4, unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL, q8_0 cache, और 8192 context जैसी settings हैं
    CPU के हिसाब से AVX2 जैसी optimizations देखनी पड़ेंगी, और MTP थोड़ी देर आज़माया था लेकिन performance gain नहीं मिला। cache·context batch size समायोजित कर सकते हैं या Q2 तक नीचे जा सकते हैं, और threads ज़रूरत से ज़्यादा allocate करने से बचना बेहतर है। defaults या llama-bench से शुरू करने की सलाह दूँगा

    • मैं अभी एक Frankenstein system बना रहा हूँ। Chinese DDR3 X99 board, 12-core Xeon v3, 32GB 1866MT/s RAM, और 1080 Ti वाला setup है
      टेस्ट के दौरान मैंने gemma4:e4b-it-q4_K_M चलाया, जो 11GB VRAM में पूरी तरह फिट हो जाता है, और 50 टोकन/सेकंड से ऊपर मिला। इतना छोटा model coding के लिए खास उपयोगी नहीं है, लेकिन दूसरे कामों में काम आ सकता है
      मैं Wake-on-Use बनाकर इसे निजी ChatGPT की तरह इस्तेमाल करना चाहता हूँ। शायद Pi को proxy बनाकर Wake-on-LAN script call करवाई जा सके, और कभी यह एक मज़ेदार weekend project बन सकता है
      हमेशा चालू रहने वाला LLM dense Gemma4:31b है, जो 12GB 2060 में आधा भी नहीं समाता; बहुत धीमा है लेकिन quality अच्छी है, और यह automated queue processing के लिए है इसलिए मैं output को घूरता नहीं बैठा रहता। एक और 2060 है, लेकिन दोनों लगाने पर PC POST नहीं करता
    • llama और local computing की बात करें तो, कुछ दिन पहले Georgi Gerganov ने tweet किया था कि वह Mac M2 Ultra या RTX 5090 पर local में Qwen3.6 27B चलाकर llama.cpp development में मदद कर रहे हैं
  • मैं कुछ समय तक Mac Studio Pro लेने पर सोचता रहा, लेकिन आखिरकार इस रास्ते पर आ गया। HP Z620 headless machine में 192GB ECC RAM, dual Xeon E5-2680 v2, Optane AIC, 10GB VRAM वाले P102-100 के दो कार्ड, Debian 12.6 के साथ minimal boot SSD, और Pascal cards को support करने वाला fixed पुराना CUDA version लगाया है
    इसे basement से AMT/meshcommander के जरिए remotely चलाता हूँ, llama.cpp और frontend उठाकर local network से access करता हूँ। Talkie, Qwen 3.6 27b, medgemma के साथ काम कर रहा हूँ, और सही quantization चुनने पर GGUF performance कुल मिलाकर ठीक लगी
    कुल लागत 500 डॉलर से कम थी, लेकिन यह server मैंने पिछले साल eBay से खरीदा था, इसलिए अब कीमत अलग हो सकती है
    आगे अगर ternary LLM सच में आगे बढ़ते हैं, तो उम्मीद है यह पुराना hardware असल में knowledge से भरे high-density models host कर पाएगा। GPU RAM से बड़ा होने पर Optane में spill हो जाए तो भी ठीक है, क्योंकि speed से ज़्यादा सामान्य factual knowledge अहम है
    आख़िरी योजना यह है कि सेटअप के बाद इसे basement की Faraday कूड़ेदान में रख दूँ, ताकि दुनिया टूटने की स्थिति में यह “सभ्यता के पुनर्निर्माण” के लिए एक oracle की तरह बचा रहे। हाँ, ऐसी स्थिति में बिजली समस्या होगी, लेकिन अगर यह hardware इतना सस्ता है और modern AI इतने practical मौके देता है, तो इसे आज़माना बनता है

  • AI प्रगति में सबसे दिलचस्प बात AGI या किसी खास AI unicorn का latest model नहीं, बल्कि local में क्या चलाया जा सकता है यह है
    6 साल पहले high-end gaming PC पर मज़ेदार लेकिन लगभग बेकार models चला सकते थे, जबकि आज M5 laptop पर उससे 100 गुना बेहतर चीज़ चलाई जा सकती है
    अगर बाज़ार memory shortage पर प्रतिक्रिया देता रहा और Apple silicon की प्रगति इसी रफ़्तार से जारी रही, तो 6 साल बाद local में क्या चल सकेगा यह बहुत दिलचस्प या डरावना हो सकता है
    यह AI कंपनियों की valuation के लिए क्या मायने रखता है, यह भी समझ नहीं आता। पहले एक event में मैंने उस कंपनी के एक कर्मचारी से ऐसा ही सवाल पूछा था, तो उसने जवाब देने के बजाय cocktail लेने जाना बेहतर समझा

    • कुछ बातें ऐसी होती हैं जिन्हें बोला नहीं जाता। AI model business में moat जैसा कोई टिकाऊ और आसानी से बचाव योग्य तकनीकी बढ़त नहीं है; बस short-term advantage है
      AI business पुराने कारखानों की तरह capital-intensive है। datacenter महंगे हैं, models बहुत बिजली खाते हैं, और अंदर का hardware हर 3~4 साल में बदलना पड़ता है
      छोटे और specialized models नीचे से margins को खा जाते हैं। transcription, voice, image detection के लिए giant models की ज़रूरत नहीं होती
      पारंपरिक software business जैसी high margins की उम्मीद करने की कोई वजह नहीं है, और AI का ज़्यादातर फ़ायदा उपभोक्ताओं तक जाता है। हाँ, Microsoft, Google, Amazon, Meta जैसी कुछ बड़ी कंपनियाँ economies of scale से cost advantage ले सकती हैं
    • consumer hardware पर local में चल सकने की क्षमता काफ़ी अच्छी तरह आगे बढ़ रही है
      5080 जैसे top-end के बिना भी, ठीक-ठाक gaming GPU होने पर 2025 की शुरुआत के cutting edge से बेहतर local models चलाए जा सकते हैं
      काम के हिसाब से model बदलना पड़ सकता है, और एक ही सब-कुछ करने वाला ultra-large model अभी भी datacenter की दुनिया में है
    • आख़िरकार यह convenience का सवाल है। Wikipedia से लेकर social media, email, video server तक बहुत कुछ local में चलाया जा सकता है
      लेकिन full-time नौकरी और दो बच्चों वाले ज़्यादातर लोगों के पास patching और maintenance के लिए समय या ऊर्जा नहीं होती। systems लगातार ज़्यादा जटिल हो रहे हैं और bugs भी बढ़ रहे हैं। यह आज़ादी और सुविधा के बीच पुराना समझौता है
    • AI कंपनी valuations पर इसका शायद ज़्यादा असर नहीं पड़ेगा
      ज़्यादातर users को यह नहीं पता कि LLM क्या है या यह कैसे चलता है। कई LLM users वही इस्तेमाल करते हैं जो उनके workplace में दिया जाता है, और थोड़े ज़्यादा जानकार users भी OpenAI या Anthropic की subscription fee देने में सहज दिखते हैं
      local LLM पसंद करने वाला open weights models का एक छोटा लेकिन समर्पित user base बनेगा, लेकिन बाकी लोग बड़े providers से ही consume करते रहेंगे। यह आज के operating systems जैसा हो सकता है, जहाँ थोड़े Linux users हैं और बहुमत Windows, macOS, Chrome पर है
    • software, खासकर games, में हमेशा ऐसा ही रहा है
      5~6 साल पुराने games बहुत सस्ते मिल जाते हैं और साधारण hardware पर भी चल जाते हैं। लेकिन industry 5 साल तक स्थिर नहीं बैठती, इसलिए बेहतर hardware माँगने वाला नया software लगातार आता रहता है
  • मूल पोस्ट के लेखक ने टिप्पणियों में जो नतीजा बताया, वह लगभग 12 टोकन/सेकंड है
    इस हार्डवेयर पर जितना संभव होगा, मैंने उससे कहीं ज़्यादा प्रभावशाली प्रयास सोचा था, लेकिन संतोषजनक इंटरैक्टिव सेशन के लिए ज़रूरी स्तर से यह अभी भी काफ़ी कम है

    • खासकर ऐसे छोटे मॉडल OpenRouter जैसे प्लेटफ़ॉर्म पर वाकई सस्ते और तेज़ होते हैं
      कई बार अत्याधुनिक मॉडलों की तुलना में 100~500 गुना सस्ते होते हैं, और टोकन/सेकंड भी 2~5 गुना तेज़ हो सकता है
    • उस नतीजे को ढूँढने में बहुत ज़्यादा समय लगा। यह सोचें कि SSD पर भी मॉडल चल सकता है, तो धीमी RAM पर चल पाना हैरान करने वाली बात नहीं है
    • इंटरैक्टिव इस्तेमाल के लिए यह बहुत बुरा भी नहीं है: https://mikeveerman.github.io/tokenspeed/?rate=12&mode=text
      बैकग्राउंड उपयोग के लिए तो यह काफ़ी ठीक होगा
    • कागज़, पेंसिल और वैज्ञानिक कैलकुलेटर से भी RSA encryption किया जा सकता है
      यह काम तो करता है, लेकिन गंभीर काम के लिए इसकी throughput नहीं है
  • E5-2620 v4 शानदार है। मैं इसे 10 साल से इस्तेमाल कर रहा हूँ, और अपग्रेड करने ही वाला था, लेकिन मौजूदा कीमतें देखकर रुक गया
    मैंने 64GB DDR4 के साथ RX 9060 XT 16GB लगाया है, और गेम अभी भी तेज़ चलते हैं। DOOM The Dark Ages में CPU थोड़ा bottleneck हो सकता है, लेकिन 60fps मिल रहा है, इसलिए कोई समस्या नहीं
    हल्के LLM को GPU पर चलाना तो स्वाभाविक विकल्प है, और CPU पर भी tuning के साथ इसे ठीक-ठाक चलाया जा सकता है, यह काफ़ी बढ़िया है
    मैंने एक महीने पहले 2667 v4 को 30 डॉलर में खरीदा था, और लगता है कि प्रदर्शन में काफ़ी सुधार होगा, लेकिन अभी उसकी ज़रूरत नहीं पड़ी। अगर इस पोस्ट की तरह LLM की दिशा में ज़ोर लगाना हो, तो 2667 थोड़ी तेज़ RAM संभाल सकता है, इसलिए शायद अपग्रेड करूँगा

    • मेरे पास dual E5 2667-v4, 256GB DDR4, Z640, 1080 Ti वाला सेटअप है, और 2025 की पहली छमाही में SSD को छोड़कर बाकी सारे पार्ट्स मिलाकर 500 डॉलर से कम में मिल गए थे
      सेकंड-हैंड बाज़ार में अभी भी क्या-क्या मिल सकता है, यह देखकर मैं अब भी काफ़ी हैरान हूँ
      मुझे अंदाज़ा नहीं था कि RAM और GPU की कीमतें इतनी उछल जाएँगी, इसलिए संयोग से टाइमिंग अच्छी रही। eBay पर लगभग 300 डॉलर की 3080 मिल जाए तो 1080 Ti बेचने का भी सोच रहा हूँ, लेकिन उसके अलावा यह एक शानदार अपग्रेड रहा है
      यह बिजली Coca Cola की तरह गटकता है, लेकिन वर्कस्टेशन के रूप में बेहतरीन काम करता है, इसलिए मेरा इरादा है कि इसे खराब होने तक पूरा इस्तेमाल करूँ
    • CPU को 10 साल तक इस्तेमाल करना वाकई बहुत लंबा लगता है
      पहले मैं सोचता था कि गर्मी से होने वाला नुकसान 5~7 साल में CPU को खत्म कर देता है, लेकिन अब सोचता हूँ कि शायद यह धारणा ही ग़लत थी। हो सकता है आज के CPU पहले से कहीं ज़्यादा मज़बूत और टिकाऊ हों
  • पुराने Xeon optimization से जुड़ी हाल में एक मिलती-जुलती पोस्ट भी थी
    “High-Performance AI on a Budget: Optimizing llama.cpp for Qwen3.5 Inference on a Dual-GPU HP Z440”
    https://news.ycombinator.com/item?id=47320244

  • हैरानी की बात है कि Itanium भी LLM के लिए काफ़ी उपयुक्त लगता है: https://medium.com/@tglozar/running-llama-inference-on-intel...
    सोचें तो यह बात समझ में आती है

 
cronex 1 시간 전

कंटेंट काफ़ी दिलचस्प है। मेरे पास एक पुराना Xeon सिस्टम है, इसे एक बार आज़माना पड़ेगा।