- DwarfStar 4 उम्मीद से ज़्यादा तेज़ी से फैला और इसने single-model केंद्रित local AI experience की मांग को उजागर किया
- तेज़ प्रसार के पीछे DeepSeek v4 Flash और 2/8-बिट asymmetric quantization का योगदान रहा, जिससे 96GB या 128GB RAM पर इसे चलाना संभव हुआ
- DS4 किसी एक खास मॉडल से बंधा प्रोजेक्ट नहीं है, बल्कि GPU in a box डिवाइसों पर तेज़, नवीनतम open-weight models को केंद्र में रखना चाहता है
- local inference में सवाल के अनुसार ds4-coding, ds4-legal, ds4-medical जैसे विशेषज्ञ मॉडल बुलाकर इस्तेमाल करने का तरीका सार्थक लगता है
- आगे का फोकस quality benchmarks, coding agents, घर के hardware पर आधारित CI, पोर्टिंग के विस्तार, और serial·parallel distributed inference पर होगा
DS4 का तेज़ प्रसार और उसकी पृष्ठभूमि
- DwarfStar 4 ने उम्मीद से ज़्यादा तेज़ी से लोकप्रियता हासिल की, और single-model integration पर केंद्रित local AI experience की मांग को दिखाया
- तेज़ प्रसार के पीछे DeepSeek v4 Flash जैसे quasi-frontier model का आगमन, local inference की तस्वीर बदल देने लायक बड़ा performance और speed, और 2/8-बिट की मजबूत asymmetric quantization का संयोजन साथ काम कर रहा था
- इस संयोजन से सिर्फ 96GB या 128GB RAM के साथ भी मॉडल चलाना संभव हो गया
- पिछले कुछ वर्षों में जमा हुए local AI movement के अनुभव ने DS4 के development speed को प्रभावित किया, और GPT 5.5 की मदद न होती तो इसे 1 हफ़्ते में बनाना मुश्किल होता
- पहला हफ़्ता मज़ेदार था, लेकिन थकाने वाला भी; औसतन रोज़ 14 घंटे काम किया गया, और इसकी तीव्रता Redis के शुरुआती कुछ महीनों जैसी थी
आगे की दिशा
- DS4 ऐसा प्रोजेक्ट नहीं है जो DeepSeek v4 Flash से शुरू होकर उसी पर खत्म हो जाए; समय के साथ इसका केंद्रीय मॉडल बदल सकता है
- लक्ष्य यह है कि high-performance Mac या DGX Spark जैसे “GPU in a box” डिवाइसों पर वास्तव में तेज़ चलने वाले नवीनतम open-weight models को DS4 के केंद्र में रखा जाए
- अगला उम्मीदवार नए checkpoint के रूप में जारी होने वाला DeepSeek v4 Flash है, और coding version या legal·medical जैसे expert variant models भी संभव हैं
- local inference में सवाल के अनुसार ds4-coding, ds4-legal, ds4-medical जैसे मॉडल बुलाकर इस्तेमाल करने का तरीका सार्थक लगता है
- इसे पहली बार माना जा सकता है कि जो गंभीर काम अब तक Claude या GPT से पूछा जाता था, उसे local model को सौंपा जा रहा है
- vector steering के जरिए LLM को और अधिक स्वतंत्रता से इस्तेमाल करने का अनुभव भी संभव हुआ है, और DS4 छोटे local models की तुलना में online frontier models के कहीं अधिक करीब का अनुभव देता है
- शुरुआती कुछ अव्यवस्थित दिनों के बाद प्रोजेक्ट का फोकस quality benchmarks, coding agents, घर के hardware पर आधारित CI testing, अधिक porting, और distributed inference पर रहेगा
- distributed inference में serial और parallel दोनों तरीके शामिल हैं, और यह आगे के लिए एक महत्वपूर्ण कार्य बना हुआ है
- AI सिर्फ एक साधारण सेवा के रूप में छोड़ देने के लिए बहुत अधिक महत्वपूर्ण है
1 टिप्पणियां
Hacker News टिप्पणियाँ
DwarfStar4 एक छोटा LLM inference runtime है जो DeepSeek 4 चला सकता है, और ब्लॉग पोस्ट के अनुसार फिलहाल इसके लिए 96GB VRAM चाहिए
यह उन लोगों के लिए संदर्भ है जिन्हें पृष्ठभूमि जानकारी कम है :-)
शायद यह चले, लेकिन model layers को storage से लाते समय थोड़ा धीमा हो सकता है
यह जानने की बहुत उत्सुकता है कि coding के लिए ज़रूरी intelligence किस बिंदु पर “काफ़ी” हो जाएगी
एक समय ऐसा आ सकता है जब कम बुद्धिमान मॉडल को बस ज़्यादा देर तक समस्या पर लगाया जाए और वही नतीजा मिल जाए, और अगर मुझे बीच में दखल नहीं देना पड़े तो अंततः बात वही है
DeepSeek V4 Pro लगभग उस बिंदु के क़रीब लगता है, और Flash भी शायद वैसा हो
अगर हम उस बिंदु पर पहुँचते हैं, तो सोचता हूँ Anthropic का मौजूदा business model कितना हिल जाएगा
अब तक सबसे स्मार्ट मॉडल के लिए पैसे देना साफ़ तौर पर उचित था, लेकिन अब यह भी साफ़ लग रहा है कि इस विचार की growth headroom सीमित है
सवाल यह है कि कितनी runway बची है, और क्या Anthropic का enterprise·productivity दिशा में तेज़ी से फैलना इसी रुझान को पहले से देख लेने की वजह से है
यह सिर्फ़ ज़्यादा देर इंतज़ार करने वाली बात नहीं लगती
developer time, developer cost, AI cost, और developer productivity के बीच संतुलन का सवाल है
4.6 को देखें तो सामान्य enterprise के लिए यह cost tolerance की सीमा के क़रीब लगता है, इसलिए दूसरे variables को बदलना होगा
नतीजे ठीक-ठाक थे, लेकिन स्कोर Opus से काफ़ी नीचे था, और Deepseek की मौजूदा launch promotion pricing लगाने पर भी cost लगभग समान रही
यह cost structure दिलचस्प है, क्योंकि Sonnet और Opus में भी ऐसा देखा है, और जब खुद benchmark किया तो कुछ मॉडलों में pricing अच्छी दिखती है लेकिन वे इतने ज़्यादा tokens खपा देते हैं कि “ज़्यादा महंगे” मॉडल के बराबर cost पर पहुँच जाते हैं
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
प्रोग्रामर को इंतज़ार क्यों कराया जाए
ऐसा narrowly focused tool मिलना अच्छा लगा
supported backends में Metal मुख्य target है, और शुरुआत 96GB RAM MacBook से होती है
NVIDIA CUDA में DGX Spark पर ख़ास ध्यान है, और AMD ROCm केवल
rocmbranch में supported हैantirez के पास hardware तक सीधी पहुँच नहीं है, इसलिए उसे main से अलग रखा गया है, और ज़रूरत पड़ने पर community उसे rebase करती है
यह project llama.cpp और GGML के बिना अस्तित्व में नहीं होता, और इसमें यह भी कहा गया है कि acknowledgements section ज़रूर पढ़ें
लेकिन अभी system RAM offloading supported नहीं लगता[0]
इसलिए llama.cpp issue पर भी नज़र रखनी होगी[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocmbranch में supported है, तो सोच रहा हूँ क्या किसी ने इसे वास्तव में आज़माया हैइस thread में MacBook Pro की बहुत बात हो रही है, लेकिन मैं इसे 128GB unified memory वाले AMD Halo Strix पर आज़माना चाहूँगा
मैंने Mac Studio पर local network के ज़रिए Q4 version इस्तेमाल किया था और अनुभव अच्छा था
कई agents के साथ इस्तेमाल करते हुए एक बार तो यह इतना अच्छा काम कर रहा था कि पहली बार भूल गया कि यह local model है
लेकिन फिर भी शक है कि क्या सच में एक और agent की ज़रूरत है
मैंने इसे Pi के साथ चलाया, लेकिन Claude Code का system prompt prefill speed को देखते हुए बहुत भारी है, हालांकि नतीजे शानदार थे
OpenCode भी एक अच्छा विकल्प है
समझ नहीं आता कि खास Deepseek 4 के लिए एक और similar tool बनाने से वास्तव में अतिरिक्त लाभ होगा या नहीं
लेकिन अगर DS4 की मूल सोच को देखें, तो API agent को DSML syntax को JSON में translate करने जैसे अजीब काम करने पड़ते हैं, और इससे normalization या KV cache checkpointing जैसी समस्याएँ पैदा होती हैं
चाहे व्यवहार में ऐसा हो या न हो, एक ज़्यादा सामान्य विकल्प देना फिर भी मायने रखता है
यह भी समझ नहीं आता कि इस क्षेत्र में लोग ज़्यादा चीज़ें C/Go/Rust में लिखकर control, speed और कम dependencies क्यों नहीं लेना चाहते
TUI पक्ष में भी कल्पना की बहुत गुंजाइश है
ज़्यादातर projects बस पहले से देखी चीज़ों की नकल करते हैं, लेकिन उदाहरण के लिए 20 मिनट में ऐसा कुछ बनाया गया: https://x.com/antirez/status/2055190821373116619
अब code सस्ता हो गया है, और ideas की क़ीमत ज़्यादा बढ़ गई है
अब भी “क्या हमें एक और XYZ चाहिए?” जैसी सोच सही है या नहीं, इस पर भरोसा नहीं है
सिर्फ़ नए ideas explore करने के लिए भी यह क़ीमती हो सकता है
निजी तौर पर मुझे code के लिए JavaScript / Node ecosystem पसंद नहीं है, इसलिए जब नए TUI या agent workflows explore करता हूँ तो ज़्यादा आरामदायक tools के साथ नतीजे और iteration process दोनों अलग हो जाते हैं
यह एक inference API server देता है, और coding harness उससे जोड़ना होता है
अभी hardware की वजह से इसे इस्तेमाल नहीं कर सकता, लेकिन यह पसंद आया. मेरे पास सिर्फ़ 96GB वाला M2 Max है
यह भी समझ में आता है कि आम users या mass-market computers पर यह नहीं चलेगा, या और ख़राब लगेगा
इससे पुराने home computers याद आते हैं, जिन्हें personal computer बनने से पहले खिलौना समझा जाता था
मेरे मौजूदा hardware पर जो सबसे उपयोगी setup लगा, वह pi agent + llama.cpp + nemotron cascade-2 model है
यह 1M context तक जा सकता है, और hybrid architecture होने की वजह से code agent वाले 10K·50K·100K context depth पर 1/N² की तरह ढहता नहीं
कुछ दिन पहले विमान में बिना internet के भी pi agent को llama.cpp serving के साथ चला पाया, और लगभग 40~30 tokens/sec की गति पर यह किसी तरह उपयोगी था, जो काफ़ी मज़ेदार लगा
आम तौर पर API speed इसका लगभग दोगुना, यानी 60~80 tokens/sec होती है
inference के दौरान sensors ने 60W usage दिखाया, और battery शायद 3 घंटे से ज़्यादा नहीं टिकेगी
model size सिर्फ़ 30B होने से KV cache और दूसरे programs के लिए काफ़ी जगह बचती है, और उदार 8-bit quantization पर भी यह ठीक है
एक बार में केवल 3B active parameters वाला MoE A3B, पुराने M2 Max की क्षमता की ऊपरी सीमा जैसा लगता है
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.ggufके साथ यह context सहित 96GB VRAM के भीतर आ जाता हैइसलिए अगर macOS डिफ़ॉल्ट रूप से OS या display के लिए कुछ GB RAM/VRAM न खा रहा हो, तो सिद्धांततः यह संभव होना चाहिए
कुछ सकारात्मक reports आई हैं
हाँ, M2 Max थोड़ा धीमा है
यह Claude के बहुत क़रीब लगा, जो चौंकाने वाला है
निश्चित रूप से काफ़ी धीमा है, लेकिन यह कितना ज़्यादा बेवकूफ़ है, यह साफ़ नहीं
दिलचस्प बात यह है कि imatrix quantization, OpenRouter के zdr inference backend द्वारा इस्तेमाल की जाने वाली किसी भी quantization से बेहतर लगती है
कल इसने यह भी पहचान लिया कि उसका अपना server process वही ख़ुद है, बिना मेरे बताए, और local model में मैंने यह पहली बार देखा
काफ़ी धीमा है, लेकिन मौजूदा promotion pricing पर खासकर कई गुना सस्ता पड़ता है
ऐसा नहीं लगता कि model-specific inference engine नया बनाने की वजह समझाई गई है
सीधे llama.cpp का इस्तेमाल किया जा सकता था, और वैसे भी बहुत लोग llama.cpp integration पर पहले से काम कर रहे हैं
यानी एक ही model पर बहुत मेहनत लग रही है, और अगर कोई बेहतर model आ गया तो यह जल्दी पुराना भी पड़ सकता है
कुछ चर्चाओं में लोग llama.cpp branch और ds4 दोनों में PR बना रहे हैं, इसलिए इस model पर development time लगाने वाली दुर्लभ प्रतिभा बिखर रही है
फिर भी ठीक है. लोग उस काम को llama.cpp में port कर देंगे और सबको फायदा होगा
ds4 का user experience भी शानदार है. validated model और अच्छी quantization पाना बहुत आसान है
llama.cpp में knobs बहुत ज़्यादा हैं, इसलिए वह काफ़ी हद तक बंजर ज़मीन में hacking जैसा महसूस होता है
यह सही है या नहीं, कुछ साल बाद पता चलेगा
अगर कोई उस project में support upstream करना चाहता है तो वह स्वतंत्र है, और code MIT license के तहत है
नए और छोटे projects ज़्यादा तेज़ी से आगे बढ़ सकते हैं
DeepSeekV4 Pro सच में एक सक्षम model है, और खासकर इसकी pricing को देखते हुए बहुत अच्छा है
मैं C में raylib के ऊपर 2.5D engine के साथ छेड़छाड़ कर रहा हूँ और DeepSeek को सहायक की तरह इस्तेमाल कर रहा हूँ
OpenaCode में इसका reasoning trace पारदर्शी रूप से दिखता है, और उस सोचने की प्रक्रिया को देखना हैरान करने वाला है
पढ़ने में यह बहुत लंबा होता है, लेकिन उसमें बेकार या निरर्थक हिस्सा नहीं था
DeepSeek अक्सर अपनी reasoning में वे assumptions चिन्हित कर देता था जिन पर मैंने सोचा नहीं था या जो ग़लत थीं, और अंतिम output में वह मेरी flawed request के अनुसार खुद को align भी कर लेता था
तब मुझे कहना पड़ता था, “रुको, तुमने भी ऐसा ही सोचा था न, वही सही है और ग़लती मेरी थी, तो उस पहलू को भी ध्यान में रखते हैं”
अच्छा होगा अगर इसे सिर्फ़ अपनी मशीन पर नहीं बल्कि client projects या cloud GPU पर भी चला सकें
cluster के बिना भी शक्तिशाली models को कुशलता से इस्तेमाल करने का मूल विचार कई business cases में अब भी लागू होता है
उम्मीद है यह तरीका batch mode में भी काम करेगा
अभी H200 पर smart voice agent के agentic tool calling के लिए MTP वाला 4-bit Qwen 3.6 27B सबसे अच्छे विकल्पों में से एक लगता है
अगर DS4 Flash 2-bit 80B, active 13B, और MTP architecture वाला है, तो क्या यह और तेज़, और स्मार्ट, और साथ ही ज़्यादा concurrent sequences की अनुमति दे सकता है?
यह खास 2-bit quantization काफ़ी महत्वपूर्ण लगती है
local models में performance और speed जिस तेज़ी से बढ़ रही है, चाहे उसे “intelligence” कहें या कुछ और, उससे सोचता हूँ कि इस क्षेत्र की growth rate और ceiling कहाँ है
क्या कुछ सालों में इस स्तर की intelligence और performance, उदाहरण के लिए, 16GB RAM पर भी संभव हो सकती है?
क्या हम यहाँ किसी नए तरह का Moore's law परिभाषित कर सकते हैं?
इसके लिए architecture innovation, hardware innovation, या quantization technique में किसी तरह की बड़ी breakthrough चाहिए
समस्या यह है कि जो parameters activate नहीं भी होते, वे भी memory में रहने चाहिए
mixture-of-experts models में भी parameters को RAM के अंदर-बाहर swap करना बहुत धीमा है
कौवे, इंसानों की तुलना में बहुत छोटे दिमाग़ के बावजूद, एक हद तक बुद्धिमत्ता दिखाते हैं, और सबसे कम बुद्धिमान इंसान तथा सबसे बुद्धिमान कौवे की problem-solving क्षमता में कुछ overlap भी है
इसलिए असली सवाल यह है कि वह चीज़ क्या है
Yann LeCun का मानना लगता है कि वह चीज़ है जिसे हम अभी world model कहते हैं
world model, भाषा जैसी structured data का नहीं बल्कि actions का prediction करता है
अगर आप यह अनुमान लगा सकते हैं कि कोई दुनिया कैसे काम करती है, तो सिद्धांततः कारण और परिणाम का अनुमान भी लगा सकते हैं
अगर cause-and-effect reasoning को भाषा के साथ जोड़ा जाए, तो शायद हम वास्तविक intelligence के क़रीब कुछ बना सकें
दिशा शायद उधर ही जा रही है
जब ऐसे system का prototype आएगा, तब यह भी बड़ा सवाल होगा कि वास्तव में उसे कितना data चाहिए
हमने पहले ही देख लिया है कि 1-bit quantization से छोटे किए गए LLM भी भाषा समझने में काफ़ी मज़बूत हो सकते हैं
मुझे यह अव्यावहारिक नहीं लगता कि आने वाले कुछ वर्षों में हम अपेक्षाकृत कम memory पर भी बहुत intelligent AI systems देखें