DS4 के बारे में कुछ बातें
(antirez.com)- Metal के लिए DeepSeek V4 Flash लोकल inference इंजन DwarfStar 4 उम्मीद से ज़्यादा तेज़ी से फैला और single-model केंद्रित लोकल AI अनुभव की मांग को उजागर किया
- तेज़ प्रसार की वजह DeepSeek v4 Flash जैसे quasi-frontier model का आना, उसकी performance और speed, और 2/8-bit की मज़बूत asymmetric quantization का मेल था, जिससे सिर्फ 96GB या 128GB RAM पर भी मॉडल चलाना संभव हुआ
- DS4 किसी एक खास मॉडल से बंधा प्रोजेक्ट नहीं है, बल्कि GPU in a box डिवाइसों पर तेज़ और आधुनिक open-weight models को केंद्र में रखना चाहता है
- लोकल inference में सवाल के अनुसार ds4-coding, ds4-legal, ds4-medical जैसे specialized models को बुलाकर इस्तेमाल करने का तरीका सार्थक लगता है
- आगे का फोकस quality benchmarks, coding agents, घरेलू हार्डवेयर आधारित CI, अधिक porting, और serial·parallel distributed inference पर रहेगा
DS4 का तेज़ प्रसार और उसकी पृष्ठभूमि
- DwarfStar 4 ने उम्मीद से ज़्यादा तेज़ी से लोकप्रियता हासिल की और single-model integration पर केंद्रित लोकल AI अनुभव की मांग दिखाई
- तेज़ प्रसार में DeepSeek v4 Flash जैसे quasi-frontier model का आगमन, लोकल inference की तस्वीर बदल देने लायक performance और speed, और 2/8-bit की मज़बूत asymmetric quantization का संयोजन साथ काम करता दिखा
- इस संयोजन से सिर्फ 96GB या 128GB RAM के साथ भी मॉडल चलाना संभव हो गया
- पिछले कुछ वर्षों में जमा हुए लोकल AI आंदोलन के अनुभव ने DS4 के विकास की गति को प्रभावित किया, और GPT 5.5 की मदद के बिना इसे एक हफ़्ते में बनाना मुश्किल होता
- पहला हफ़्ता मज़ेदार था, लेकिन थकाने वाला भी; औसतन रोज़ 14 घंटे काम हुआ, और इसकी तीव्रता Redis के शुरुआती कुछ महीनों जैसी थी
आगे की दिशा
- DS4 कोई ऐसा प्रोजेक्ट नहीं है जो DeepSeek v4 Flash से शुरू होकर उसी पर खत्म हो जाए; समय के साथ इसका केंद्रीय मॉडल बदल सकता है
- लक्ष्य यह है कि high-performance Mac या DGX Spark जैसे “GPU in a box” डिवाइसों पर वास्तव में तेज़ चलने वाले नवीनतम open-weight models को DS4 के केंद्र में रखा जाए
- अगला उम्मीदवार नए checkpoint के रूप में जारी होने वाला DeepSeek v4 Flash है, और coding version या कानून·मेडिकल जैसे expert variants भी संभव हैं
- लोकल inference में सवाल के अनुसार ds4-coding, ds4-legal, ds4-medical जैसे models को बुलाकर इस्तेमाल करने का तरीका सार्थक दिखता है
- यह शायद पहली बार है कि Claude या GPT से पूछे जाने वाले गंभीर काम लोकल model को सौंपे जाने लगे हैं
- vector steering के ज़रिए LLM को कहीं अधिक स्वतंत्र रूप से इस्तेमाल करने का अनुभव भी संभव हुआ है, और DS4 छोटे लोकल models की तुलना में online frontier models के बहुत ज़्यादा करीब का अनुभव देता है
- शुरुआती कुछ अव्यवस्थित दिनों के बाद प्रोजेक्ट का ध्यान quality benchmarks, coding agents, घरेलू हार्डवेयर आधारित CI testing, अधिक porting, और distributed inference पर रहेगा
- distributed inference में serial और parallel दोनों तरीके शामिल हैं, और यह आगे का एक महत्वपूर्ण कार्यक्षेत्र बना हुआ है
- AI इतना महत्वपूर्ण तत्व है कि उसे सिर्फ एक service के रूप में उपलब्ध कराना पर्याप्त नहीं है
1 टिप्पणियां
Hacker News टिप्पणियाँ
DwarfStar4 एक छोटा LLM inference runtime है जो DeepSeek 4 चला सकता है, और ब्लॉग पोस्ट के अनुसार फिलहाल इसके लिए 96GB VRAM चाहिए
यह उन लोगों के लिए संदर्भ है जिन्हें पृष्ठभूमि जानकारी कम है :-)
शायद यह चले, लेकिन model layers को storage से लाते समय थोड़ा धीमा हो सकता है
यह जानने की बहुत उत्सुकता है कि coding के लिए ज़रूरी intelligence किस बिंदु पर “काफ़ी” हो जाएगी
एक समय ऐसा आ सकता है जब कम बुद्धिमान मॉडल को बस ज़्यादा देर तक समस्या पर लगाया जाए और वही नतीजा मिल जाए, और अगर मुझे बीच में दखल नहीं देना पड़े तो अंततः बात वही है
DeepSeek V4 Pro लगभग उस बिंदु के क़रीब लगता है, और Flash भी शायद वैसा हो
अगर हम उस बिंदु पर पहुँचते हैं, तो सोचता हूँ Anthropic का मौजूदा business model कितना हिल जाएगा
अब तक सबसे स्मार्ट मॉडल के लिए पैसे देना साफ़ तौर पर उचित था, लेकिन अब यह भी साफ़ लग रहा है कि इस विचार की growth headroom सीमित है
सवाल यह है कि कितनी runway बची है, और क्या Anthropic का enterprise·productivity दिशा में तेज़ी से फैलना इसी रुझान को पहले से देख लेने की वजह से है
यह सिर्फ़ ज़्यादा देर इंतज़ार करने वाली बात नहीं लगती
developer time, developer cost, AI cost, और developer productivity के बीच संतुलन का सवाल है
4.6 को देखें तो सामान्य enterprise के लिए यह cost tolerance की सीमा के क़रीब लगता है, इसलिए दूसरे variables को बदलना होगा
नतीजे ठीक-ठाक थे, लेकिन स्कोर Opus से काफ़ी नीचे था, और Deepseek की मौजूदा launch promotion pricing लगाने पर भी cost लगभग समान रही
यह cost structure दिलचस्प है, क्योंकि Sonnet और Opus में भी ऐसा देखा है, और जब खुद benchmark किया तो कुछ मॉडलों में pricing अच्छी दिखती है लेकिन वे इतने ज़्यादा tokens खपा देते हैं कि “ज़्यादा महंगे” मॉडल के बराबर cost पर पहुँच जाते हैं
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
प्रोग्रामर को इंतज़ार क्यों कराया जाए
ऐसा narrowly focused tool मिलना अच्छा लगा
supported backends में Metal मुख्य target है, और शुरुआत 96GB RAM MacBook से होती है
NVIDIA CUDA में DGX Spark पर ख़ास ध्यान है, और AMD ROCm केवल
rocmbranch में supported हैantirez के पास hardware तक सीधी पहुँच नहीं है, इसलिए उसे main से अलग रखा गया है, और ज़रूरत पड़ने पर community उसे rebase करती है
यह project llama.cpp और GGML के बिना अस्तित्व में नहीं होता, और इसमें यह भी कहा गया है कि acknowledgements section ज़रूर पढ़ें
लेकिन अभी system RAM offloading supported नहीं लगता[0]
इसलिए llama.cpp issue पर भी नज़र रखनी होगी[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
rocmbranch में supported है, तो सोच रहा हूँ क्या किसी ने इसे वास्तव में आज़माया हैइस thread में MacBook Pro की बहुत बात हो रही है, लेकिन मैं इसे 128GB unified memory वाले AMD Halo Strix पर आज़माना चाहूँगा
मैंने Mac Studio पर local network के ज़रिए Q4 version इस्तेमाल किया था और अनुभव अच्छा था
कई agents के साथ इस्तेमाल करते हुए एक बार तो यह इतना अच्छा काम कर रहा था कि पहली बार भूल गया कि यह local model है
लेकिन फिर भी शक है कि क्या सच में एक और agent की ज़रूरत है
मैंने इसे Pi के साथ चलाया, लेकिन Claude Code का system prompt prefill speed को देखते हुए बहुत भारी है, हालांकि नतीजे शानदार थे
OpenCode भी एक अच्छा विकल्प है
समझ नहीं आता कि खास Deepseek 4 के लिए एक और similar tool बनाने से वास्तव में अतिरिक्त लाभ होगा या नहीं
लेकिन अगर DS4 की मूल सोच को देखें, तो API agent को DSML syntax को JSON में translate करने जैसे अजीब काम करने पड़ते हैं, और इससे normalization या KV cache checkpointing जैसी समस्याएँ पैदा होती हैं
चाहे व्यवहार में ऐसा हो या न हो, एक ज़्यादा सामान्य विकल्प देना फिर भी मायने रखता है
यह भी समझ नहीं आता कि इस क्षेत्र में लोग ज़्यादा चीज़ें C/Go/Rust में लिखकर control, speed और कम dependencies क्यों नहीं लेना चाहते
TUI पक्ष में भी कल्पना की बहुत गुंजाइश है
ज़्यादातर projects बस पहले से देखी चीज़ों की नकल करते हैं, लेकिन उदाहरण के लिए 20 मिनट में ऐसा कुछ बनाया गया: https://x.com/antirez/status/2055190821373116619
अब code सस्ता हो गया है, और ideas की क़ीमत ज़्यादा बढ़ गई है
अब भी “क्या हमें एक और XYZ चाहिए?” जैसी सोच सही है या नहीं, इस पर भरोसा नहीं है
सिर्फ़ नए ideas explore करने के लिए भी यह क़ीमती हो सकता है
निजी तौर पर मुझे code के लिए JavaScript / Node ecosystem पसंद नहीं है, इसलिए जब नए TUI या agent workflows explore करता हूँ तो ज़्यादा आरामदायक tools के साथ नतीजे और iteration process दोनों अलग हो जाते हैं
यह एक inference API server देता है, और coding harness उससे जोड़ना होता है
अभी hardware की वजह से इसे इस्तेमाल नहीं कर सकता, लेकिन यह पसंद आया. मेरे पास सिर्फ़ 96GB वाला M2 Max है
यह भी समझ में आता है कि आम users या mass-market computers पर यह नहीं चलेगा, या और ख़राब लगेगा
इससे पुराने home computers याद आते हैं, जिन्हें personal computer बनने से पहले खिलौना समझा जाता था
मेरे मौजूदा hardware पर जो सबसे उपयोगी setup लगा, वह pi agent + llama.cpp + nemotron cascade-2 model है
यह 1M context तक जा सकता है, और hybrid architecture होने की वजह से code agent वाले 10K·50K·100K context depth पर 1/N² की तरह ढहता नहीं
कुछ दिन पहले विमान में बिना internet के भी pi agent को llama.cpp serving के साथ चला पाया, और लगभग 40~30 tokens/sec की गति पर यह किसी तरह उपयोगी था, जो काफ़ी मज़ेदार लगा
आम तौर पर API speed इसका लगभग दोगुना, यानी 60~80 tokens/sec होती है
inference के दौरान sensors ने 60W usage दिखाया, और battery शायद 3 घंटे से ज़्यादा नहीं टिकेगी
model size सिर्फ़ 30B होने से KV cache और दूसरे programs के लिए काफ़ी जगह बचती है, और उदार 8-bit quantization पर भी यह ठीक है
एक बार में केवल 3B active parameters वाला MoE A3B, पुराने M2 Max की क्षमता की ऊपरी सीमा जैसा लगता है
DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.ggufके साथ यह context सहित 96GB VRAM के भीतर आ जाता हैइसलिए अगर macOS डिफ़ॉल्ट रूप से OS या display के लिए कुछ GB RAM/VRAM न खा रहा हो, तो सिद्धांततः यह संभव होना चाहिए
कुछ सकारात्मक reports आई हैं
हाँ, M2 Max थोड़ा धीमा है
यह Claude के बहुत क़रीब लगा, जो चौंकाने वाला है
निश्चित रूप से काफ़ी धीमा है, लेकिन यह कितना ज़्यादा बेवकूफ़ है, यह साफ़ नहीं
दिलचस्प बात यह है कि imatrix quantization, OpenRouter के zdr inference backend द्वारा इस्तेमाल की जाने वाली किसी भी quantization से बेहतर लगती है
कल इसने यह भी पहचान लिया कि उसका अपना server process वही ख़ुद है, बिना मेरे बताए, और local model में मैंने यह पहली बार देखा
काफ़ी धीमा है, लेकिन मौजूदा promotion pricing पर खासकर कई गुना सस्ता पड़ता है
ऐसा नहीं लगता कि model-specific inference engine नया बनाने की वजह समझाई गई है
सीधे llama.cpp का इस्तेमाल किया जा सकता था, और वैसे भी बहुत लोग llama.cpp integration पर पहले से काम कर रहे हैं
यानी एक ही model पर बहुत मेहनत लग रही है, और अगर कोई बेहतर model आ गया तो यह जल्दी पुराना भी पड़ सकता है
कुछ चर्चाओं में लोग llama.cpp branch और ds4 दोनों में PR बना रहे हैं, इसलिए इस model पर development time लगाने वाली दुर्लभ प्रतिभा बिखर रही है
फिर भी ठीक है. लोग उस काम को llama.cpp में port कर देंगे और सबको फायदा होगा
ds4 का user experience भी शानदार है. validated model और अच्छी quantization पाना बहुत आसान है
llama.cpp में knobs बहुत ज़्यादा हैं, इसलिए वह काफ़ी हद तक बंजर ज़मीन में hacking जैसा महसूस होता है
यह सही है या नहीं, कुछ साल बाद पता चलेगा
अगर कोई उस project में support upstream करना चाहता है तो वह स्वतंत्र है, और code MIT license के तहत है
नए और छोटे projects ज़्यादा तेज़ी से आगे बढ़ सकते हैं
DeepSeekV4 Pro सच में एक सक्षम model है, और खासकर इसकी pricing को देखते हुए बहुत अच्छा है
मैं C में raylib के ऊपर 2.5D engine के साथ छेड़छाड़ कर रहा हूँ और DeepSeek को सहायक की तरह इस्तेमाल कर रहा हूँ
OpenaCode में इसका reasoning trace पारदर्शी रूप से दिखता है, और उस सोचने की प्रक्रिया को देखना हैरान करने वाला है
पढ़ने में यह बहुत लंबा होता है, लेकिन उसमें बेकार या निरर्थक हिस्सा नहीं था
DeepSeek अक्सर अपनी reasoning में वे assumptions चिन्हित कर देता था जिन पर मैंने सोचा नहीं था या जो ग़लत थीं, और अंतिम output में वह मेरी flawed request के अनुसार खुद को align भी कर लेता था
तब मुझे कहना पड़ता था, “रुको, तुमने भी ऐसा ही सोचा था न, वही सही है और ग़लती मेरी थी, तो उस पहलू को भी ध्यान में रखते हैं”
अच्छा होगा अगर इसे सिर्फ़ अपनी मशीन पर नहीं बल्कि client projects या cloud GPU पर भी चला सकें
cluster के बिना भी शक्तिशाली models को कुशलता से इस्तेमाल करने का मूल विचार कई business cases में अब भी लागू होता है
उम्मीद है यह तरीका batch mode में भी काम करेगा
अभी H200 पर smart voice agent के agentic tool calling के लिए MTP वाला 4-bit Qwen 3.6 27B सबसे अच्छे विकल्पों में से एक लगता है
अगर DS4 Flash 2-bit 80B, active 13B, और MTP architecture वाला है, तो क्या यह और तेज़, और स्मार्ट, और साथ ही ज़्यादा concurrent sequences की अनुमति दे सकता है?
यह खास 2-bit quantization काफ़ी महत्वपूर्ण लगती है
local models में performance और speed जिस तेज़ी से बढ़ रही है, चाहे उसे “intelligence” कहें या कुछ और, उससे सोचता हूँ कि इस क्षेत्र की growth rate और ceiling कहाँ है
क्या कुछ सालों में इस स्तर की intelligence और performance, उदाहरण के लिए, 16GB RAM पर भी संभव हो सकती है?
क्या हम यहाँ किसी नए तरह का Moore's law परिभाषित कर सकते हैं?
इसके लिए architecture innovation, hardware innovation, या quantization technique में किसी तरह की बड़ी breakthrough चाहिए
समस्या यह है कि जो parameters activate नहीं भी होते, वे भी memory में रहने चाहिए
mixture-of-experts models में भी parameters को RAM के अंदर-बाहर swap करना बहुत धीमा है
कौवे, इंसानों की तुलना में बहुत छोटे दिमाग़ के बावजूद, एक हद तक बुद्धिमत्ता दिखाते हैं, और सबसे कम बुद्धिमान इंसान तथा सबसे बुद्धिमान कौवे की problem-solving क्षमता में कुछ overlap भी है
इसलिए असली सवाल यह है कि वह चीज़ क्या है
Yann LeCun का मानना लगता है कि वह चीज़ है जिसे हम अभी world model कहते हैं
world model, भाषा जैसी structured data का नहीं बल्कि actions का prediction करता है
अगर आप यह अनुमान लगा सकते हैं कि कोई दुनिया कैसे काम करती है, तो सिद्धांततः कारण और परिणाम का अनुमान भी लगा सकते हैं
अगर cause-and-effect reasoning को भाषा के साथ जोड़ा जाए, तो शायद हम वास्तविक intelligence के क़रीब कुछ बना सकें
दिशा शायद उधर ही जा रही है
जब ऐसे system का prototype आएगा, तब यह भी बड़ा सवाल होगा कि वास्तव में उसे कितना data चाहिए
हमने पहले ही देख लिया है कि 1-bit quantization से छोटे किए गए LLM भी भाषा समझने में काफ़ी मज़बूत हो सकते हैं
मुझे यह अव्यावहारिक नहीं लगता कि आने वाले कुछ वर्षों में हम अपेक्षाकृत कम memory पर भी बहुत intelligent AI systems देखें