DS4 के बारे में कुछ बातें

(antirez.com)

1 पॉइंट द्वारा GN⁺ 5 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

DwarfStar 4 उम्मीद से ज़्यादा तेज़ी से फैला और इसने single-model केंद्रित local AI experience की मांग को उजागर किया
तेज़ प्रसार के पीछे DeepSeek v4 Flash और 2/8-बिट asymmetric quantization का योगदान रहा, जिससे 96GB या 128GB RAM पर इसे चलाना संभव हुआ
DS4 किसी एक खास मॉडल से बंधा प्रोजेक्ट नहीं है, बल्कि GPU in a box डिवाइसों पर तेज़, नवीनतम open-weight models को केंद्र में रखना चाहता है
local inference में सवाल के अनुसार ds4-coding, ds4-legal, ds4-medical जैसे विशेषज्ञ मॉडल बुलाकर इस्तेमाल करने का तरीका सार्थक लगता है
आगे का फोकस quality benchmarks, coding agents, घर के hardware पर आधारित CI, पोर्टिंग के विस्तार, और serial·parallel distributed inference पर होगा

DS4 का तेज़ प्रसार और उसकी पृष्ठभूमि

DwarfStar 4 ने उम्मीद से ज़्यादा तेज़ी से लोकप्रियता हासिल की, और single-model integration पर केंद्रित local AI experience की मांग को दिखाया
तेज़ प्रसार के पीछे DeepSeek v4 Flash जैसे quasi-frontier model का आगमन, local inference की तस्वीर बदल देने लायक बड़ा performance और speed, और 2/8-बिट की मजबूत asymmetric quantization का संयोजन साथ काम कर रहा था
इस संयोजन से सिर्फ 96GB या 128GB RAM के साथ भी मॉडल चलाना संभव हो गया
पिछले कुछ वर्षों में जमा हुए local AI movement के अनुभव ने DS4 के development speed को प्रभावित किया, और GPT 5.5 की मदद न होती तो इसे 1 हफ़्ते में बनाना मुश्किल होता
पहला हफ़्ता मज़ेदार था, लेकिन थकाने वाला भी; औसतन रोज़ 14 घंटे काम किया गया, और इसकी तीव्रता Redis के शुरुआती कुछ महीनों जैसी थी

आगे की दिशा

DS4 ऐसा प्रोजेक्ट नहीं है जो DeepSeek v4 Flash से शुरू होकर उसी पर खत्म हो जाए; समय के साथ इसका केंद्रीय मॉडल बदल सकता है
लक्ष्य यह है कि high-performance Mac या DGX Spark जैसे “GPU in a box” डिवाइसों पर वास्तव में तेज़ चलने वाले नवीनतम open-weight models को DS4 के केंद्र में रखा जाए
अगला उम्मीदवार नए checkpoint के रूप में जारी होने वाला DeepSeek v4 Flash है, और coding version या legal·medical जैसे expert variant models भी संभव हैं
local inference में सवाल के अनुसार ds4-coding, ds4-legal, ds4-medical जैसे मॉडल बुलाकर इस्तेमाल करने का तरीका सार्थक लगता है
इसे पहली बार माना जा सकता है कि जो गंभीर काम अब तक Claude या GPT से पूछा जाता था, उसे local model को सौंपा जा रहा है
vector steering के जरिए LLM को और अधिक स्वतंत्रता से इस्तेमाल करने का अनुभव भी संभव हुआ है, और DS4 छोटे local models की तुलना में online frontier models के कहीं अधिक करीब का अनुभव देता है
शुरुआती कुछ अव्यवस्थित दिनों के बाद प्रोजेक्ट का फोकस quality benchmarks, coding agents, घर के hardware पर आधारित CI testing, अधिक porting, और distributed inference पर रहेगा
distributed inference में serial और parallel दोनों तरीके शामिल हैं, और यह आगे के लिए एक महत्वपूर्ण कार्य बना हुआ है
AI सिर्फ एक साधारण सेवा के रूप में छोड़ देने के लिए बहुत अधिक महत्वपूर्ण है

1 टिप्पणियां

GN⁺ 5 시간 전

Hacker News टिप्पणियाँ

DwarfStar4 एक छोटा LLM inference runtime है जो DeepSeek 4 चला सकता है, और ब्लॉग पोस्ट के अनुसार फिलहाल इसके लिए 96GB VRAM चाहिए
यह उन लोगों के लिए संदर्भ है जिन्हें पृष्ठभूमि जानकारी कम है :-)
- यह पूरा मॉडल नहीं बल्कि Flash version है, और quantization भी लगभग Q2~Q3 स्तर की है, इसलिए प्रभावशाली होने के बावजूद यह पूरे मॉडल से काफ़ी अलग है
- इसमें 96GB VRAM की ज़रूरत बताई गई है, तो सोच रहा हूँ क्या किसी ने इसे कम RAM वाले Mac पर चलाकर देखा है
  शायद यह चले, लेकिन model layers को storage से लाते समय थोड़ा धीमा हो सकता है
- सोच रहा हूँ कि DwarfStar4, llama.cpp से कैसे अलग है
यह जानने की बहुत उत्सुकता है कि coding के लिए ज़रूरी intelligence किस बिंदु पर “काफ़ी” हो जाएगी
एक समय ऐसा आ सकता है जब कम बुद्धिमान मॉडल को बस ज़्यादा देर तक समस्या पर लगाया जाए और वही नतीजा मिल जाए, और अगर मुझे बीच में दखल नहीं देना पड़े तो अंततः बात वही है
DeepSeek V4 Pro लगभग उस बिंदु के क़रीब लगता है, और Flash भी शायद वैसा हो
अगर हम उस बिंदु पर पहुँचते हैं, तो सोचता हूँ Anthropic का मौजूदा business model कितना हिल जाएगा
अब तक सबसे स्मार्ट मॉडल के लिए पैसे देना साफ़ तौर पर उचित था, लेकिन अब यह भी साफ़ लग रहा है कि इस विचार की growth headroom सीमित है
सवाल यह है कि कितनी runway बची है, और क्या Anthropic का enterprise·productivity दिशा में तेज़ी से फैलना इसी रुझान को पहले से देख लेने की वजह से है
- ज़्यादा स्मार्ट मॉडल कई बार वे काम सीधे कर देते हैं जो छोटे मॉडल नहीं कर पाते
  यह सिर्फ़ ज़्यादा देर इंतज़ार करने वाली बात नहीं लगती
- आख़िर में बात हमेशा cost पर आएगी
  developer time, developer cost, AI cost, और developer productivity के बीच संतुलन का सवाल है
  4.6 को देखें तो सामान्य enterprise के लिए यह cost tolerance की सीमा के क़रीब लगता है, इसलिए दूसरे variables को बदलना होगा
- open source coding agent Kilo ने Deepseek v4 Pro और Flash की तुलना Opus 4.7, Kimi K2 से की है[1]
  नतीजे ठीक-ठाक थे, लेकिन स्कोर Opus से काफ़ी नीचे था, और Deepseek की मौजूदा launch promotion pricing लगाने पर भी cost लगभग समान रही
  यह cost structure दिलचस्प है, क्योंकि Sonnet और Opus में भी ऐसा देखा है, और जब खुद benchmark किया तो कुछ मॉडलों में pricing अच्छी दिखती है लेकिन वे इतने ज़्यादा tokens खपा देते हैं कि “ज़्यादा महंगे” मॉडल के बराबर cost पर पहुँच जाते हैं
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- hobby programmers के लिए यह काफ़ी जल्दी good enough स्तर पर पहुँच जाएगा, लेकिन enterprise शायद फिर भी तेज़ और ज़्यादा स्मार्ट मॉडल के लिए पैसे देंगे
  प्रोग्रामर को इंतज़ार क्यों कराया जाए
ऐसा narrowly focused tool मिलना अच्छा लगा
supported backends में Metal मुख्य target है, और शुरुआत 96GB RAM MacBook से होती है
NVIDIA CUDA में DGX Spark पर ख़ास ध्यान है, और AMD ROCm केवल rocm branch में supported है
antirez के पास hardware तक सीधी पहुँच नहीं है, इसलिए उसे main से अलग रखा गया है, और ज़रूरत पड़ने पर community उसे rebase करती है
यह project llama.cpp और GGML के बिना अस्तित्व में नहीं होता, और इसमें यह भी कहा गया है कि acknowledgements section ज़रूर पढ़ें
लेकिन अभी system RAM offloading supported नहीं लगता[0]
इसलिए llama.cpp issue पर भी नज़र रखनी होगी[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- AMD ROCm केवल rocm branch में supported है, तो सोच रहा हूँ क्या किसी ने इसे वास्तव में आज़माया है
  इस thread में MacBook Pro की बहुत बात हो रही है, लेकिन मैं इसे 128GB unified memory वाले AMD Halo Strix पर आज़माना चाहूँगा
- काश मैं अभी भी इतनी RAM वाला Mac खरीद पाता
मैंने Mac Studio पर local network के ज़रिए Q4 version इस्तेमाल किया था और अनुभव अच्छा था
कई agents के साथ इस्तेमाल करते हुए एक बार तो यह इतना अच्छा काम कर रहा था कि पहली बार भूल गया कि यह local model है
लेकिन फिर भी शक है कि क्या सच में एक और agent की ज़रूरत है
मैंने इसे Pi के साथ चलाया, लेकिन Claude Code का system prompt prefill speed को देखते हुए बहुत भारी है, हालांकि नतीजे शानदार थे
OpenCode भी एक अच्छा विकल्प है
समझ नहीं आता कि खास Deepseek 4 के लिए एक और similar tool बनाने से वास्तव में अतिरिक्त लाभ होगा या नहीं
- feature के हिसाब से किसी और agent की ज़रूरत नहीं है
  लेकिन अगर DS4 की मूल सोच को देखें, तो API agent को DSML syntax को JSON में translate करने जैसे अजीब काम करने पड़ते हैं, और इससे normalization या KV cache checkpointing जैसी समस्याएँ पैदा होती हैं
  चाहे व्यवहार में ऐसा हो या न हो, एक ज़्यादा सामान्य विकल्प देना फिर भी मायने रखता है
  यह भी समझ नहीं आता कि इस क्षेत्र में लोग ज़्यादा चीज़ें C/Go/Rust में लिखकर control, speed और कम dependencies क्यों नहीं लेना चाहते
  TUI पक्ष में भी कल्पना की बहुत गुंजाइश है
  ज़्यादातर projects बस पहले से देखी चीज़ों की नकल करते हैं, लेकिन उदाहरण के लिए 20 मिनट में ऐसा कुछ बनाया गया: https://x.com/antirez/status/2055190821373116619
  अब code सस्ता हो गया है, और ideas की क़ीमत ज़्यादा बढ़ गई है
  अब भी “क्या हमें एक और XYZ चाहिए?” जैसी सोच सही है या नहीं, इस पर भरोसा नहीं है
  सिर्फ़ नए ideas explore करने के लिए भी यह क़ीमती हो सकता है
  निजी तौर पर मुझे code के लिए JavaScript / Node ecosystem पसंद नहीं है, इसलिए जब नए TUI या agent workflows explore करता हूँ तो ज़्यादा आरामदायक tools के साथ नतीजे और iteration process दोनों अलग हो जाते हैं
- DS4 एक inference engine है, execution harness नहीं
  यह एक inference API server देता है, और coding harness उससे जोड़ना होता है
अभी hardware की वजह से इसे इस्तेमाल नहीं कर सकता, लेकिन यह पसंद आया. मेरे पास सिर्फ़ 96GB वाला M2 Max है
यह भी समझ में आता है कि आम users या mass-market computers पर यह नहीं चलेगा, या और ख़राब लगेगा
इससे पुराने home computers याद आते हैं, जिन्हें personal computer बनने से पहले खिलौना समझा जाता था
मेरे मौजूदा hardware पर जो सबसे उपयोगी setup लगा, वह pi agent + llama.cpp + nemotron cascade-2 model है
यह 1M context तक जा सकता है, और hybrid architecture होने की वजह से code agent वाले 10K·50K·100K context depth पर 1/N² की तरह ढहता नहीं
कुछ दिन पहले विमान में बिना internet के भी pi agent को llama.cpp serving के साथ चला पाया, और लगभग 40~30 tokens/sec की गति पर यह किसी तरह उपयोगी था, जो काफ़ी मज़ेदार लगा
आम तौर पर API speed इसका लगभग दोगुना, यानी 60~80 tokens/sec होती है
inference के दौरान sensors ने 60W usage दिखाया, और battery शायद 3 घंटे से ज़्यादा नहीं टिकेगी
model size सिर्फ़ 30B होने से KV cache और दूसरे programs के लिए काफ़ी जगह बचती है, और उदार 8-bit quantization पर भी यह ठीक है
एक बार में केवल 3B active parameters वाला MoE A3B, पुराने M2 Max की क्षमता की ऊपरी सीमा जैसा लगता है
- पता नहीं macOS पर यह अलग तरह से behave करता है या नहीं, लेकिन CUDA और DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf के साथ यह context सहित 96GB VRAM के भीतर आ जाता है
  इसलिए अगर macOS डिफ़ॉल्ट रूप से OS या display के लिए कुछ GB RAM/VRAM न खा रहा हो, तो सिद्धांततः यह संभव होना चाहिए
- लगता है उस कंप्यूटर पर भी यह चलना चाहिए
  कुछ सकारात्मक reports आई हैं
- 96GB हो तो खासकर सीमित context में यह चलना चाहिए
  हाँ, M2 Max थोड़ा धीमा है
यह Claude के बहुत क़रीब लगा, जो चौंकाने वाला है
निश्चित रूप से काफ़ी धीमा है, लेकिन यह कितना ज़्यादा बेवकूफ़ है, यह साफ़ नहीं
दिलचस्प बात यह है कि imatrix quantization, OpenRouter के zdr inference backend द्वारा इस्तेमाल की जाने वाली किसी भी quantization से बेहतर लगती है
कल इसने यह भी पहचान लिया कि उसका अपना server process वही ख़ुद है, बिना मेरे बताए, और local model में मैंने यह पहली बार देखा
- जानना चाहूँगा कि आपने कौन-सा prompt दिया था
- यह स्पष्ट रूप से anecdotal test है, लेकिन coding में DeepseekV4 Pro, Sonnet से बेहतर लगा
  काफ़ी धीमा है, लेकिन मौजूदा promotion pricing पर खासकर कई गुना सस्ता पड़ता है
ऐसा नहीं लगता कि model-specific inference engine नया बनाने की वजह समझाई गई है
सीधे llama.cpp का इस्तेमाल किया जा सकता था, और वैसे भी बहुत लोग llama.cpp integration पर पहले से काम कर रहे हैं
यानी एक ही model पर बहुत मेहनत लग रही है, और अगर कोई बेहतर model आ गया तो यह जल्दी पुराना भी पड़ सकता है
कुछ चर्चाओं में लोग llama.cpp branch और ds4 दोनों में PR बना रहे हैं, इसलिए इस model पर development time लगाने वाली दुर्लभ प्रतिभा बिखर रही है
- जिस mature और झंझट वाले C++ codebase पर आपका मालिकाना नहीं है, उसकी तुलना में अपने खुद के केंद्रित C codebase पर काम करना कहीं आसान है
  फिर भी ठीक है. लोग उस काम को llama.cpp में port कर देंगे और सबको फायदा होगा
  ds4 का user experience भी शानदार है. validated model और अच्छी quantization पाना बहुत आसान है
  llama.cpp में knobs बहुत ज़्यादा हैं, इसलिए वह काफ़ी हद तक बंजर ज़मीन में hacking जैसा महसूस होता है
- लगता है मूल धारणा यह है कि “code सस्ता है, collaboration, जैसे upstream merge, महँगा है”
  यह सही है या नहीं, कुछ साल बाद पता चलेगा
- जैसा author ने कई बार कहा है, llama.cpp maintainers नहीं चाहते कि बिना human review के AI-generated code वहाँ बड़े पैमाने पर आए
  अगर कोई उस project में support upstream करना चाहता है तो वह स्वतंत्र है, और code MIT license के तहत है
- एक बिंदु के बाद llama.cpp या Linux जैसे बड़े और flexible projects के लिए ज़रूरी abstraction·generalization का स्तर file count को बहुत बढ़ा देता है
  नए और छोटे projects ज़्यादा तेज़ी से आगे बढ़ सकते हैं
DeepSeekV4 Pro सच में एक सक्षम model है, और खासकर इसकी pricing को देखते हुए बहुत अच्छा है
मैं C में raylib के ऊपर 2.5D engine के साथ छेड़छाड़ कर रहा हूँ और DeepSeek को सहायक की तरह इस्तेमाल कर रहा हूँ
OpenaCode में इसका reasoning trace पारदर्शी रूप से दिखता है, और उस सोचने की प्रक्रिया को देखना हैरान करने वाला है
पढ़ने में यह बहुत लंबा होता है, लेकिन उसमें बेकार या निरर्थक हिस्सा नहीं था
DeepSeek अक्सर अपनी reasoning में वे assumptions चिन्हित कर देता था जिन पर मैंने सोचा नहीं था या जो ग़लत थीं, और अंतिम output में वह मेरी flawed request के अनुसार खुद को align भी कर लेता था
तब मुझे कहना पड़ता था, “रुको, तुमने भी ऐसा ही सोचा था न, वही सही है और ग़लती मेरी थी, तो उस पहलू को भी ध्यान में रखते हैं”
अच्छा होगा अगर इसे सिर्फ़ अपनी मशीन पर नहीं बल्कि client projects या cloud GPU पर भी चला सकें
cluster के बिना भी शक्तिशाली models को कुशलता से इस्तेमाल करने का मूल विचार कई business cases में अब भी लागू होता है
उम्मीद है यह तरीका batch mode में भी काम करेगा
अभी H200 पर smart voice agent के agentic tool calling के लिए MTP वाला 4-bit Qwen 3.6 27B सबसे अच्छे विकल्पों में से एक लगता है
अगर DS4 Flash 2-bit 80B, active 13B, और MTP architecture वाला है, तो क्या यह और तेज़, और स्मार्ट, और साथ ही ज़्यादा concurrent sequences की अनुमति दे सकता है?
यह खास 2-bit quantization काफ़ी महत्वपूर्ण लगती है
local models में performance और speed जिस तेज़ी से बढ़ रही है, चाहे उसे “intelligence” कहें या कुछ और, उससे सोचता हूँ कि इस क्षेत्र की growth rate और ceiling कहाँ है
क्या कुछ सालों में इस स्तर की intelligence और performance, उदाहरण के लिए, 16GB RAM पर भी संभव हो सकती है?
क्या हम यहाँ किसी नए तरह का Moore's law परिभाषित कर सकते हैं?
- ऐसे models को, उनके ‘large model smell’ सहित, 16GB में ठूँसना ईमानदारी से कहूँ तो आज की तारीख़ में संभव नहीं है, या व्यावहारिक रूप से संभव नहीं है
  इसके लिए architecture innovation, hardware innovation, या quantization technique में किसी तरह की बड़ी breakthrough चाहिए
  समस्या यह है कि जो parameters activate नहीं भी होते, वे भी memory में रहने चाहिए
  mixture-of-experts models में भी parameters को RAM के अंदर-बाहर swap करना बहुत धीमा है
- लगता है कि इस क्षेत्र की अग्रिम पंक्ति में काम करने वाले लोग अलग-अलग समस्याएँ हल करने वाले parallel models की ज़रूरत देखते हैं
  कौवे, इंसानों की तुलना में बहुत छोटे दिमाग़ के बावजूद, एक हद तक बुद्धिमत्ता दिखाते हैं, और सबसे कम बुद्धिमान इंसान तथा सबसे बुद्धिमान कौवे की problem-solving क्षमता में कुछ overlap भी है
  इसलिए असली सवाल यह है कि वह चीज़ क्या है
  Yann LeCun का मानना लगता है कि वह चीज़ है जिसे हम अभी world model कहते हैं
  world model, भाषा जैसी structured data का नहीं बल्कि actions का prediction करता है
  अगर आप यह अनुमान लगा सकते हैं कि कोई दुनिया कैसे काम करती है, तो सिद्धांततः कारण और परिणाम का अनुमान भी लगा सकते हैं
  अगर cause-and-effect reasoning को भाषा के साथ जोड़ा जाए, तो शायद हम वास्तविक intelligence के क़रीब कुछ बना सकें
  दिशा शायद उधर ही जा रही है
  जब ऐसे system का prototype आएगा, तब यह भी बड़ा सवाल होगा कि वास्तव में उसे कितना data चाहिए
  हमने पहले ही देख लिया है कि 1-bit quantization से छोटे किए गए LLM भी भाषा समझने में काफ़ी मज़बूत हो सकते हैं
  मुझे यह अव्यावहारिक नहीं लगता कि आने वाले कुछ वर्षों में हम अपेक्षाकृत कम memory पर भी बहुत intelligent AI systems देखें

DS4 के बारे में कुछ बातें

DS4 का तेज़ प्रसार और उसकी पृष्ठभूमि

आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ