Darkbloom – निष्क्रिय Mac का उपयोग करने वाला व्यक्तिगत AI inference नेटवर्क

(darkbloom.dev)

1 पॉइंट द्वारा GN⁺ 15 일 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Darkbloom एक ऐसा नेटवर्क है जो निष्क्रिय Apple Silicon Mac को जोड़कर वितरित AI inference चलाता है, और केंद्रीय cloud के बिना व्यक्तिगत डिवाइसों पर AI computation को प्रोसेस करता है
मौजूदा GPU·cloud·API प्रदाताओं के बीच की तीन-स्तरीय margin संरचना को हटाकर अधिकतम 70% लागत बचत हासिल करता है
सभी अनुरोध end-to-end encryption के साथ भेजे जाते हैं, इसलिए ऑपरेटर उपयोगकर्ता डेटा नहीं देख सकते, और Apple security hardware-आधारित attestation chain से भरोसा सुनिश्चित किया जाता है
OpenAI-compatible API उपलब्ध है, जो chat, image generation, speech recognition आदि के लिए मौजूदा SDK के समान सुविधाएँ देता है
ऑपरेटर राजस्व का 95~100% बनाए रख सकते हैं, और निष्क्रिय Mac के जरिए बिजली खर्च के अलावा अतिरिक्त लागत के बिना USD आय कमा सकते हैं

निष्क्रिय Mac का उपयोग करने वाला व्यक्तिगत AI inference नेटवर्क

Darkbloom Eigen Labs द्वारा विकसित एक वितरित AI inference नेटवर्क है, जो निष्क्रिय Apple Silicon Mac को जोड़कर AI computation चलाता है
अभी AI computation बाजार में GPU निर्माता → hyperscaler → API प्रदाता → अंतिम उपयोगकर्ता जैसी तीन-स्तरीय margin संरचना है, और Darkbloom इसे हटाकर अधिकतम 70% लागत बचत संभव बनाता है
नेटवर्क ऑपरेटर उपयोगकर्ता डेटा नहीं देख सकते, और सभी अनुरोध end-to-end encryption के साथ प्रोसेस होते हैं
API OpenAI-compatible है, इसलिए यह मौजूदा SDK की तरह chat, image generation और speech recognition को सपोर्ट करता है
ऑपरेटर राजस्व का 95~100% बनाए रखते हैं, और बिजली खर्च के अलावा अतिरिक्त लागत लगभग नहीं है

उपयोगकर्ताओं के लिए सुविधाएँ

निष्क्रिय hardware की marginal cost लगभग 0 होने से कम हुई लागत सीधे उपयोगकर्ता कीमतों में दिखाई देती है
OpenAI-compatible API के जरिए chat, image generation और speech-to-text सुविधाएँ उपलब्ध हैं
सभी अनुरोध end-to-end encryption के साथ ट्रांसमिट होते हैं

hardware मालिकों के लिए सुविधाएँ

जिन उपयोगकर्ताओं के पास Apple Silicon Mac है, वे निष्क्रिय समय में AI inference चलाकर USD आय कमा सकते हैं
ऑपरेटर inference राजस्व का 100% रख सकते हैं, और बिजली लागत $0.01~$0.03 प्रति घंटा के स्तर पर है
बाकी राशि शुद्ध लाभ के रूप में रहती है

AI computation बाजार की संरचनात्मक समस्या

वर्तमान AI computation बाजार GPU निर्माता → cloud प्रदाता → AI कंपनी → अंतिम उपयोगकर्ता जैसी तीन-स्तरीय margin संरचना पर चलता है
इसके कारण अंतिम उपयोगकर्ता वास्तविक silicon लागत से 3 गुना से अधिक भुगतान करते हैं
दूसरी ओर, 10 करोड़ से अधिक Apple Silicon डिवाइस प्रतिदिन औसतन 18 घंटे से अधिक निष्क्रिय रहते हैं
इन निष्क्रिय computational संसाधनों को जोड़ने पर Airbnb या Uber की तरह वितरित asset उपयोग संभव हो जाता है
Darkbloom ऐसे निष्क्रिय Mac को AI inference node में बदलकर केंद्रीकृत infrastructure का विकल्प बनाता है

भरोसे की समस्या और समाधान की चुनौती

वितरित computation नेटवर्क की मुख्य समस्या विश्वसनीयता है
उपयोगकर्ताओं को अपना डेटा अज्ञात तीसरे पक्ष के डिवाइस पर प्रोसेस कराना पड़ता है, इसलिए केवल terms जैसी सुरक्षा पर्याप्त नहीं है
Verifiable Privacy के बिना वितरित inference संभव नहीं है

Darkbloom का तकनीकी दृष्टिकोण

access path हटाना
- ऑपरेटर के डेटा तक पहुँचने वाले सभी software path हटा दिए जाते हैं
- यह चार स्वतंत्र स्तरों से बना है, और प्रत्येक का सत्यापन किया जा सकता है
encryption स्तर
- अनुरोध उपयोगकर्ता के डिवाइस पर भेजने से पहले encrypt किए जाते हैं
- Coordinator केवल ciphertext को route करता है, और लक्षित node की hardware key ही उसे decrypt कर सकती है
hardware स्तर
- प्रत्येक node के पास Apple के security hardware के भीतर बना key होता है
- Apple Root CA से जुड़ी attestation chain के माध्यम से सत्यापन होता है
runtime स्तर
- inference process को OS स्तर पर lock किया जाता है
- debugger connection और memory inspection को रोका जाता है
- ऑपरेटर चल रही process से डेटा निकाल नहीं सकते
output स्तर
- सभी responses को उस hardware के signature से सत्यापित किया जा सकता है
- पूरी attestation chain सार्वजनिक है, इसलिए कोई भी स्वतंत्र रूप से सत्यापन कर सकता है
परिणामस्वरूप ऑपरेटर inference चलाते हैं, लेकिन डेटा नहीं देख सकते
- prompt भेजने से पहले encrypt किया जाता है
- Coordinator सामग्री पढ़े बिना route करता है
- Provider सत्यापित isolated environment में decrypt और execution करता है
- attestation chain सार्वजनिक रहती है, जिससे पारदर्शिता सुनिश्चित होती है

implementation विवरण

OpenAI-compatible API
- मौजूदा OpenAI SDK के साथ पूरी तरह compatible
- केवल Base URL बदलकर वही code इस्तेमाल किया जा सकता है
- Streaming, Function Calling, Image Generation, Speech-to-Text सभी समर्थित हैं
- समर्थित सुविधाएँ
- Streaming: SSE-आधारित, OpenAI format
- Image Generation: FLUX.2 on Metal
- Speech-to-Text: Cohere Transcribe
- Large MoE: अधिकतम 239B parameter मॉडल सपोर्ट

लागत तुलना के परिणाम

निष्क्रिय hardware की marginal cost लगभग न होने से कीमत में कमी आती है
कोई subscription fee या minimum usage limit नहीं
OpenRouter की तुलना में 50% कम स्तर

मॉडल	इनपुट	आउटपुट	OpenRouter	बचत दर
Gemma 4 26B4B	$0.03	$0.20	$0.40	50%
Qwen3.5 27B	$0.10	$0.78	$1.56	50%
Qwen3.5 122B MoE	$0.13	$1.04	$2.08	50%
MiniMax M2.5 239B	$0.06	$0.50	$1.00	50%

image generation: $0.0015/इमेज (Together.ai की तुलना में 50%)
speech recognition: $0.001/मिनट (AssemblyAI की तुलना में 50%)
platform fee 0%, ऑपरेटर 100% राजस्व बनाए रखते हैं

ऑपरेटर अर्थशास्त्र

Apple Silicon डिवाइस उपलब्ध कराने पर USD आय कमाना संभव है
बिजली खर्च के अलावा कोई अतिरिक्त लागत नहीं, और राजस्व का 100% बना रहता है
CLI install तरीका समर्थित है, और macOS menu bar app विकासाधीन है
install तरीका
- terminal command से provider binary डाउनलोड और launchd service registration
- कोई dependency नहीं**,** auto-update**,** background execution
  - macOS 14 या उससे ऊपर, केवल Apple Silicon के लिए
अनुमानित आय
- प्रतिदिन 18 घंटे चलने के आधार पर आय का अनुमान लगाया जा सकता है
- वास्तविक आय network demand और model popularity पर निर्भर करेगी

शोध और model catalog

research paper में architecture, threat model, security analysis और economic model का विस्तृत वर्णन है
इसमें hardware verification-आधारित private inference संरचना पर चर्चा की गई है
PDF डाउनलोड लिंक
उपलब्ध मॉडल
- Gemma 4 26B: Google का नवीनतम multimodal MoE, 4B active parameter
- Qwen3.5 27B: उच्च-गुणवत्ता reasoning model (Claude Opus distillation)
- Qwen3.5 122B MoE: 10B active parameter, प्रति token सर्वोच्च गुणवत्ता
- MiniMax M2.5 239B: SOTA coding model, Mac Studio पर 100 tok/s
- Cohere Transcribe: 2B conformer, शीर्ष-स्तरीय speech-to-text रूपांतरण

2 टिप्पणियां

shw00 12 일 전

वैचारिक रूप से यह दिलचस्प है, लेकिन यह वास्तव में ठीक से चलेगा या नहीं, इस पर संदेह है। जैसा कि HN की रायों में भी आया था, two-sided market में दोनों तरफ शुरुआती ग्राहकों को लाने में सफलता ज़रूरी होती है, इसलिए यही बड़ी समस्या है

GN⁺ 15 일 전

Hacker News की राय

मुझे उनकी कमाई की गणना भरोसेमंद नहीं लगी
अगर एक Mac Mini की लागत 2~4 महीनों में निकल आती है और उसके बाद हर महीने $1~2k कमाए जा सकते हैं, तो सवाल है कि वे खुद ही Mac Mini खरीदकर क्यों नहीं चला रहे
- यह गणना खुद काफ़ी आशावादी मान्यताओं पर आधारित है। इसमें माना गया है कि हर मशीन के लिए हमेशा मांग रहेगी
  अभी ऐसा नहीं है, लेकिन उम्मीद है कि कभी ऐसा होगा। इसलिए नया डिवाइस खरीदने की सलाह नहीं है। अगर आपके पास पहले से डिवाइस है, तो उसे चलाने की लागत लगभग शून्य है
  बिजली का खर्च सिर्फ़ तब होता है जब request आते हैं, और तब उसकी भरपाई हो जाती है
  अगर कोई सवाल हो तो @gajesh को DM कर सकते हैं
- अगर वे खुद Mac Mini खरीदना शुरू करें, तो बिजली, cooling और storage की समस्याओं के कारण आखिरकार उन्हें एक छोटा data center बनाना पड़ेगा
  economies of scale काम करने लगेंगी और फिर और बड़े center की चाह होगी, लेकिन यह महंगा भी है और पड़ोसियों को भी पसंद नहीं आएगा
  आखिर में यह hyperscalers के खिलाफ़ एक असममित लड़ाई जैसा दिखता है
- कोई भी GPU provider 100% utilization बनाए नहीं रखता। demand ऊपर-नीचे होती रहती है
  उदाहरण के लिए stock market के समय में व्यस्तता होती है, बाकी समय में काफी शांत रहता है
  अगर overprovisioning न करो तो ग्राहक चले जाते हैं, और ज़्यादा करो तो मुनाफ़ा घटता है
  वास्तविकता में यह शायद 1/8 स्तर की utilization होगी। मेरे M4 Pro Mini से हिसाब लगाऊँ तो Gemma 4 model के लिए यह लगभग $24/माह बनता है
- असली बात शुरुआती पूंजी की कमी है। ज़्यादातर लोगों के पास पहले से idle computer होता है, और बस उन्हें software install करने के लिए मनाना होता है
  hardware खुद खरीदना और maintain करना कहीं ज़्यादा महंगा पड़ता है। शुरुआती निवेश सबसे बड़ी entry barrier है
- दुनिया में बहुत से बेकार पड़े Mac हैं, इसलिए user base जुटाना आसान है
  VC funding के बिना भी शुरुआत की जा सकती है, और differentiation भी साफ़ है
  लेकिन कोई और इससे ज़्यादा fee लेकर यही चीज़ बना सकता है, इसलिए market capture अहम है
मैंने खुद install करके देखा, लेकिन यह बहुत polished नहीं लगा
image model download fail होना, audio/TTS model load fail होना जैसी कई errors थीं
15 मिनट तक Gemma serve किया, लेकिन actual inference request 0 आए; सिर्फ़ health check कई बार आया
अभी demand की कमी है, इसलिए revenue prediction सही नहीं बैठती
- इसे launch हुए सिर्फ़ एक दिन हुआ है, इसलिए अभी demand न होना स्वाभाविक है। थोड़ा समय लगेगा
- मुझे जानना है कि क्या किसी ने दूसरी तरफ़ से वास्तव में prompt भेजकर response पाने वाला test किया है
- stats page देखें तो providers बहुत हैं, लेकिन actual demand लगभग नहीं है
  लगता है अभी उनका focus provider जुटाने पर है, और paid customers लाना ज़रूरी है
- मैंने सोचा था कि शुरुआती दौर में वे खुद कुछ requests generate करके hosting के लिए प्रोत्साहन देंगे, लेकिन ऐसी कोई सुविधा नहीं है
- मैंने भी वही error देखी थी, और log में “STT backend health check failed” warning थी। demand हो भी तो शायद यही वजह हो सकती है
इस service को इस्तेमाल करने के लिए MDM(device management software) install करना पड़ता है
व्यावहारिक रूप से उस क्षण से वह computer उनके control में आ जाता है
banking जैसे sensitive काम करने वाले computer पर इसे बिल्कुल recommend नहीं करूंगा
- macOS का MDM AccessRights के कारण सीमित permissions रखता है, इसलिए SSL certificate बदलने जैसी level की access संभव नहीं है
  लेकिन उनकी privacy policy कमज़ोर है, इसलिए भरोसा करना मुश्किल है
- MDM मेरे लिए पूरी तरह अस्वीकार्य है। मैं अपने MacBook को संभावित brick नहीं बनाना चाहता
  ऊपर से हर महीने कुछ डॉलर कमाने के लिए यह risk लेने का कोई कारण नहीं है
उनका कहना है कि वे TEE(Trusted Execution Environment) का उपयोग करके model और code की integrity verify करते हैं
AWS पर भी ऐसा कुछ देखा है, लेकिन GPU इस्तेमाल करते समय memory protection सच में संभव है या नहीं, इस पर संदेह है
संबंधित paper यहाँ देखे जा सकते हैं
- पूरा paper ही LLM वाली गंध देता है। formulas का अत्यधिक उपयोग भरोसा कम करता है
- वास्तविकता में अगर data बाहरी server पर भेजते हैं, तो कुछ हद तक data retention से बचना संभव नहीं है
  sensitive data की बजाय classification या image generation जैसे non-commercial use के लिए ही इस्तेमाल करना सुरक्षित होगा
- Apple Silicon में CPU और GPU unified memory इस्तेमाल करते हैं
  paper में बताया गया hypervisor page table तरीका दावा करता है कि वह GPU memory को RDMA से सुरक्षित रखता है
- Mac में SGX जैसा hardware TEE नहीं है, सिर्फ़ Secure Enclave है
आज के MacBook पर verifiable privacy भौतिक रूप से संभव नहीं है
Secure Enclave है, लेकिन SGX/TDX/SEV जैसे public enclave नहीं हैं
अंततः यह OS hardening स्तर की security है, असली confidential execution environment नहीं
- मैंने खुद SGX SDK बनाया है। Apple platform पर भी कुछ हद तक वैसा security level हासिल किया जा सकता है
  अगर macOS के boot sequence और TCC configuration को remotely attest किया जा सके, तो यह काफ़ी भरोसेमंद संरचना है
  यह परफेक्ट SGX जितना नहीं है, लेकिन usability के लिहाज़ से बेहतर है
- OpenAI जैसे centralized providers की तुलना में random distributed nodes पर मुझे ज़्यादा भरोसा होता है
- अगर पर्याप्त incentive हो, तो कोई भी hardware key आखिरकार तोड़ी जा सकती है। उनके दावे कुछ ज़्यादा ही आत्मविश्वासी लगते हैं
साधारण गणना से देखें तो मेरा M5 Pro Gemma 4 26B के लिए 130 tokens/sec (4-stream) पैदा करता है
Darkbloom की pricing $0.20/Mtok है, इसलिए 24 घंटे चलने पर लगभग $67/माह की कमाई बनती है
बिजली का खर्च घटाएँ तो लगभग $9/माह लागत है, यानी सालाना लगभग $700 की pocket money जैसी बात है
- वास्तविकता में यह 50W से कहीं ज़्यादा power खींचता है। बिजली भी महंगी पड़ती है और hardware aging भी तेज़ होती है
  मेरे हिसाब से profitability से ज़्यादा idea दिलचस्प है
- उनकी calculation Gemma 4 26B के लिए tok/s को 414 मानती है
  power calculation में वे idle power 12W घटाने वाली चाल इस्तेमाल करते हैं, जबकि ज़्यादातर लोग computer 24 घंटे चालू नहीं रखते
- 130 tok/s का आँकड़ा ऊँचा लगता है। यह किस quantization आधार पर है, जानना चाहूँगा
- hardware failure को गिना ही नहीं गया। मैंने पहले GPU mining की थी और एक महीने में fan खराब हो गया था, जिससे नुकसान हुआ
- OpenAI के भी सिर्फ़ 5% ग्राहक paid हैं, तो पता नहीं ऐसा model टिकाऊ होगा या नहीं
  पहले Cubbit जैसी distributed storage कोशिशें भी हुई थीं, लेकिन वे असफल रहीं
मैं @eigengajesh को बताना चाहता हूँ कि Mac Mini M4 Pro में 64GB option भी है
और इसमें कई bugs हैं — metallib load fail, model download 404, docs में revenue split (100% vs 95%) का mismatch वगैरह
कुल मिलाकर बहुत सारे docs ऐसे लगते हैं जैसे LLM ने लिखे हों, और शायद थोड़ा और polish करके public करना बेहतर होगा
इस project ने मुझे पहले स्कूल के computers पर deploy किए गए DataseamGrid की याद दिला दी
यह भी इसी तरह का distributed compute network था
दिलचस्प concept है। Two-sided marketplace को शुरुआत में bootstrap करना मुश्किल होता है, लेकिन जिज्ञासा इसे momentum दे सकती है
अगर providers के अलावा लोगों को खुद service इस्तेमाल करने के लिए भी प्रेरित किया जाए, तो demand-supply balance बेहतर हो सकता है
enterprise के लिए self-hosted version हो तो अच्छा रहेगा। बहुत-सी कंपनियों के पास Mac inventory होती है, इसलिए उसे internal inference network के रूप में इस्तेमाल किया जा सकता है
hardware-आधारित privacy दिलचस्प है, लेकिन आर्थिक रूप से load cost बड़ा risk है
उदाहरण के लिए MiniMax M2.5 239B model में, 239B में से सिर्फ़ 11B active होने पर भी 120GB load करना पड़ता है
इसे SSD से लोड करने में कई दसियों सेकंड लगते हैं
अगर request किसी दूसरे Mac पर route हो जाए, तो हर बार cold load latency होगी
model को हमेशा memory में रखो तो बिजली का खर्च बढ़ता है, और नहीं रखो तो latency बढ़ती है
खासकर 16GB~32GB Mac बड़े models को host ही नहीं कर सकते, इसलिए वास्तव में सक्षम providers की संख्या बहुत सीमित है

Darkbloom – निष्क्रिय Mac का उपयोग करने वाला व्यक्तिगत AI inference नेटवर्क

निष्क्रिय Mac का उपयोग करने वाला व्यक्तिगत AI inference नेटवर्क

उपयोगकर्ताओं के लिए सुविधाएँ

hardware मालिकों के लिए सुविधाएँ

AI computation बाजार की संरचनात्मक समस्या

भरोसे की समस्या और समाधान की चुनौती

Darkbloom का तकनीकी दृष्टिकोण

access path हटाना

encryption स्तर

hardware स्तर

runtime स्तर

output स्तर

परिणामस्वरूप ऑपरेटर inference चलाते हैं, लेकिन डेटा नहीं देख सकते

implementation विवरण

OpenAI-compatible API

लागत तुलना के परिणाम

ऑपरेटर अर्थशास्त्र

install तरीका

कोई dependency नहीं**,** auto-update**,** background execution

अनुमानित आय

शोध और model catalog

उपलब्ध मॉडल

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय

कोई dependency नहीं, auto-update, background execution