- tinygrad एक neural network framework है जो सरलता और performance को जोड़ता है, और न्यूनतम ऑपरेशन संरचना के साथ जटिल मॉडल लागू करता है
- इसी आधार पर बना tinybox deep learning training और inference के लिए एक high-performance offline AI computer है, जो red·green·exa तीन मॉडलों में उपलब्ध है
- शीर्ष मॉडल green v2 blackwell 4 RTX PRO 6000 GPU के साथ 3086 TFLOPS performance देता है, और $65,000 में तुरंत शिपिंग के लिए उपलब्ध है
- सबसे उच्च श्रेणी का exabox लगभग 1 EXAFLOP performance को लक्ष्य बनाकर 2027 में लॉन्च होने वाला है, और इसकी कीमत लगभग $10M है
- निर्माता tiny corp का लक्ष्य petaflop का व्यावसायीकरण और सबके लिए AI को साकार करना है
tinygrad अवलोकन
- tinygrad सरलता और performance पर केंद्रित एक neural network framework है, और यह तेज़ी से बढ़ रहा प्रोजेक्ट है
- यह जटिल नेटवर्क को सिर्फ 3 OpType से बनाता है: ElementwiseOps, ReduceOps, MovementOps
- ElementwiseOps 1~3 tensor पर element-wise operations करता है, जिनमें SQRT, LOG2, ADD, MUL, WHERE आदि शामिल हैं
- ReduceOps एक tensor को input के रूप में लेकर छोटा tensor लौटाता है, जैसे SUM, MAX आदि
- MovementOps data को copy किए बिना move करने वाले virtual operations हैं, जो ShapeTracker की मदद से RESHAPE, PERMUTE, EXPAND आदि करते हैं
- CONV या MATMUL operations का implementation सीधे code में देखा जा सकता है
tinybox प्रोडक्ट लाइनअप
- tinybox deep learning के लिए एक high-performance computer है, जो red, green, exa तीन मॉडलों में आता है
- प्रत्येक मॉडल की मुख्य specifications इस प्रकार हैं
-
red v2
- GPU: 4x 9070XT
- FP16(FP32 acc) performance: 778 TFLOPS
- GPU RAM: 64GB, bandwidth 2560 GB/s
- CPU: 32-core AMD EPYC
- सिस्टम RAM: 128GB, bandwidth 204.8 GB/s
- डिस्क: 2TB NVMe, read speed 7.3 GB/s
- नेटवर्किंग: 2x 1GbE + OCP3.0
- पावर: 1600W
- शोर: 50dB से कम
- कीमत: $12,000, तुरंत शिपिंग उपलब्ध
-
green v2 blackwell
- GPU: 4x RTX PRO 6000 Blackwell
- FP16(FP32 acc) performance: 3086 TFLOPS
- GPU RAM: 384GB, bandwidth 7168 GB/s
- CPU: 32-core AMD GENOA
- सिस्टम RAM: 192GB, bandwidth 460.8 GB/s
- डिस्क: 4TB RAID + 1TB boot drive, read speed 59.3 GB/s
- नेटवर्किंग: 2x 10GbE + OCP3.0
- पावर: 2x 1600W
- शोर: 65dB (10m दूरी के आधार पर)
- कीमत: $65,000, तुरंत शिपिंग उपलब्ध
-
exabox
- GPU: 720x RDNA5 AT0 XL
- FP16(FP32 acc) performance: लगभग 1 EXAFLOP
- GPU RAM: 25,920GB, bandwidth 1244 TB/s
- CPU: 120x 32-core AMD GENOA
- सिस्टम RAM: 23,040GB, bandwidth 55.2 TB/s
- डिस्क: 480TB RAID, read speed 7.1 TB/s
- नेटवर्किंग: PCIe5 3.2 TB/s expansion support
- पावर: 600kW
- आकार: 20x8x8.5 ft, वजन 20,000 lbs
- अपेक्षित लॉन्च: 2027, अनुमानित कीमत लगभग $10M
- सभी मॉडल Ubuntu 24.04 operating system का उपयोग करते हैं, और standalone या rack-mount रूप में इंस्टॉल किए जा सकते हैं
- प्रोडक्ट और स्टॉक अपडेट mailing list के जरिए दिए जाते हैं
FAQ
-
tinybox अवलोकन
-
deep learning के लिए high-performance computer**,** जिसका price-to-performance बहुत ऊँचा है
- MLPerf Training 4.0 benchmark में 10 गुना महंगे सिस्टम के साथ तुलना की गई है
- यह training के साथ-साथ inference भी कर सकता है
-
ऑर्डर और शिपिंग
- वेबसाइट पर ऑर्डर किया जा सकता है, और payment के 1 हफ्ते के भीतर शिपिंग होती है
- San Diego से pickup या दुनिया भर में shipping उपलब्ध है
-
कस्टमाइज़ेशन और पेमेंट
-
कीमत और गुणवत्ता बनाए रखने के लिए customization उपलब्ध नहीं है
- payment केवल wire transfer से ही संभव है
- W-9 form download link पर उपलब्ध है
-
tinygrad का उपयोग कहाँ होता है
- openpilot में Snapdragon 845 GPU आधारित driving model चलाने के लिए उपयोग होता है
- यह Qualcomm SNPE का विकल्प है, और तेज़ होने के साथ ONNX loading, training support, और attention feature देता है
-
फीचर और performance
- यह केवल inference के लिए नहीं है, बल्कि autodiff आधारित forward/backward pass दोनों को सपोर्ट करता है
- यह PyTorch जैसी API देता है, लेकिन इसकी संरचना अधिक सरल है
- यह अभी alpha version में है, इसलिए stability कम है, लेकिन हाल में यह अपेक्षाकृत स्थिर हुआ है
- जब यह PyTorch से 2 गुना तेज़ paper reproduction संभव बना देगा, तब alpha चरण समाप्त करने की योजना है
- speed improvement के कारण
- हर operation के लिए custom kernel compilation के जरिए shape-specific optimization
- lazy tensor संरचना के कारण operations का आक्रामक fusion
- सरल backend की वजह से kernel optimization होने पर पूरे performance में सुधार
-
विकास और समुदाय
- विकास GitHub और Discord पर जारी है
- tinygrad contribution (PR) को hiring और investment participation का प्रमुख रास्ता माना जाता है
- tiny corp का लक्ष्य petaflop का व्यावसायीकरण और सबके लिए AI को साकार करना है
1 टिप्पणियां
Hacker News की राय
इस वेबसाइट से AI नहीं बल्कि इंसानों के हाथ से बनाई गई चीज़ जैसा एहसास बहुत आता है, जो थोड़ा विडंबनापूर्ण लगा
डिज़ाइन और लिखने का टोन काफ़ी मानवीय है
फिर भी आइडिया शानदार है, और लगता है कि ऐसे लोकल ट्रेनिंग वाले मॉडल भविष्य में बड़े मॉडलों पर निर्भरता कम कर सकते हैं
बस अच्छा होता अगर इसे सीधे 240V सर्किट में लगाया जा सकता। दो 120V सर्किट ढूँढना काफ़ी झंझट है
शायद इसलिए कि इंडस्ट्री के लोग signal और noise में फ़र्क करने को लेकर बहुत संवेदनशील होते हैं
शायद low-quality PRs का वॉल्यूम इतना कम है कि उन्हें शालीनता से नज़रअंदाज़ किया जा सकता है, इसलिए वह कैसे बने यह महत्वपूर्ण नहीं है
बेस मॉडल की कीमत 12 हज़ार डॉलर है, जो बहुत ज़्यादा है
मैं Apple M3 Max(128GB RAM) पर 120B parameter मॉडल 80W पावर में 15~20 tokens प्रति सेकंड की रफ़्तार से चलाता हूँ
यह परफेक्ट नहीं है, लेकिन 12 हज़ार डॉलर की मशीन से बेहतर लगता है
उससे gpt-oss-120b Q8 लगभग 30 tokens प्रति सेकंड पर चलाया जा सकता है
red v2 से 120B मॉडल ठीक से चलना संभव नहीं लगता
मैंने खुद dual A100 AI homelab बनाया है, जिसमें 80GB VRAM को NVLink से जोड़ा है
120B मॉडल बिना भारी quantization के संभव नहीं है, और उस स्तर पर मॉडल अस्थिर हो जाता है
KV cache के लिए भी जगह कम पड़ती है, इसलिए लगभग 4k context पर OOM हो जाता है
अभी 70B मॉडल चलाना भी तंग पड़ रहा है। मेरे सिस्टम में red v2 से 16GB ज़्यादा VRAM है
ऊपर से यह 12U क्यों है, समझ नहीं आता। मेरा rig 4U है
green v2 में GPU बेहतर है, लेकिन 65 हज़ार डॉलर में CPU और RAM भी कहीं बेहतर होने चाहिए
इसका अस्तित्व अच्छा है, लेकिन सच कहूँ तो component ratio समझ नहीं आता
मैं Epyc Milan बॉक्स पर gpt-oss-120b Q4 को RAM और GPU में बाँटकर चलाता हूँ और लगभग 30~50 tokens प्रति सेकंड मिलते हैं
64G VRAM/128G RAM configuration अक्षम है। MoE मॉडल में भी router को सिर्फ़ लगभग 20B चाहिए होता है और बाकी VRAM बर्बाद जाती है
शायद जवाब कुछ ऐसा होगा कि “कीमत कम रखने और quality बनाए रखने के लिए server size customization नहीं देते”
मैं 8 GPU server (5 RTX 8000, 3 RTX 6000 Ada) इस्तेमाल करता हूँ, और बेस inference के लिए 8000 भी काफ़ी है
green मॉडल तेज़ होगा, लेकिन अतिरिक्त 25 हज़ार डॉलर की कीमत जायज़ नहीं लगती
4 Blackwell 6000 की कीमत 32~36 हज़ार डॉलर है, तो बाकी 30 हज़ार डॉलर कहाँ गए समझ नहीं आता
कुछ local AI frameworks LRU policy सपोर्ट करते हैं, जिसमें cache के लिए सिर्फ़ VRAM का हिस्सा इस्तेमाल होता है, इसलिए overhead संभाला जा सकता है
exabox दिलचस्प लगा
कौन इसका ग्राहक होगा, यह जानना चाहूँगा। Vera Rubin लॉन्च वीडियो देखने के बाद NVIDIA से hyperscale बाज़ार में टक्कर लेने की कल्पना भी मुश्किल लगती है
शायद इनका निशाना cost-conscious ML startup हैं
कीमत देखकर भी यही लगता है, क्योंकि Vera Rubin जैसी GPU RAM क्षमता पर यह लगभग आधी कीमत में है
हालाँकि NV के interconnect quality जैसी बात नहीं होगी
कौन इसे खरीदेगा, समझ नहीं आता। NV तो पहले से shipment कर रहा है
उस niche को निशाना बनाया जाए तो प्रतिस्पर्धा संभव है। अगर market share 0.01% से कम हो, तो बड़े खिलाड़ी भी ध्यान नहीं देंगे
यह कहीं नया crypto miner तो नहीं लगता
पहले mining hardware बेचते थे, अब उसे AI के नाम पर बेचने जैसा लगता है
Tinybox शानदार है, लेकिन बाज़ार शायद ऐसे स्पष्ट performance guarantee वाले products ज़्यादा चाहेगा, जैसे “Kimi 2.5 को 50 tokens प्रति सेकंड पर चला सकता है”
इससे Decoy effect की याद आती है
उत्सुकता है कि यह मशीन cooling कैसे संभालती है
tinygrad के इस दावे पर कि “pytorch से 2 गुना तेज़ होने पर alpha से बाहर आएगा”
यह बताने की ज़रूरत है कि किस workload में pytorch हार्डवेयर की क्षमता की तुलना में 2 गुना या उससे ज़्यादा धीमा है
ज़्यादातर papers standard components इस्तेमाल करते हैं, और pytorch पहले से GPU performance का 50% से अधिक निकाल लेता है
अगर performance सिर्फ़ custom kernel लिखने पर ही मिलती है, तो वह अलग समस्या है
समझ नहीं आता कि 6 GPU configuration क्यों बंद कर दी
4 GPU (9070, RTX6000) 2-slot design में आते हैं, इसलिए सामान्य motherboard से भी build किया जा सकता है
6 GPU के लिए riser, PCIe retimer, dual PSU और custom case चाहिए, इसलिए यह ज़्यादा जटिल है
लेकिन फिर भी price-performance के लिहाज़ से वह बेहतर था