• tinygrad एक neural network framework है जो सरलता और performance को जोड़ता है, और न्यूनतम ऑपरेशन संरचना के साथ जटिल मॉडल लागू करता है
  • इसी आधार पर बना tinybox deep learning training और inference के लिए एक high-performance offline AI computer है, जो red·green·exa तीन मॉडलों में उपलब्ध है
  • शीर्ष मॉडल green v2 blackwell 4 RTX PRO 6000 GPU के साथ 3086 TFLOPS performance देता है, और $65,000 में तुरंत शिपिंग के लिए उपलब्ध है
  • सबसे उच्च श्रेणी का exabox लगभग 1 EXAFLOP performance को लक्ष्य बनाकर 2027 में लॉन्च होने वाला है, और इसकी कीमत लगभग $10M है
  • निर्माता tiny corp का लक्ष्य petaflop का व्यावसायीकरण और सबके लिए AI को साकार करना है

tinygrad अवलोकन

  • tinygrad सरलता और performance पर केंद्रित एक neural network framework है, और यह तेज़ी से बढ़ रहा प्रोजेक्ट है
  • यह जटिल नेटवर्क को सिर्फ 3 OpType से बनाता है: ElementwiseOps, ReduceOps, MovementOps
    • ElementwiseOps 1~3 tensor पर element-wise operations करता है, जिनमें SQRT, LOG2, ADD, MUL, WHERE आदि शामिल हैं
    • ReduceOps एक tensor को input के रूप में लेकर छोटा tensor लौटाता है, जैसे SUM, MAX आदि
    • MovementOps data को copy किए बिना move करने वाले virtual operations हैं, जो ShapeTracker की मदद से RESHAPE, PERMUTE, EXPAND आदि करते हैं
  • CONV या MATMUL operations का implementation सीधे code में देखा जा सकता है

tinybox प्रोडक्ट लाइनअप

  • tinybox deep learning के लिए एक high-performance computer है, जो red, green, exa तीन मॉडलों में आता है
  • प्रत्येक मॉडल की मुख्य specifications इस प्रकार हैं
    • red v2

      • GPU: 4x 9070XT
      • FP16(FP32 acc) performance: 778 TFLOPS
      • GPU RAM: 64GB, bandwidth 2560 GB/s
      • CPU: 32-core AMD EPYC
      • सिस्टम RAM: 128GB, bandwidth 204.8 GB/s
      • डिस्क: 2TB NVMe, read speed 7.3 GB/s
      • नेटवर्किंग: 2x 1GbE + OCP3.0
      • पावर: 1600W
      • शोर: 50dB से कम
      • कीमत: $12,000, तुरंत शिपिंग उपलब्ध
    • green v2 blackwell

      • GPU: 4x RTX PRO 6000 Blackwell
      • FP16(FP32 acc) performance: 3086 TFLOPS
      • GPU RAM: 384GB, bandwidth 7168 GB/s
      • CPU: 32-core AMD GENOA
      • सिस्टम RAM: 192GB, bandwidth 460.8 GB/s
      • डिस्क: 4TB RAID + 1TB boot drive, read speed 59.3 GB/s
      • नेटवर्किंग: 2x 10GbE + OCP3.0
      • पावर: 2x 1600W
      • शोर: 65dB (10m दूरी के आधार पर)
      • कीमत: $65,000, तुरंत शिपिंग उपलब्ध
    • exabox

      • GPU: 720x RDNA5 AT0 XL
      • FP16(FP32 acc) performance: लगभग 1 EXAFLOP
      • GPU RAM: 25,920GB, bandwidth 1244 TB/s
      • CPU: 120x 32-core AMD GENOA
      • सिस्टम RAM: 23,040GB, bandwidth 55.2 TB/s
      • डिस्क: 480TB RAID, read speed 7.1 TB/s
      • नेटवर्किंग: PCIe5 3.2 TB/s expansion support
      • पावर: 600kW
      • आकार: 20x8x8.5 ft, वजन 20,000 lbs
      • अपेक्षित लॉन्च: 2027, अनुमानित कीमत लगभग $10M
      • सभी मॉडल Ubuntu 24.04 operating system का उपयोग करते हैं, और standalone या rack-mount रूप में इंस्टॉल किए जा सकते हैं
      • प्रोडक्ट और स्टॉक अपडेट mailing list के जरिए दिए जाते हैं

FAQ

  • tinybox अवलोकन

    • deep learning के लिए high-performance computer**,** जिसका price-to-performance बहुत ऊँचा है

      • MLPerf Training 4.0 benchmark में 10 गुना महंगे सिस्टम के साथ तुलना की गई है
      • यह training के साथ-साथ inference भी कर सकता है
  • ऑर्डर और शिपिंग

    • वेबसाइट पर ऑर्डर किया जा सकता है, और payment के 1 हफ्ते के भीतर शिपिंग होती है
    • San Diego से pickup या दुनिया भर में shipping उपलब्ध है
  • कस्टमाइज़ेशन और पेमेंट

    • कीमत और गुणवत्ता बनाए रखने के लिए customization उपलब्ध नहीं है

      • payment केवल wire transfer से ही संभव है
      • W-9 form download link पर उपलब्ध है
  • tinygrad का उपयोग कहाँ होता है

    • openpilot में Snapdragon 845 GPU आधारित driving model चलाने के लिए उपयोग होता है
    • यह Qualcomm SNPE का विकल्प है, और तेज़ होने के साथ ONNX loading, training support, और attention feature देता है
  • फीचर और performance

    • यह केवल inference के लिए नहीं है, बल्कि autodiff आधारित forward/backward pass दोनों को सपोर्ट करता है
    • यह PyTorch जैसी API देता है, लेकिन इसकी संरचना अधिक सरल है
    • यह अभी alpha version में है, इसलिए stability कम है, लेकिन हाल में यह अपेक्षाकृत स्थिर हुआ है
    • जब यह PyTorch से 2 गुना तेज़ paper reproduction संभव बना देगा, तब alpha चरण समाप्त करने की योजना है
    • speed improvement के कारण
      • हर operation के लिए custom kernel compilation के जरिए shape-specific optimization
      • lazy tensor संरचना के कारण operations का आक्रामक fusion
      • सरल backend की वजह से kernel optimization होने पर पूरे performance में सुधार
  • विकास और समुदाय

    • विकास GitHub और Discord पर जारी है
    • tinygrad contribution (PR) को hiring और investment participation का प्रमुख रास्ता माना जाता है
    • tiny corp का लक्ष्य petaflop का व्यावसायीकरण और सबके लिए AI को साकार करना है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.