10 पॉइंट द्वारा GN⁺ 2025-04-12 | 2 टिप्पणियां | WhatsApp पर शेयर करें

> "Colossus stateful protocol" Rapid Storage के उच्च प्रदर्शन का गुप्त घटक है

  • Google Cloud Storage अपनी सादगी और scalability के कारण व्यापक रूप से उपयोग किया जाता है
  • मौजूदा REST-आधारित stateless protocol उपयोग में आसान हैं, लेकिन AI और data-intensive workloads के लिए latency और file-centric features की कमी समस्या बनती है
  • Rapid Storage इस समस्या का समाधान stateful gRPC streaming protocol अपनाकर करता है, जबकि object storage की scalability और throughput को बरकरार रखता है

Colossus-आधारित architecture की ताकत

  • Colossus, Google का आंतरिक cluster-level file system है, जो high-performance products के लिए foundational technology है
  • stateful protocol का उपयोग करके ultra-low-latency data read/write को support करता है
  • client file को खोलकर एक handle प्राप्त करता है, जिसके माध्यम से वह सीधे disk से communicate कर सकता है
  • RDMA-जैसे protocol का उपयोग करके तेज़ access संभव होता है, और SSD optimization तथा parallel write तकनीकें लागू की गई हैं
  • durability की आवश्यकता वाले log write और streaming analytics workloads के लिए उपयुक्त है

Colossus stateful protocol कैसे काम करता है

  • file को append mode में खोलने पर Curator एक handle बनाकर client को देता है
  • application log data को client में लिखता है, और client handle का उपयोग करके कई disks पर parallel write करता है
  • data को durable तरीके से store करने के लिए कई disks पर replication की जाती है, और quorum-based writes से latency को न्यूनतम रखा जाता है

Rapid Storage का प्रदर्शन और उपयोग के उदाहरण

  • Cloud Storage client, gRPC stream बनाते समय authentication और metadata access को पहले से process कर लेता है
  • इसके बाद की read/write operations सीधे Colossus से जुड़ती हैं, इसलिए ultra-low latency बनी रहती है
  • एक bucket पर प्रति सेकंड 2 करोड़ requests संभाले जा सकते हैं — बड़े पैमाने के AI/ML workloads के लिए उपयुक्त
  • AI/ML training के लिए optimized design

    • सैकड़ों मिलियन से लेकर अरबों tokens वाले बड़े data files को non-sequential तरीके से पढ़ने के लिए आदर्श
    • training शुरू होते समय stream बनाई जा सकती है, और parallel range reads को ultra-low latency के साथ चलाया जा सकता है
    • training के दौरान storage latency के बिना data samples को तेज़ी से उपलब्ध कराया जा सकता है
  • सुरक्षित और कुशल Append processing

    • एक object के लिए unlimited append संभव है (object size limit के भीतर)
    • handle के जरिए stream रुक जाने पर भी reconnect के बाद पढ़ना/लिखना जारी रखा जा सकता है
    • एक समय में केवल एक stream ही object पर लिख सकती है — नई stream transaction तरीके से पिछली stream को lock कर देती है
    • हर append write offset को स्पष्ट रूप से निर्दिष्ट करता है, जिससे data consistency सुनिश्चित होती है

Rapid Storage integration और API

  • SDK को gRPC-आधारित append capability support करने के लिए update किया जा रहा है
  • Cloud Storage FUSE में integration होने से Cloud Storage bucket को file system की तरह access किया जा सकता है
  • Hierarchical Namespace के साथ भी जुड़ता है, जिससे performance और consistency बेहतर होती है, और folder-based API support मिलता है

Rapid Storage के संयुक्त फायदे

  • block storage-स्तर की ultra-low latency
  • parallel file system-स्तर का उच्च throughput
  • object storage की scalability और सरलता भी उपलब्ध

2 टिप्पणियां

 
ethanhur 2025-04-14

सुना है कि Colossus काफ़ी अच्छा है, लेकिन जिन्होंने इसे वास्तव में अंदर इस्तेमाल किया है, उनका अनुभव कैसा रहा, यह जानने की जिज्ञासा है।

 
GN⁺ 2025-04-12
Hacker News टिप्पणियाँ
  • Google प्रमुख cloud प्रदाताओं में अकेला है जो low-latency single-zone object storage, standard regional object storage, और transparently replicated dual-region object storage को एक ही API के साथ प्रदान करता है
    • infrastructure systems में GCS API का उपयोग करके code लिखने के बाद, उपयोगकर्ता cost, latency, और durability के बीच संतुलन चुन सकते हैं
  • 2025 Google Next conference में इसकी घोषणा की गई थी, और Rapid Storage के लिए gRPC client जारी किया गया
    • यह Colossus का ही एक पतला wrapper लगता है, और यह single-zone storage है
  • लगता है कि यह वास्तव में scientific computing की speed बढ़ा सकता है
    • data localization/delocalization पूरे instance execution time का एक महत्वपूर्ण हिस्सा है
  • मुझे classic microservices video फिर से देखनी पड़ी
    • मुझे यकीन था कि उसमें Colossus इस्तेमाल हुआ था, लेकिन असल में वह Galactus & Omega Star था
  • यह link पिछले link की तुलना में कहीं अधिक आसानी से समझ में आता है
  • SSD की उच्च random I/O speed इसके फायदों में बड़ा योगदान देती है
    • 20m प्रति सेकंड write speed शायद drive network में distribute होने की वजह से संभव है
  • single-zone object storage को सफलतापूर्वक स्थापित होते देख कर खुशी हुई
    • भारी bandwidth speed data analysis को फिर से परिभाषित कर देगी
    • 99% queries एक single node पर distributed computing की तुलना में तेज़ चल सकती हैं
  • मैं चाहता हूँ कि Chubby एक service के रूप में मिले
    • तब etcd और zookeeper को छोड़ा जा सकता है
  • यह S3 express one zone जैसा है
  • सोच रहा हूँ कि क्या इसका संबंध invite-only anywhere caches से है
    • या शायद अब यह GA हो चुका हो