तेज़ स्टोरेज डिवाइसों के लिए Colossus

(cloud.google.com)

10 पॉइंट द्वारा GN⁺ 2025-04-12 | 2 टिप्पणियां | WhatsApp पर शेयर करें

"Colossus stateful protocol" Rapid Storage के उच्च प्रदर्शन का गुप्त घटक है

Google Cloud Storage अपनी सादगी और scalability के कारण व्यापक रूप से उपयोग किया जाता है
मौजूदा REST-आधारित stateless protocol उपयोग में आसान हैं, लेकिन AI और data-intensive workloads के लिए latency और file-centric features की कमी समस्या बनती है
Rapid Storage इस समस्या का समाधान stateful gRPC streaming protocol अपनाकर करता है, जबकि object storage की scalability और throughput को बरकरार रखता है

Colossus-आधारित architecture की ताकत

Colossus, Google का आंतरिक cluster-level file system है, जो high-performance products के लिए foundational technology है
stateful protocol का उपयोग करके ultra-low-latency data read/write को support करता है
client file को खोलकर एक handle प्राप्त करता है, जिसके माध्यम से वह सीधे disk से communicate कर सकता है
RDMA-जैसे protocol का उपयोग करके तेज़ access संभव होता है, और SSD optimization तथा parallel write तकनीकें लागू की गई हैं
durability की आवश्यकता वाले log write और streaming analytics workloads के लिए उपयुक्त है

Colossus stateful protocol कैसे काम करता है

file को append mode में खोलने पर Curator एक handle बनाकर client को देता है
application log data को client में लिखता है, और client handle का उपयोग करके कई disks पर parallel write करता है
data को durable तरीके से store करने के लिए कई disks पर replication की जाती है, और quorum-based writes से latency को न्यूनतम रखा जाता है

Rapid Storage का प्रदर्शन और उपयोग के उदाहरण

Cloud Storage client, gRPC stream बनाते समय authentication और metadata access को पहले से process कर लेता है
इसके बाद की read/write operations सीधे Colossus से जुड़ती हैं, इसलिए ultra-low latency बनी रहती है
एक bucket पर प्रति सेकंड 2 करोड़ requests संभाले जा सकते हैं — बड़े पैमाने के AI/ML workloads के लिए उपयुक्त
AI/ML training के लिए optimized design
- सैकड़ों मिलियन से लेकर अरबों tokens वाले बड़े data files को non-sequential तरीके से पढ़ने के लिए आदर्श
- training शुरू होते समय stream बनाई जा सकती है, और parallel range reads को ultra-low latency के साथ चलाया जा सकता है
- training के दौरान storage latency के बिना data samples को तेज़ी से उपलब्ध कराया जा सकता है
सुरक्षित और कुशल Append processing
- एक object के लिए unlimited append संभव है (object size limit के भीतर)
- handle के जरिए stream रुक जाने पर भी reconnect के बाद पढ़ना/लिखना जारी रखा जा सकता है
- एक समय में केवल एक stream ही object पर लिख सकती है — नई stream transaction तरीके से पिछली stream को lock कर देती है
- हर append write offset को स्पष्ट रूप से निर्दिष्ट करता है, जिससे data consistency सुनिश्चित होती है

Rapid Storage integration और API

SDK को gRPC-आधारित append capability support करने के लिए update किया जा रहा है
Cloud Storage FUSE में integration होने से Cloud Storage bucket को file system की तरह access किया जा सकता है
Hierarchical Namespace के साथ भी जुड़ता है, जिससे performance और consistency बेहतर होती है, और folder-based API support मिलता है

Rapid Storage के संयुक्त फायदे

block storage-स्तर की ultra-low latency
parallel file system-स्तर का उच्च throughput
object storage की scalability और सरलता भी उपलब्ध

2 टिप्पणियां

ethanhur 2025-04-14

सुना है कि Colossus काफ़ी अच्छा है, लेकिन जिन्होंने इसे वास्तव में अंदर इस्तेमाल किया है, उनका अनुभव कैसा रहा, यह जानने की जिज्ञासा है।

GN⁺ 2025-04-12

Hacker News टिप्पणियाँ

Google प्रमुख cloud प्रदाताओं में अकेला है जो low-latency single-zone object storage, standard regional object storage, और transparently replicated dual-region object storage को एक ही API के साथ प्रदान करता है
- infrastructure systems में GCS API का उपयोग करके code लिखने के बाद, उपयोगकर्ता cost, latency, और durability के बीच संतुलन चुन सकते हैं
2025 Google Next conference में इसकी घोषणा की गई थी, और Rapid Storage के लिए gRPC client जारी किया गया
- यह Colossus का ही एक पतला wrapper लगता है, और यह single-zone storage है
लगता है कि यह वास्तव में scientific computing की speed बढ़ा सकता है
- data localization/delocalization पूरे instance execution time का एक महत्वपूर्ण हिस्सा है
मुझे classic microservices video फिर से देखनी पड़ी
- मुझे यकीन था कि उसमें Colossus इस्तेमाल हुआ था, लेकिन असल में वह Galactus & Omega Star था
यह link पिछले link की तुलना में कहीं अधिक आसानी से समझ में आता है
SSD की उच्च random I/O speed इसके फायदों में बड़ा योगदान देती है
- 20m प्रति सेकंड write speed शायद drive network में distribute होने की वजह से संभव है
single-zone object storage को सफलतापूर्वक स्थापित होते देख कर खुशी हुई
- भारी bandwidth speed data analysis को फिर से परिभाषित कर देगी
- 99% queries एक single node पर distributed computing की तुलना में तेज़ चल सकती हैं
मैं चाहता हूँ कि Chubby एक service के रूप में मिले
- तब etcd और zookeeper को छोड़ा जा सकता है
यह S3 express one zone जैसा है
सोच रहा हूँ कि क्या इसका संबंध invite-only anywhere caches से है
- या शायद अब यह GA हो चुका हो