तेज़ स्टोरेज डिवाइसों के लिए Colossus
(cloud.google.com)> "Colossus stateful protocol" Rapid Storage के उच्च प्रदर्शन का गुप्त घटक है
- Google Cloud Storage अपनी सादगी और scalability के कारण व्यापक रूप से उपयोग किया जाता है
- मौजूदा REST-आधारित stateless protocol उपयोग में आसान हैं, लेकिन AI और data-intensive workloads के लिए latency और file-centric features की कमी समस्या बनती है
- Rapid Storage इस समस्या का समाधान stateful gRPC streaming protocol अपनाकर करता है, जबकि object storage की scalability और throughput को बरकरार रखता है
Colossus-आधारित architecture की ताकत
- Colossus, Google का आंतरिक cluster-level file system है, जो high-performance products के लिए foundational technology है
- stateful protocol का उपयोग करके ultra-low-latency data read/write को support करता है
- client file को खोलकर एक handle प्राप्त करता है, जिसके माध्यम से वह सीधे disk से communicate कर सकता है
- RDMA-जैसे protocol का उपयोग करके तेज़ access संभव होता है, और SSD optimization तथा parallel write तकनीकें लागू की गई हैं
- durability की आवश्यकता वाले log write और streaming analytics workloads के लिए उपयुक्त है
Colossus stateful protocol कैसे काम करता है
- file को append mode में खोलने पर Curator एक handle बनाकर client को देता है
- application log data को client में लिखता है, और client handle का उपयोग करके कई disks पर parallel write करता है
- data को durable तरीके से store करने के लिए कई disks पर replication की जाती है, और quorum-based writes से latency को न्यूनतम रखा जाता है
Rapid Storage का प्रदर्शन और उपयोग के उदाहरण
- Cloud Storage client, gRPC stream बनाते समय authentication और metadata access को पहले से process कर लेता है
- इसके बाद की read/write operations सीधे Colossus से जुड़ती हैं, इसलिए ultra-low latency बनी रहती है
- एक bucket पर प्रति सेकंड 2 करोड़ requests संभाले जा सकते हैं — बड़े पैमाने के AI/ML workloads के लिए उपयुक्त
-
AI/ML training के लिए optimized design
- सैकड़ों मिलियन से लेकर अरबों tokens वाले बड़े data files को non-sequential तरीके से पढ़ने के लिए आदर्श
- training शुरू होते समय stream बनाई जा सकती है, और parallel range reads को ultra-low latency के साथ चलाया जा सकता है
- training के दौरान storage latency के बिना data samples को तेज़ी से उपलब्ध कराया जा सकता है
-
सुरक्षित और कुशल Append processing
- एक object के लिए unlimited append संभव है (object size limit के भीतर)
- handle के जरिए stream रुक जाने पर भी reconnect के बाद पढ़ना/लिखना जारी रखा जा सकता है
- एक समय में केवल एक stream ही object पर लिख सकती है — नई stream transaction तरीके से पिछली stream को lock कर देती है
- हर append write offset को स्पष्ट रूप से निर्दिष्ट करता है, जिससे data consistency सुनिश्चित होती है
Rapid Storage integration और API
- SDK को gRPC-आधारित append capability support करने के लिए update किया जा रहा है
- Cloud Storage FUSE में integration होने से Cloud Storage bucket को file system की तरह access किया जा सकता है
- Hierarchical Namespace के साथ भी जुड़ता है, जिससे performance और consistency बेहतर होती है, और folder-based API support मिलता है
Rapid Storage के संयुक्त फायदे
- block storage-स्तर की ultra-low latency
- parallel file system-स्तर का उच्च throughput
- object storage की scalability और सरलता भी उपलब्ध
2 टिप्पणियां
सुना है कि Colossus काफ़ी अच्छा है, लेकिन जिन्होंने इसे वास्तव में अंदर इस्तेमाल किया है, उनका अनुभव कैसा रहा, यह जानने की जिज्ञासा है।
Hacker News टिप्पणियाँ