Hyperspace - Apache Spark के लिए MS द्वारा जारी किया गया indexing subsystem open source
(microsoft.github.io)Apache Spark में index-आधारित query acceleration संभव बनाने वाला subsystem
→ CSV, JSON, Parquet डेटा के लिए index बनाना और मैनेज करना
→ इन index का अपने-आप उपयोग करके, code में बदलाव किए बिना query/workload को तेज़ करना
- TPC benchmark में individual query के लिए query speed में अधिकतम 11x तक वृद्धि
→ कुल मिलाकर सामान्य hardware पर लगभग 2x query performance acceleration
-
create,refresh,delete,restore,vacuum,cancelजैसी सरल API -
Scala, Python, .NET सपोर्ट
Microsoft Azure cloud के Azure Synapse Analytics में उपयोग किया जा रहा है
( enterprise data warehousing और big data analytics को जोड़ने वाली unlimited analytics service )
1 टिप्पणियां
परिचय लेख: Apache Spark™ के लिए indexing subsystem, Hyperspace, अब open source है
https://cloudblogs.microsoft.com/opensource/2020/…