• यह quantization algorithms का एक सेट है जो high-dimensional vectors की memory overhead समस्या को मूल रूप से हल करता है, और LLM के key-value cache compression तथा vector search दोनों पर लागू किया जा सकता है
  • PolarQuant से data को high-quality में compress करने के बाद, QJL algorithm केवल 1-bit से residual error को हटाता है — यह एक 2-stage compression architecture है
  • training या fine-tuning के बिना key-value cache को 3-bit तक quantize करते हुए भी model accuracy में कोई गिरावट नहीं होती, और H100 GPU पर अधिकतम 8x performance improvement हासिल किया गया
  • vector search में भी बड़े codebook या dataset-specific tuning के बिना optimal recall ratio दर्ज किया गया, और मौजूदा state-of-the-art techniques से बेहतर प्रदर्शन किया
  • यह एक मूलभूत algorithmic contribution है जिसमें theoretical lower bound के करीब पहुँचने वाली provable efficiency है, और Gemini जैसे models व large-scale semantic search infrastructure में इसकी अहम भूमिका की उम्मीद है

वेक्टर और quantization की पृष्ठभूमि

  • वेक्टर वह मूलभूत तरीका हैं जिनसे AI models जानकारी को समझते और process करते हैं; high-dimensional vectors image features, शब्दों के अर्थ, और dataset properties जैसी जटिल जानकारी को दर्शाते हैं
  • high-dimensional vectors बहुत अधिक memory का उपयोग करते हैं, जिससे key-value cache (अक्सर उपयोग होने वाली जानकारी को सरल labels के रूप में संग्रहीत कर तुरंत खोजने योग्य बनाने वाली तेज digital reference sheet) में bottleneck पैदा होता है
  • vector quantization high-dimensional vectors का आकार घटाने की एक पारंपरिक data compression technique है, जो vector search की speed बढ़ाने और key-value cache bottleneck कम करने में मदद करती है
  • पारंपरिक vector quantization में छोटे data blocks के लिए quantization constants को full precision में compute और store करना पड़ता है, जिससे स्वयं memory overhead पैदा होता है; हर संख्या पर 1~2 bits की अतिरिक्त लागत quantization के उद्देश्य को आंशिक रूप से कम कर देती है

TurboQuant कैसे काम करता है

  • TurboQuant एक compression method है जो accuracy loss के बिना model size में बड़ी कमी हासिल करता है, और key-value cache compression तथा vector search दोनों को support करता है
  • यह दो मुख्य चरणों से बना है:

चरण 1: high-quality compression (PolarQuant method)

  • data vectors को random rotation किया जाता है ताकि data की geometric structure सरल हो जाए, फिर standard high-quality quantizer को vector के हर हिस्से पर अलग-अलग लागू किया जाता है
  • इस चरण में अधिकांश bits का उपयोग करके original vector की मुख्य अवधारणाओं और उनकी intensity को capture किया जाता है

चरण 2: छिपी हुई error को हटाना

  • चरण 1 के बाद बची सूक्ष्म error पर QJL algorithm को केवल 1-bit residual compression power के साथ लागू किया जाता है
  • QJL एक mathematical error checker की तरह काम करता है और bias को हटाकर अधिक सटीक attention scores देता है

QJL: zero-overhead 1-bit technique

  • यह Johnson-Lindenstrauss transform का उपयोग करके high-dimensional data को घटाता है, जबकि data points के बीच की मुख्य distance और relationships को सुरक्षित रखता है
  • परिणामस्वरूप vector की हर संख्या को एक single sign bit (+1 या -1) तक घटा दिया जाता है, जिससे memory overhead शून्य हो जाता है
  • accuracy बनाए रखने के लिए high-precision queries और low-precision simplified data के बीच रणनीतिक संतुलन बनाने वाला एक special estimator इस्तेमाल किया जाता है
  • इससे model attention scores को सटीक रूप से compute कर सकता है, जो यह तय करते हैं कि input के कौन से हिस्से महत्वपूर्ण हैं और किन्हें नज़रअंदाज़ किया जा सकता है

PolarQuant: compression के लिए एक नया "angle"

  • यह memory overhead समस्या को पूरी तरह अलग तरीके से हल करने वाला approach है
  • standard coordinates (X, Y, Z) की जगह vector को polar coordinates में बदला जाता है — जैसे "पूर्व में 3 blocks, उत्तर में 4 blocks" को "37 degree दिशा में 5 blocks" से बदलना
  • इस transformation का परिणाम दो तरह की जानकारी से बनता है: core data की intensity दिखाने वाला radius और data की direction/meaning दिखाने वाले angles
  • क्योंकि angles के patterns ज्ञात और अत्यधिक concentrated होते हैं, इसलिए लगातार बदलती सीमाओं वाली "square" grid के बजाय पहले से ज्ञात सीमाओं वाली fixed "circular" grid पर data map किया जा सकता है, जिससे महँगा data normalization step हट जाता है
  • d-dimensional vector में coordinate pairs को group करके polar coordinate system में map किया जाता है, फिर radii को pairs में जोड़कर recursive polar transform दोहराया जाता है, और अंत में यह एक radius तथा descriptive angles के set में distilled हो जाता है

experiments और results

long-context benchmark performance

  • LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval जैसे standard long-context benchmarks पर open-source LLMs (Gemma, Mistral) का उपयोग कर evaluation किया गया
  • TurboQuant ने dot product distortion और recall दोनों में optimal scores हासिल किए, साथ ही key-value memory footprint को न्यूनतम रखा
  • Llama-3.1-8B-Instruct model में question answering, code generation, summarization जैसी विभिन्न tasks पर KIVI baseline के मुकाबले मजबूत performance दिखाया

Needle-in-Haystack task

  • बड़े text में specific information खोजने वाले test में TurboQuant ने सभी benchmarks पर perfect downstream results हासिल किए
  • key-value memory size को कम से कम 6x घटा दिया गया
  • PolarQuant ने भी इस task में लगभग lossless स्तर का प्रदर्शन किया

runtime performance

  • training या fine-tuning के बिना key-value cache को 3-bit में quantize करते हुए भी model accuracy पर कोई समझौता नहीं
  • original LLM से तेज runtime हासिल किया गया; implementation अत्यधिक efficient है और runtime overhead नगण्य है
  • 4-bit TurboQuant ने H100 GPU पर 32-bit unquantized keys की तुलना में attention logits computation में अधिकतम 8x performance improvement दिखाया, JAX-optimized baseline के मुकाबले मापा गया

vector search performance

  • high-dimensional vector search में PQ, RabbiQ जैसी state-of-the-art techniques के साथ comparative evaluation किया गया
  • 1@k recall ratio का उपयोग किया गया, जो यह मापता है कि algorithm top-k approximations में वास्तविक top inner-product result को कितनी बार पकड़ता है
  • बड़े लेकिन inefficient codebooks और dataset-specific tuning का उपयोग करने वाले baselines की तुलना में TurboQuant ने लगातार बेहतर recall ratio दर्ज किया
  • GloVe dataset (d=200) में विभिन्न latest quantization baselines के मुकाबले optimal 1@k recall ratio हासिल किया
  • data-oblivious तरीके से near-optimal distortion rate प्रदान करते हुए, 3-bit system की efficiency के साथ कहीं अधिक भारी models की precision बनाए रखी

आगे की संभावनाएँ

  • TurboQuant, QJL, और PolarQuant केवल practical engineering solutions नहीं हैं, बल्कि मजबूत theoretical proofs से समर्थित मूलभूत algorithmic contributions भी हैं
  • इनमें provable efficiency है और ये theoretical lower bounds के करीब काम करते हैं, इसलिए large-scale core systems में मजबूत और भरोसेमंद हैं
  • Gemini जैसे models के key-value cache bottleneck को हल करना एक प्रमुख उपयोग है, लेकिन efficient online vector quantization का प्रभाव इससे कहीं व्यापक है
  • जैसे-जैसे आधुनिक search keyword-centric approach से आगे बढ़कर intent और meaning की समझ की ओर जा रही है, वैसे-वैसे अरबों vectors वाले databases में semantically सबसे similar items खोजने के लिए vector search अनिवार्य हो रहा है
  • TurboQuant न्यूनतम memory, लगभग zero preprocessing time, और state-of-the-art accuracy के साथ large-scale vector indexes को build और query करने में सक्षम बनाता है, जिससे Google-scale semantic search को अधिक तेज और efficient बनाया जा सकता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.