Vertex AI Context Caching + Priority PayGo latency benchmark (400 बार, Gemini 3 Flash)

(cloudturing.com)

1 पॉइंट द्वारा calmlake79 2026-02-12 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

AI चैटबॉट सेवा में इस्तेमाल होने वाले ~7,500-token system prompt (input) और ~100-token response (output) के आधार पर, Vertex AI के Context Caching और हाल ही में आए नए Priority PayGo के latency सुधार प्रभाव का benchmark किया गया।

4 scenario (Standard/Priority × caching/non-caching), प्रत्येक 100 बार, कुल 400 request
मॉडल: gemini-3-flash-preview
request method: 1-second interval staggered start

मुख्य परिणाम:

Context Caching: caching हो या न हो, औसत response time लगभग समान (~3 सेकंड)
Priority PayGo: non-congested समय में उल्टा 3~7% धीमा
non-caching scenario में भी यह पुष्टि हुई कि Vertex AI आंतरिक रूप से Implicit Caching करता है
Thinking Level के अनुसार latency का अंतर बेहद बड़ा: DEFAULT 7.4 सेकंड → LOW 3 सेकंड → MINIMAL 2.6 सेकंड

निष्कर्ष: caching या priority setting से ज़्यादा, request structure को बदलना latency optimization के लिए अधिक प्रभावी है

Vertex AI Context Caching + Priority PayGo latency benchmark (400 बार, Gemini 3 Flash)

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.