Vertex AI Context Caching + Priority PayGo latency benchmark (400 बार, Gemini 3 Flash)
(cloudturing.com)AI चैटबॉट सेवा में इस्तेमाल होने वाले ~7,500-token system prompt (input) और ~100-token response (output) के आधार पर, Vertex AI के Context Caching और हाल ही में आए नए Priority PayGo के latency सुधार प्रभाव का benchmark किया गया।
- 4 scenario (Standard/Priority × caching/non-caching), प्रत्येक 100 बार, कुल 400 request
- मॉडल: gemini-3-flash-preview
- request method: 1-second interval staggered start
मुख्य परिणाम:
- Context Caching: caching हो या न हो, औसत response time लगभग समान (~3 सेकंड)
- Priority PayGo: non-congested समय में उल्टा 3~7% धीमा
- non-caching scenario में भी यह पुष्टि हुई कि Vertex AI आंतरिक रूप से Implicit Caching करता है
- Thinking Level के अनुसार latency का अंतर बेहद बड़ा: DEFAULT 7.4 सेकंड → LOW 3 सेकंड → MINIMAL 2.6 सेकंड
निष्कर्ष: caching या priority setting से ज़्यादा, request structure को बदलना latency optimization के लिए अधिक प्रभावी है
अभी कोई टिप्पणी नहीं है.