AI चैटबॉट सेवा में इस्तेमाल होने वाले ~7,500-token system prompt (input) और ~100-token response (output) के आधार पर, Vertex AI के Context Caching और हाल ही में आए नए Priority PayGo के latency सुधार प्रभाव का benchmark किया गया।

  • 4 scenario (Standard/Priority × caching/non-caching), प्रत्येक 100 बार, कुल 400 request
  • मॉडल: gemini-3-flash-preview
  • request method: 1-second interval staggered start

मुख्य परिणाम:

  • Context Caching: caching हो या न हो, औसत response time लगभग समान (~3 सेकंड)
  • Priority PayGo: non-congested समय में उल्टा 3~7% धीमा
  • non-caching scenario में भी यह पुष्टि हुई कि Vertex AI आंतरिक रूप से Implicit Caching करता है
  • Thinking Level के अनुसार latency का अंतर बेहद बड़ा: DEFAULT 7.4 सेकंड → LOW 3 सेकंड → MINIMAL 2.6 सेकंड

निष्कर्ष: caching या priority setting से ज़्यादा, request structure को बदलना latency optimization के लिए अधिक प्रभावी है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.