• Prompt Caching API उपयोग को ऑप्टिमाइज़ करता है और प्रॉम्प्ट के किसी खास prefix से काम को फिर से शुरू करने देता है
    • बड़े prompts को कई API calls में दोबारा प्रोसेस किए बिना reuse करके, दोहराए जाने वाले कामों में प्रोसेसिंग समय और लागत को काफी कम करता है
  • यह कैसे काम करता है
    • प्रॉम्प्ट Prefix caching: सिस्टम यह जांचता है कि हाल की query में प्रॉम्प्ट Prefix cache किया गया है या नहीं। अगर मिलता है, तो प्रोसेसिंग समय और लागत कम करने के लिए cached version का उपयोग किया जाता है। नहीं मिलने पर पूरा prompt प्रोसेस किया जाता है और Prefix को cache किया जाता है।
    • उपयोग के मामले: बहुत सारे examples वाले prompts, बड़ी मात्रा में context या background information, लगातार निर्देशों वाले दोहरावदार काम, और लंबे multi-turn conversations में उपयोगी
    • कैश lifetime: cache 5 मिनट तक वैध रहता है, और cached content हर बार इस्तेमाल होने पर refresh हो जाता है
  • cache होने वाली prompt सामग्री
    • tools, system, messages (इसी क्रम में) सहित पूरे prompt को refer करता है। इसमें cache_control से निर्दिष्ट block तक शामिल होता है
  • कीमत
    • Claude 3.5 Sonnet: base input token $3 / MTok, cache write $3.75 / MTok, cache read $0.30 / MTok, output token $15 / MTok
    • Claude 3 Haiku: base input token $0.25 / MTok, cache write $0.30 / MTok, cache read $0.03 / MTok, output token $1.25 / MTok
    • Claude 3 Opus (जल्द जारी): base input token $15 / MTok, cache write $18.75 / MTok, cache read $1.50 / MTok, output token $75 / MTok
  • मुख्य बिंदु
    • cache write tokens, base input tokens की तुलना में 25% महंगे हैं
    • cache read tokens, base input tokens की तुलना में 90% सस्ते हैं
  • cache सीमाएँ
    • cache किए जा सकने वाले prompt की न्यूनतम लंबाई:
      • Claude 3.5 Sonnet और Claude 3 Opus: 1024 tokens
      • Claude 3 Haiku: 2048 tokens
    • 5 मिनट का cache TTL है, और फिलहाल "ephemeral" ही इस 5-मिनट lifetime के लिए समर्थित एकमात्र cache type है
  • विभिन्न use cases
    • संवादी agent: लंबे निर्देशों या uploaded documents वाली बातचीत में लागत और latency कम कर सकता है
    • coding assistant: प्रॉम्प्ट में संबंधित sections या codebase के summary version को बनाए रखकर autocomplete और codebase Q&A performance बेहतर करता है
    • बड़े दस्तावेज़ों की प्रोसेसिंग: images सहित लंबे format की सामग्री को prompt में शामिल करके भी response latency के बिना प्रोसेस किया जा सकता है
    • विस्तृत instruction sets: 20 से अधिक अलग-अलग high-quality उत्तर उदाहरण शामिल करके Claude के responses को और बारीकी से tune करता है
    • agent tool use: कई tool calls और दोहरावदार code changes वाले scenarios में performance बेहतर कर सकता है
    • किताबें, शोधपत्र, दस्तावेज़, podcast transcripts और अन्य long-form content पर बातचीत: पूरे document(s) को prompt में शामिल करके उपयोगकर्ता को उन पर सवाल पूछने देता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.