OpenCode Go इस्तेमाल करते समय मैंने dashboard में एक अजीब चीज़ देखी। वही model, मिलते-जुलते input tokens (300K vs 257K), लेकिन लागत $0.0096 vs $0.4455 — यानी 46 गुना अंतर। वजह है prompt caching.
जब एक जैसा prefix बार-बार दोहराया जाता है, तो LLM पिछली computation को reuse करता है, लेकिन ज़्यादातर coding agents हर turn में पूरी conversation history (transcript) ज्यों की त्यों भेजते हैं। शुरुआत में cache की वजह से यह सस्ता लगता है, लेकिन context window भर जाने पर compaction होता है, prefix टूट जाता है, और cache invalidate हो जाता है.
इस लेख में transcript तरीके की छिपी हुई लागत और सिर्फ structured state भेजने वाले एक वैकल्पिक approach का विश्लेषण किया गया है, साथ ही एक वास्तविक 44-turn debugging session के डेटा (tokens में 80.4% कमी) के साथ। नज़रिया सिर्फ cache होने या न होने का नहीं, बल्कि "ऐसी संरचना जहाँ पता नहीं cache कब टूट जाए" और "ऐसी संरचना जो cache पर निर्भर नहीं करती" के बीच के अंतर का है.
अभी कोई टिप्पणी नहीं है.