MemAware – AI एजेंट "मैं क्या जानता हूँ" यह जानता है या नहीं, इसे मापने वाला बेंचमार्क
(github.com/kevin-hs-sohn)AI एजेंट मेमोरी सिस्टम बनाते समय मैंने मौजूदा बेंचमार्क्स की एक साझा सीमा देखी।
LoCoMo, LongMemEval, MemoryAgentBench जैसे मौजूदा मेमोरी बेंचमार्क सब एक ही चीज़ टेस्ट करते हैं: "क्या यह पिछली बातचीत से जवाब ढूँढ़ सकता है?" यह मेमोरी सिस्टम का नहीं, बल्कि सर्च इंजन परफ़ॉर्मेंस का टेस्ट है।
असल multi-session एजेंट्स में मुश्किल बात है यूज़र द्वारा सीधे न बताई गई पुरानी context को खुद याद कर पाना।
उदाहरण
Easy — जब keywords मिलते हों और सर्च से जवाब मिल सके:
"बिल्ली Luna नए सोफ़े को बार-बार खरोंच रही है। कोई training method सुझाओ।"
→ यह याद होना चाहिए कि Luna यूज़र की बिल्ली है
Medium — domain वही हो, लेकिन keywords अलग हों:
"8:30 की meeting के लिए alarm कितने बजे लगाऊँ?"
→ 6 हफ्ते पहले बताई गई 45 मिनट की one-way commute time याद होनी चाहिए। "alarm meeting" से सर्च करने पर commute वाली बातचीत नहीं मिलेगी
Hard — पूरी तरह अलग domains के बीच connection:
"मैंने 2010 में graduate हुए विश्वविद्यालय की transcript माँगी, लेकिन उन्होंने कहा कि मौजूदा नाम से कोई record नहीं है।"
→ यह याद होना चाहिए कि यूज़र ने अपना surname Johnson से बदल लिया था। "transcript" और "name change" में keywords का कोई overlap नहीं है
परिणाम
900 सवालों (हर difficulty में 300) के लिए baseline:
| तरीका | Easy | Medium | Hard | कुल |
|---|---|---|---|---|
| मेमोरी नहीं | 1.0% | 0.7% | 0.7% | 0.8% |
| BM25 सर्च | 4.7% | 1.7% | 2.0% | 2.8% |
| BM25 + vector search | 6.0% | 3.7% | 0.7% | 3.4% |
मुख्य निष्कर्ष:
- BM25 सर्च लगभग कोई मदद नहीं करता। 0.8% → 2.8% का मामूली सुधार, लेकिन tokens की खपत 5 गुना
- vector search भी Hard में 0.7% — यानी बिना मेमोरी के बराबर। semantic similarity से "transcript request" → "name change" जैसा connection नहीं बनता
- "हमेशा सर्च करो" रणनीति सिर्फ़ लागत बढ़ाती है। हर सवाल पर ~4.7K tokens खर्च होते हैं, लेकिन ज़्यादातर irrelevant noise मिलता है
मौजूदा RAG-आधारित मेमोरी सिस्टम (ChatGPT Memory, Mem0, MemGPT आदि) सब "हर बार सर्च" पैटर्न पर चलते हैं, और यह डेटा दिखाता है कि implicit context में इस तरीके की संरचनात्मक सीमा है।
यह LongMemEval (ICLR 2025, MIT license) के session data पर आधारित है, और इसमें अपनी मेमोरी सिस्टम को टेस्ट करने के लिए plugin संरचना दी गई है।
Hard difficulty को हल कर सकने वाले approaches पर राय जानने की उत्सुकता है।
अभी कोई टिप्पणी नहीं है.