- खुली संवाद प्रणालियों में उपयोग होने वाले बड़े भाषा मॉडल (LLMs) की दीर्घकालिक स्मृति क्षमता बढ़ाने के लिए एक नई विधि पर शोधपत्र
- दीर्घ संवादों में महत्वपूर्ण जानकारी भूल जाना खुली संवाद प्रणालियों की एक महत्वपूर्ण समस्या है
- मौजूदा समाधान आमतौर पर संवाद सामग्री से मुख्य जानकारी प्राप्त करने के लिए विशेष retriever या summarizer को train करते हैं, लेकिन इसमें बहुत समय लगता है और यह labeled data की गुणवत्ता पर बहुत अधिक निर्भर करता है
- प्रस्तावित विधि LLMs का उपयोग करके सारांश या मेमोरी को रिकर्सिव रूप से उत्पन्न कर इस समस्या को कम करने का प्रयास करती है
- इस विधि में पहले LLMs को छोटे संवाद संदर्भों को याद रखने दिया जाता है, फिर पिछली मेमोरी और बाद के संदर्भ का उपयोग करके नई मेमोरी को रिकर्सिव रूप से बनाया जाता है
- नवीनतम मेमोरी की मदद से LLM बहुत अधिक सुसंगत प्रतिक्रियाएँ उत्पन्न कर सकता है
- इस विधि का मूल्यांकन ChatGPT और text-davinci-003 का उपयोग करके किया गया, और व्यापक रूप से उपयोग किए जाने वाले सार्वजनिक dataset पर किए गए प्रयोगों ने दिखाया कि यह दीर्घ संदर्भ वाले संवादों में अधिक सुसंगत प्रतिक्रियाएँ उत्पन्न कर सकती है
- यह विधि LLM को अत्यंत लंबे संदर्भ को मॉडल करने में सक्षम बनाने के लिए एक संभावित समाधान है
- इस विधि के लिए code और script भविष्य में सार्वजनिक किए जाएंगे
- इस शोध को Simons Foundation, सदस्य संस्थानों और सभी योगदानकर्ताओं का समर्थन प्राप्त था
1 टिप्पणियां
Hacker News टिप्पणी