Needle in a Needlestack: GPT-4o की memory breakthrough! (NIAN code) - Tom Burns
नया benchmark परिचय
- Needle in a Needlestack एक नया benchmark है जो मापता है कि LLMs (large language models) context window में जानकारी पर कितनी अच्छी तरह ध्यान देते हैं।
- NIAN हजारों limerick वाले prompts बनाता है, और किसी खास स्थान पर मौजूद एक limerick के बारे में सवाल पूछता है।
- उदाहरण prompt में लगभग 2500 limerick शामिल हैं।
- अब तक कोई भी LLM इस benchmark पर बहुत अच्छा प्रदर्शन नहीं कर पाया था।
GPT-4 Turbo और Claude-3 Sonnet के प्रयास
- GPT-4 Turbo और Claude-3 Sonnet के प्रयास:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
GPT-4o की breakthrough
- GPT-4o ने बड़ी breakthrough हासिल की है!
- इस benchmark पर इसने लगभग perfect प्रदर्शन दिखाया।
- यह जानना दिलचस्प होगा कि OpenAI ने GPT-4 Turbo की तुलना में GPT-4o को इतना बेहतर कैसे बनाया, और वह इसे कब सार्वजनिक करेगा।
Mistral models का प्रदर्शन
- Mistral के models इस्तेमाल करने में बहुत अच्छे हैं। API बहुत तेज़ और consistent है।
- लेकिन Mistral का नया 8x22 model इस benchmark पर काफी संघर्ष करता है।
- prompt की शुरुआत में भी सवाल का सही जवाब देने की संभावना सिर्फ 50% है।
- Mistral large ने बेहतर प्रदर्शन किया, लेकिन फिर भी accuracy 70% तक ही रही।
- नोट: token count का अनुमान OpenAI tokenizer से लगाया गया है। Mistral एक अलग tokenizer इस्तेमाल करता है जो लगभग 25% अधिक tokens बनाता है, इसलिए graph में token count वास्तविक संख्या से कम है।
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
छोटे prompts में प्रदर्शन
- models छोटे prompts में कहीं बेहतर प्रदर्शन करते हैं।
- उदाहरण: 16k token prompt और 32k token prompt पर Mistral 7b के प्रदर्शन की तुलना।
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
जानकारी दोहराने का महत्व
- इस test में जानकारी दोहराने से बड़ा फर्क पड़ता है।
- GPT-3.5-turbo का प्रदर्शन तब नाटकीय रूप से सुधरता है जब prompt में पूछे जा रहे limerick को 10 बार दोहराया जाता है।
- limerick used once
- limerick used 10 times
benchmark code और अतिरिक्त जानकारी
- इस benchmark का code यहाँ देखा जा सकता है।
- अतिरिक्त model support आसानी से जोड़ा जा सकता है।
- जवाबों का मूल्यांकन कैसे किया जाता है और सवालों की validation कैसे होती है, इसकी अधिक जानकारी methodology page पर उपलब्ध है।
- अगर कोई प्रश्न हो, तो संपर्क करें।
- यह site open source है। इस page को बेहतर बनाएँ।
GN⁺ की राय
- तकनीकी प्रगति: GPT-4o का प्रदर्शन LLM memory और attention में बड़े सुधार को दिखाता है। इससे अधिक जटिल tasks करने की संभावना खुलती है।
- model selection: अलग-अलग models के प्रदर्शन की तुलना करते समय, किसी खास task के लिए सही model चुनना महत्वपूर्ण है। उदाहरण के लिए, छोटे prompts पर बेहतर प्रदर्शन करने वाले model को चुनना फायदेमंद हो सकता है।
- repetition learning का महत्व: जानकारी की पुनरावृत्ति model के प्रदर्शन पर क्या असर डालती है, इसे ध्यान में रखना चाहिए। यह data preparation और prompt design में महत्वपूर्ण तत्व हो सकता है।
- open source के फायदे: इस benchmark का open source होना researchers और developers को स्वतंत्र रूप से इसे access और improve करने का अवसर देता है। इससे community के विकास में योगदान मिल सकता है।
- भविष्य की दिशा: GPT-4o जैसे models की प्रगति AI के विभिन्न application क्षेत्रों में innovation ला सकती है। लेकिन ऐसी तकनीकों को अपनाते समय ethical considerations और responsible use ज़रूरी हैं।
2 टिप्पणियां
तकनीकी प्रगति सच में बहुत जबरदस्त है.. sobs
Hacker News राय
हैकर न्यूज़ टिप्पणियों के मुख्य बिंदुओं का सारांश
कानूनी दस्तावेज़ों की तुलना में त्रुटियाँ
Limericks डेटासेट पर आधारित
Needle in the Haystack टेस्ट की सीमाएँ
Gemini Pro 1.5 का प्रदर्शन
"Synthesis from Haystack" टेस्ट की आवश्यकता
GPT का उपयोग करके HTML layout conversion
GPT-4o की बेहतर attention
LLM evaluation की कठिनाई
training dataset पर सवाल