4 पॉइंट द्वारा GN⁺ 2024-05-15 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Needle in a Needlestack: GPT-4o की memory breakthrough! (NIAN code) - Tom Burns

नया benchmark परिचय

  • Needle in a Needlestack एक नया benchmark है जो मापता है कि LLMs (large language models) context window में जानकारी पर कितनी अच्छी तरह ध्यान देते हैं।
  • NIAN हजारों limerick वाले prompts बनाता है, और किसी खास स्थान पर मौजूद एक limerick के बारे में सवाल पूछता है।
  • उदाहरण prompt में लगभग 2500 limerick शामिल हैं।
  • अब तक कोई भी LLM इस benchmark पर बहुत अच्छा प्रदर्शन नहीं कर पाया था।

GPT-4 Turbo और Claude-3 Sonnet के प्रयास

  • GPT-4 Turbo और Claude-3 Sonnet के प्रयास:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

GPT-4o की breakthrough

  • GPT-4o ने बड़ी breakthrough हासिल की है!
  • इस benchmark पर इसने लगभग perfect प्रदर्शन दिखाया।
  • यह जानना दिलचस्प होगा कि OpenAI ने GPT-4 Turbo की तुलना में GPT-4o को इतना बेहतर कैसे बनाया, और वह इसे कब सार्वजनिक करेगा।

Mistral models का प्रदर्शन

  • Mistral के models इस्तेमाल करने में बहुत अच्छे हैं। API बहुत तेज़ और consistent है।
  • लेकिन Mistral का नया 8x22 model इस benchmark पर काफी संघर्ष करता है।
    • prompt की शुरुआत में भी सवाल का सही जवाब देने की संभावना सिर्फ 50% है।
    • Mistral large ने बेहतर प्रदर्शन किया, लेकिन फिर भी accuracy 70% तक ही रही।
  • नोट: token count का अनुमान OpenAI tokenizer से लगाया गया है। Mistral एक अलग tokenizer इस्तेमाल करता है जो लगभग 25% अधिक tokens बनाता है, इसलिए graph में token count वास्तविक संख्या से कम है।
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

छोटे prompts में प्रदर्शन

  • models छोटे prompts में कहीं बेहतर प्रदर्शन करते हैं।
  • उदाहरण: 16k token prompt और 32k token prompt पर Mistral 7b के प्रदर्शन की तुलना।
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

जानकारी दोहराने का महत्व

  • इस test में जानकारी दोहराने से बड़ा फर्क पड़ता है।
  • GPT-3.5-turbo का प्रदर्शन तब नाटकीय रूप से सुधरता है जब prompt में पूछे जा रहे limerick को 10 बार दोहराया जाता है।
    • limerick used once
    • limerick used 10 times

benchmark code और अतिरिक्त जानकारी

  • इस benchmark का code यहाँ देखा जा सकता है।
  • अतिरिक्त model support आसानी से जोड़ा जा सकता है।
  • जवाबों का मूल्यांकन कैसे किया जाता है और सवालों की validation कैसे होती है, इसकी अधिक जानकारी methodology page पर उपलब्ध है।
  • अगर कोई प्रश्न हो, तो संपर्क करें।
  • यह site open source है। इस page को बेहतर बनाएँ

GN⁺ की राय

  • तकनीकी प्रगति: GPT-4o का प्रदर्शन LLM memory और attention में बड़े सुधार को दिखाता है। इससे अधिक जटिल tasks करने की संभावना खुलती है।
  • model selection: अलग-अलग models के प्रदर्शन की तुलना करते समय, किसी खास task के लिए सही model चुनना महत्वपूर्ण है। उदाहरण के लिए, छोटे prompts पर बेहतर प्रदर्शन करने वाले model को चुनना फायदेमंद हो सकता है।
  • repetition learning का महत्व: जानकारी की पुनरावृत्ति model के प्रदर्शन पर क्या असर डालती है, इसे ध्यान में रखना चाहिए। यह data preparation और prompt design में महत्वपूर्ण तत्व हो सकता है।
  • open source के फायदे: इस benchmark का open source होना researchers और developers को स्वतंत्र रूप से इसे access और improve करने का अवसर देता है। इससे community के विकास में योगदान मिल सकता है।
  • भविष्य की दिशा: GPT-4o जैसे models की प्रगति AI के विभिन्न application क्षेत्रों में innovation ला सकती है। लेकिन ऐसी तकनीकों को अपनाते समय ethical considerations और responsible use ज़रूरी हैं।

2 टिप्पणियां

 
wedding 2024-05-18

तकनीकी प्रगति सच में बहुत जबरदस्त है.. sobs

 
GN⁺ 2024-05-15
Hacker News राय

हैकर न्यूज़ टिप्पणियों के मुख्य बिंदुओं का सारांश

  • कानूनी दस्तावेज़ों की तुलना में त्रुटियाँ

    • दो छोटे कानूनी दस्तावेज़ों की तुलना करते समय, GPT-4 ने गलत तरीके से पहचाना कि कुछ आइटम केवल एक दस्तावेज़ में हैं। वास्तव में, सामग्री एक ही थी।
    • यह एक ही सैंपल था, लेकिन 90% accuracy पर संदेह है। यह लगभग 80k tokens था।
  • Limericks डेटासेट पर आधारित

    • यह 2021 में प्रकाशित limericks डेटासेट पर आधारित है। संभावना है कि GPT-4o को इसी डेटासेट पर train किया गया हो।
    • NIAN टीम को किसी दूसरे model का उपयोग करके limericks generate करने चाहिए और जांचना चाहिए कि वे डेटासेट में शामिल नहीं हैं।
  • Needle in the Haystack टेस्ट की सीमाएँ

    • यह टेस्ट मॉडल की वास्तविक long-context processing क्षमता को सीमित रूप से दिखाता है। शुरुआती models इस टेस्ट में खराब प्रदर्शन करते थे, इसलिए इसका मुख्य रूप से उपयोग हुआ।
    • हाल के models इस टेस्ट में अच्छा प्रदर्शन दिखाते हैं, लेकिन 32K tokens के बाद जटिल कार्य करने की क्षमता काफी गिर जाती है।
    • RULER टेस्ट एक बेहतर evaluation method है।
  • Gemini Pro 1.5 का प्रदर्शन

    • Gemini Pro 1.5 पूरे Moby Dick और Byung Chul-Han की सभी किताबों को process कर सका। उसने सवालों के जवाब सटीक रूप से ढूंढ लिए।
  • "Synthesis from Haystack" टेस्ट की आवश्यकता

    • सिर्फ retrieval नहीं, बल्कि गहरी समझ, connections और abstraction को test करने का तरीका चाहिए।
    • इंसान जब किताब पढ़ता है, तो उसके पास एक समग्र intuition होती है। इसे quantify करने का तरीका चाहिए।
  • GPT का उपयोग करके HTML layout conversion

    • GPT का उपयोग करके dynamic data को real time में सुंदर HTML layout में बदला जा सकता है। इससे development time बचता है और data structure बदलने पर भी HTML update किया जा सकता है।
    • पहले के प्रयासों में GPT-4 Turbo कभी-कभी context और instructions को ignore कर देता था।
  • GPT-4o की बेहतर attention

    • GPT-4o, GPT-4 Turbo और Claude-3 Sonnet की तुलना में पूरे input window में बेहतर attention दिखाता है।
    • "Needle In A Needlestack" टेस्ट एक अच्छा अगला कदम है। इसमें हजारों limericks वाले prompt में किसी खास position के limerick के बारे में सवाल शामिल होता है।
  • LLM evaluation की कठिनाई

    • एक राय यह है कि public internet पर वास्तविक LLM evaluation ठीक से करने वाले लोग लगभग नहीं हैं।
  • training dataset पर सवाल

    • इस पर सवाल है कि यह कैसे पता चले कि GPT-4o को इस डेटासेट पर train नहीं किया गया था।
    • यह तभी सार्थक है जब यह पता हो कि test data training data में शामिल नहीं था।