3 पॉइंट द्वारा GN⁺ 2024-09-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • कुछ दिन पहले किसी ने चौंकाने वाले benchmark नतीजों के साथ Reflection 70B की घोषणा की, जिसे Llama 3.1 70B का fine-tuned version बताया गया
    • Weight release बुरी तरह गड़बड़ था। 3.1 के लिए fine-tuning का दावा किया गया, लेकिन 3.0 के लिए LoRA जारी किया गया
    • जारी किए गए weights के साथ चलाने पर शुरुआत में evaluation उम्मीद के मुताबिक नहीं था
    • Hosted endpoint का इस्तेमाल करने पर evaluation ने SOTA स्तर जैसा प्रदर्शन करना शुरू किया
  • लोगों ने endpoint पर वास्तव में कौन-सा model चल रहा है, यह पता लगाने का एक चतुर तरीका खोज लिया
    • model-specific tokens और model-specific censorship के इस्तेमाल से
    • जो सामने आया, उसके मुताबिक दावा है कि यह उनका अपना fine-tuned model नहीं, बल्कि Sonnet 3.5 को wrap करके पेश किया गया था
    • Twitter पर यह पोस्ट होने के बाद कि यह Sonnet है, सामग्री बदल गई
    • फिर एक दूसरे user ने दावा किया कि उसने इसी तरह के तरीके से hosted model को GPT 4o में बदले जाने के सबूत पाए
  • नतीजे मिले-जुले और असंगत हैं, इसलिए क्या सच है और क्या झूठ, यह स्पष्ट नहीं है
  • मूल निर्माता का release tweet: https://twitter.com/mattshumer_/status/1831767014341538166
  • वह tweet thread जो prompt के ज़रिए लगातार कुछ बदलता जा रहा है, इसे track करती है: https://x.com/RealJosephus/status/1832904398831280448

1 टिप्पणियां

 
GN⁺ 2024-09-10
Hacker News राय
  • Llama 3.1 70B मॉडल के प्रदर्शन को शानदार बताया गया था, लेकिन कई समस्याएँ सामने आईं

    • Lora for Llama 3.0 के weights गलत तरीके से वितरित किए गए
    • शुरुआती मूल्यांकन उम्मीदों पर खरा नहीं उतरा
    • hosted endpoint पर SOTA प्रदर्शन दिखा
    • असल में यह कौन-सा मॉडल था, यह पुष्टि करने के लिए कई तरीके इस्तेमाल किए गए
    • पता चला कि इसमें Sonnet 3.5 मॉडल का उपयोग किया गया था
    • बाद में GPT 4o मॉडल पर स्विच किए जाने के सबूत मिले
    • इससे भ्रम और समय की बर्बादी हुई
  • दावा किया गया कि इस पोस्ट को और अधिक ध्यान मिलना चाहिए

    • AI क्षेत्र के एक बड़े नाम वाले व्यक्ति की प्रतिष्ठा को नुकसान पहुँचा
    • claude filtering, tag errors, और मॉडल के खुद को claude मानने के सबूत मौजूद हैं
    • सबसे निर्णायक बात यह थी कि मॉडल ने अरबी में सवालों के जवाब दिए, जबकि Llama version में इसका समर्थन नहीं था
  • लोग प्रसिद्धि के लिए बहुत कुछ करते हैं; Schumer का अंतिम लक्ष्य क्या है, यह जानने की जिज्ञासा है

  • लेखक का मूल tweet (जो जल्द हटाया जाने वाला है)

    हमें दुनिया के सर्वश्रेष्ठ open source मॉडल, Reflection 70B, की घोषणा करते हुए खुशी हो रही है.  
    इसे Reflection-Tuning का उपयोग करके train किया गया है, जिससे LLM अपनी खुद की गलतियों को सुधार सके.  
    405B अगले हफ्ते आने वाला है, और उम्मीद है कि यह दुनिया का सर्वश्रेष्ठ मॉडल होगा.  
    
  • एक मज़ाक है जिसमें कहा गया है कि नाम "odd" से rhyme करता है और तीसरे अक्षर से शुरू होता है (C*** Debussy)

  • यह जिज्ञासा जताई गई कि क्या किसी विश्वसनीय स्रोत से "पुष्टि" मिली है; Reddit पोस्ट, Twitter thread, और अस्पष्ट स्रोतों वाले screenshots पर भरोसा करना मुश्किल है