- कुछ दिन पहले किसी ने चौंकाने वाले benchmark नतीजों के साथ Reflection 70B की घोषणा की, जिसे Llama 3.1 70B का fine-tuned version बताया गया
- Weight release बुरी तरह गड़बड़ था। 3.1 के लिए fine-tuning का दावा किया गया, लेकिन 3.0 के लिए LoRA जारी किया गया
- जारी किए गए weights के साथ चलाने पर शुरुआत में evaluation उम्मीद के मुताबिक नहीं था
- Hosted endpoint का इस्तेमाल करने पर evaluation ने SOTA स्तर जैसा प्रदर्शन करना शुरू किया
- लोगों ने endpoint पर वास्तव में कौन-सा model चल रहा है, यह पता लगाने का एक चतुर तरीका खोज लिया
- model-specific tokens और model-specific censorship के इस्तेमाल से
- जो सामने आया, उसके मुताबिक दावा है कि यह उनका अपना fine-tuned model नहीं, बल्कि Sonnet 3.5 को wrap करके पेश किया गया था
- Twitter पर यह पोस्ट होने के बाद कि यह Sonnet है, सामग्री बदल गई
- फिर एक दूसरे user ने दावा किया कि उसने इसी तरह के तरीके से hosted model को GPT 4o में बदले जाने के सबूत पाए
- नतीजे मिले-जुले और असंगत हैं, इसलिए क्या सच है और क्या झूठ, यह स्पष्ट नहीं है
- मूल निर्माता का release tweet: https://twitter.com/mattshumer_/status/1831767014341538166
- वह tweet thread जो prompt के ज़रिए लगातार कुछ बदलता जा रहा है, इसे track करती है: https://x.com/RealJosephus/status/1832904398831280448
1 टिप्पणियां
Hacker News राय
Llama 3.1 70B मॉडल के प्रदर्शन को शानदार बताया गया था, लेकिन कई समस्याएँ सामने आईं
दावा किया गया कि इस पोस्ट को और अधिक ध्यान मिलना चाहिए
claudefiltering, tag errors, और मॉडल के खुद को claude मानने के सबूत मौजूद हैंलोग प्रसिद्धि के लिए बहुत कुछ करते हैं; Schumer का अंतिम लक्ष्य क्या है, यह जानने की जिज्ञासा है
लेखक का मूल tweet (जो जल्द हटाया जाने वाला है)
एक मज़ाक है जिसमें कहा गया है कि नाम "odd" से rhyme करता है और तीसरे अक्षर से शुरू होता है (C*** Debussy)
यह जिज्ञासा जताई गई कि क्या किसी विश्वसनीय स्रोत से "पुष्टि" मिली है; Reddit पोस्ट, Twitter thread, और अस्पष्ट स्रोतों वाले screenshots पर भरोसा करना मुश्किल है