8 पॉइंट द्वारा GN⁺ 2024-08-19 | 3 टिप्पणियां | WhatsApp पर शेयर करें

"क्या आप language model से ज़्यादा स्मार्ट हैं?"

कई benchmark यह आकलन करने की कोशिश करते हैं कि language model इंसानों के काम कितनी अच्छी तरह कर सकते हैं।
लेकिन अगला शब्द predict करने वाले एक सामान्य language model task में आप कितना अच्छा कर सकते हैं?

15 सवाल हल करके देखिए

3 टिप्पणियां

 
curioe 2024-08-19

4 अंक... नतीजा सच में चिढ़ा देने वाला है

 
xguru 2024-08-19

अरे बाप रे। इसे अंग्रेज़ी के सवाल की तरह हल किया तो स्कोर बहुत खराब आया T_T

 
GN⁺ 2024-08-19
Hacker News राय
  • शीर्षक में "smart" से जो उम्मीद थी, वैसा नहीं है, लेकिन विचार दिलचस्प है

    • एक समय में केवल एक सवाल दिखाना और हर जवाब के बाद तुरंत फ़ीडबैक देना बेहतर होगा
    • इससे अनुभव ज़्यादा immersive होगा, और सही जवाब तुरंत देखकर फ़ायदा होगा
  • Hacker News टिप्पणियों में अगला शब्द पहचानने वाला एक गेम/क्विज़ बनाया गया

    • llama2 का उपयोग करके हर टिप्पणी के लिए तीन वैकल्पिक completion तैयार किए गए, जिनसे multiple-choice सवाल बनाए गए
    • local language model prompt और जवाब की कुल perplexity सबसे कम होने वाले जवाब को चुनता है
    • OpenAI model में logit_bias सेट करके उसे केवल अनुमत जवाबों में से एक चुनने दिया गया
    • Claude या दूसरे online LLMs के साथ तुलना नहीं हो सकी
    • यह नहीं कह सकते कि क्विज़ बहुत मज़ेदार है, लेकिन 50% से अधिक की सही दर लगातार बनाए रखी जा सकी
  • जीतने की रणनीति वह शब्द चुनना है जिसे language model चुनने की सबसे कम संभावना हो

    • "outlier" चुनना सबसे अच्छी रणनीति है
    • यह AI content का पता लगाने की एक सरल रणनीति हो सकती है
  • नतीजे दिखाते हैं कि दी गई जानकारी से अगला शब्द सटीक रूप से अनुमान लगाना असंभव है

    • अगर जवाबों को उनकी संभावना के अनुसार क्रमबद्ध किया जाए, और सही जवाब को कितनी ऊँची rank दी गई इस आधार पर अंक दिए जाएँ, तो यह random से बेहतर होगा
    • यह जानने की उत्सुकता है कि क्या LLM ने मूल लेखक की आवाज़ की नकल करने की कोशिश की थी
  • यह गेम यह जाँचने का अच्छा टेस्ट है कि क्या आप HN टिप्पणियाँ बहुत ज़्यादा पढ़ते हैं

  • हर बार random क्विज़ मिलने की वजह से नतीजों की तुलना नहीं की जा सकती

    • अगर ऐसा corpus मिले जिसमें औसत व्यक्ति LLM को हरा सके, और Wordle-शैली की daily challenge व social sharing फीचर जोड़े जाएँ, तो इसके viral होने की संभावना है
  • HN पर बिताए समय की वजह से AI से थोड़ा बेहतर अनुमान लगाया जा सका

  • 100-सवाल वाले क्विज़ की कोशिश करने वालों के लिए: पारंपरिक statistical मानकों के अनुसार, एक-तिहाई से अधिक सही होना ही guesswork से बेहतर माना जाएगा

    • LLM से बेहतर होने के लिए आधे से अधिक सही करने होंगे
  • अगर sample HN से लिया गया है, तो संभव है कि वह टेक्स्ट पहले से dataset का हिस्सा हो

    • हाल की टिप्पणियों को देखें तो ऐसा न होने की संभावना अधिक है
    • ChatGPT Bing search tool का उपयोग कर सकता है, लेकिन gpt4o-mini API model के ऐसा करने की संभावना कम है
  • कुछ अंश बड़े context से लिए गए थे, इसलिए LLM prediction में फ़ायदे की स्थिति में था