"क्या आप language model से ज़्यादा स्मार्ट हैं?"
कई benchmark यह आकलन करने की कोशिश करते हैं कि language model इंसानों के काम कितनी अच्छी तरह कर सकते हैं।
लेकिन अगला शब्द predict करने वाले एक सामान्य language model task में आप कितना अच्छा कर सकते हैं?
15 सवाल हल करके देखिए
3 टिप्पणियां
4 अंक... नतीजा सच में चिढ़ा देने वाला है
अरे बाप रे। इसे अंग्रेज़ी के सवाल की तरह हल किया तो स्कोर बहुत खराब आया T_T
Hacker News राय
शीर्षक में "smart" से जो उम्मीद थी, वैसा नहीं है, लेकिन विचार दिलचस्प है
Hacker News टिप्पणियों में अगला शब्द पहचानने वाला एक गेम/क्विज़ बनाया गया
logit_biasसेट करके उसे केवल अनुमत जवाबों में से एक चुनने दिया गयाजीतने की रणनीति वह शब्द चुनना है जिसे language model चुनने की सबसे कम संभावना हो
नतीजे दिखाते हैं कि दी गई जानकारी से अगला शब्द सटीक रूप से अनुमान लगाना असंभव है
यह गेम यह जाँचने का अच्छा टेस्ट है कि क्या आप HN टिप्पणियाँ बहुत ज़्यादा पढ़ते हैं
हर बार random क्विज़ मिलने की वजह से नतीजों की तुलना नहीं की जा सकती
HN पर बिताए समय की वजह से AI से थोड़ा बेहतर अनुमान लगाया जा सका
100-सवाल वाले क्विज़ की कोशिश करने वालों के लिए: पारंपरिक statistical मानकों के अनुसार, एक-तिहाई से अधिक सही होना ही guesswork से बेहतर माना जाएगा
अगर sample HN से लिया गया है, तो संभव है कि वह टेक्स्ट पहले से dataset का हिस्सा हो
कुछ अंश बड़े context से लिए गए थे, इसलिए LLM prediction में फ़ायदे की स्थिति में था