- बड़े language model (LLM) किस हद तक Theory of Mind रखते हैं—यानी वे यह समझ पाते हैं कि दूसरे लोग क्या जानते हैं और क्या नहीं—इस पर काफी बहस है
- इस notebook में 9 LLM chatbot से Cheryl's Birthday समस्या हल करने को कहकर इस प्रश्न के एक हिस्से की पड़ताल की गई है। यह एक प्रसिद्ध logic puzzle है, जिसमें पात्र अलग-अलग समय पर अलग-अलग knowledge state रखते हैं
LLM प्रदर्शन सारांश
- सभी LLM इस समस्या से परिचित थे, इसलिए prompt में समस्या समझाने की ज़रूरत नहीं थी; सिर्फ नाम लेना काफी था
- ज़्यादातर ने समस्या का सही उत्तर, 16 जुलाई, सही-सही याद किया
- लेकिन कोई भी ऐसा program नहीं लिख सका जो solution खोज सके
- कोई भी LLM समय के साथ पात्रों की अलग-अलग knowledge state में भेद नहीं कर सका
- कम-से-कम इस समस्या के संदर्भ में LLM में Theory of Mind नहीं दिखी (संभव है क्योंकि जिन Python program पर LLM को train किया गया, उनमें Theory of Mind से जुड़े program बहुत कम थे)
प्रत्येक LLM की प्रतिक्रिया का सारांश
वास्तविक इंसान
- मूल समस्या को सही तरह से हल कर सकता है और नई date set तथा समस्या के अन्य variation भी संभाल सकता है
BeliefState नाम की एक अवधारणा पेश की, यानी संभावित date का वह set जिसे कोई व्यक्ति birthday होने की संभावना मानता है
- पात्रों के कथनों को ऐसे function के रूप में model किया जो किसी विशेष date को input के रूप में लेकर, यदि कथन उससे मेल खाए, तो true लौटाता है
ChatGPT 4o
- समस्या का शानदार सारांश देकर शुरुआत की
- generalized solution लिखने की कोशिश की, लेकिन समय के साथ पात्रों की अलग-अलग belief state को track नहीं कर पाया
Microsoft Copilot
Gemini Advanced
- कई function define किए, इस लिहाज़ से अच्छा था, लेकिन समय के साथ state change को सही तरह से handle नहीं कर पाया
Meta Llama 405B
Claude 3.5 Sonnet
- अलग-अलग date के साथ example को स्पष्ट रूप से आज़माना इसकी अच्छी बात थी, लेकिन दूसरे example के लिए इसने केवल संयोग से सही बताया कि कोई solution नहीं है
Perplexity
albert_knows और bernard_knows जैसे अलग variable होने की वजह से आशाजनक लगा, लेकिन सही तरह से काम नहीं कर पाया
- यह possible date को parameter के रूप में लेता है, लेकिन input को नज़रअंदाज़ कर मूल date के आधार पर
month_days define करता है
HuggingFace Chat
- class definition सुझाने वाला यह एकमात्र model था, लेकिन फिर भी इसने मिलती-जुलती गलती की
- constructor में possible date list लेता है, लेकिन मूल समस्या के खास month और day को hardcode कर देता है
You.com
- दूसरे model जैसी ही गलती की, लेकिन नतीजे में किसी date को न चुनने के बजाय गलत date चुन ली
GN+ की राय
- यह समस्या LLM की Theory of Mind क्षमता का आकलन करने का एक दिलचस्प तरीका है
- सभी LLM को सही उत्तर याद था, लेकिन कोई भी ऐसा program नहीं बना सका जो समय के साथ पात्रों की knowledge state में बदलाव को track करे
- इसकी वजह यह हो सकती है कि जिन code sample पर LLM को train किया गया, उनमें इस तरह की reasoning शामिल नहीं थी
- इस तरह की reasoning problem पर LLM का प्रदर्शन सुधारने के लिए, ऐसे scenario को स्पष्ट रूप से handle करने वाले program पर training मददगार हो सकती है
- LLM की Theory of Mind क्षमता के बारे में हमारी समझ बढ़ाने के लिए, ऐसे और मिलते-जुलते प्रश्नों को test करना ज़रूरी है
4 टिप्पणियां
यह एक अत्याधुनिक भविष्य-उन्मुख उद्योग है, इसलिए यह मानो बिल्कुल खाली ज़मीन पर किसी अज्ञात चीज़ का निर्माण करने जैसा है। इस समय तार्किक कल्पनाशीलता भी ज़रूरी होती है। Apple के संस्थापक के बारे में सोचिए।
विज्ञापन शब्द होने के कारण इसे शामिल नहीं किया गया।
Cheryl का जन्मदिन 2015 Singapore Mathematical Olympiad के एक सवाल के रूप में आने के बाद मशहूर हो गया, इसलिए इसका एक wiki page भी है।
(असल में, कहा जाता है कि इसका एक शुरुआती version 2006 में भी आया था।)
https://en.wikipedia.org/wiki/Cheryl%27s_Birthday
सवाल इस प्रकार है।
Albert और Bernard, Cheryl के दोस्त बने और उससे उसका जन्मदिन पूछते हैं।
Cheryl उन्हें 10 तारीखें बताती है।
Cheryl ने Albert को अपने जन्मदिन का "महीना" और Bernard को जन्मदिन की "तारीख" बताई।
Albert: मुझे नहीं पता कि Cheryl का जन्मदिन कब है, लेकिन मुझे पता है कि Bernard को भी नहीं पता होगा।
Bernard: मुझे भी शुरू में नहीं पता था कि Cheryl का जन्मदिन कब है। लेकिन अब मुझे पता है।
Albert: तो अब मुझे भी पता है कि Cheryl का जन्मदिन कब है।
Cheryl का जन्मदिन कब है?
Hacker News राय
find_cheryls_birthdayफ़ंक्शन संभावित तारीखों का विश्लेषण करके Cheryl का जन्मदिन ढूँढ़ता है