5 पॉइंट द्वारा GN⁺ 2024-10-06 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • बड़े language model (LLM) किस हद तक Theory of Mind रखते हैं—यानी वे यह समझ पाते हैं कि दूसरे लोग क्या जानते हैं और क्या नहीं—इस पर काफी बहस है
  • इस notebook में 9 LLM chatbot से Cheryl's Birthday समस्या हल करने को कहकर इस प्रश्न के एक हिस्से की पड़ताल की गई है। यह एक प्रसिद्ध logic puzzle है, जिसमें पात्र अलग-अलग समय पर अलग-अलग knowledge state रखते हैं

LLM प्रदर्शन सारांश

  • सभी LLM इस समस्या से परिचित थे, इसलिए prompt में समस्या समझाने की ज़रूरत नहीं थी; सिर्फ नाम लेना काफी था
  • ज़्यादातर ने समस्या का सही उत्तर, 16 जुलाई, सही-सही याद किया
  • लेकिन कोई भी ऐसा program नहीं लिख सका जो solution खोज सके
  • कोई भी LLM समय के साथ पात्रों की अलग-अलग knowledge state में भेद नहीं कर सका
  • कम-से-कम इस समस्या के संदर्भ में LLM में Theory of Mind नहीं दिखी (संभव है क्योंकि जिन Python program पर LLM को train किया गया, उनमें Theory of Mind से जुड़े program बहुत कम थे)

प्रत्येक LLM की प्रतिक्रिया का सारांश

वास्तविक इंसान

  • मूल समस्या को सही तरह से हल कर सकता है और नई date set तथा समस्या के अन्य variation भी संभाल सकता है
  • BeliefState नाम की एक अवधारणा पेश की, यानी संभावित date का वह set जिसे कोई व्यक्ति birthday होने की संभावना मानता है
  • पात्रों के कथनों को ऐसे function के रूप में model किया जो किसी विशेष date को input के रूप में लेकर, यदि कथन उससे मेल खाए, तो true लौटाता है

ChatGPT 4o

  • समस्या का शानदार सारांश देकर शुरुआत की
  • generalized solution लिखने की कोशिश की, लेकिन समय के साथ पात्रों की अलग-अलग belief state को track नहीं कर पाया

Microsoft Copilot

  • ChatGPT जैसी ही गलती की

Gemini Advanced

  • कई function define किए, इस लिहाज़ से अच्छा था, लेकिन समय के साथ state change को सही तरह से handle नहीं कर पाया

Meta Llama 405B

  • solution नहीं खोज पाया

Claude 3.5 Sonnet

  • अलग-अलग date के साथ example को स्पष्ट रूप से आज़माना इसकी अच्छी बात थी, लेकिन दूसरे example के लिए इसने केवल संयोग से सही बताया कि कोई solution नहीं है

Perplexity

  • albert_knows और bernard_knows जैसे अलग variable होने की वजह से आशाजनक लगा, लेकिन सही तरह से काम नहीं कर पाया
  • यह possible date को parameter के रूप में लेता है, लेकिन input को नज़रअंदाज़ कर मूल date के आधार पर month_days define करता है

HuggingFace Chat

  • class definition सुझाने वाला यह एकमात्र model था, लेकिन फिर भी इसने मिलती-जुलती गलती की
  • constructor में possible date list लेता है, लेकिन मूल समस्या के खास month और day को hardcode कर देता है

You.com

  • दूसरे model जैसी ही गलती की, लेकिन नतीजे में किसी date को न चुनने के बजाय गलत date चुन ली

GN+ की राय

  • यह समस्या LLM की Theory of Mind क्षमता का आकलन करने का एक दिलचस्प तरीका है
  • सभी LLM को सही उत्तर याद था, लेकिन कोई भी ऐसा program नहीं बना सका जो समय के साथ पात्रों की knowledge state में बदलाव को track करे
  • इसकी वजह यह हो सकती है कि जिन code sample पर LLM को train किया गया, उनमें इस तरह की reasoning शामिल नहीं थी
  • इस तरह की reasoning problem पर LLM का प्रदर्शन सुधारने के लिए, ऐसे scenario को स्पष्ट रूप से handle करने वाले program पर training मददगार हो सकती है
  • LLM की Theory of Mind क्षमता के बारे में हमारी समझ बढ़ाने के लिए, ऐसे और मिलते-जुलते प्रश्नों को test करना ज़रूरी है

4 टिप्पणियां

 
comsect62 2024-10-08

यह एक अत्याधुनिक भविष्य-उन्मुख उद्योग है, इसलिए यह मानो बिल्कुल खाली ज़मीन पर किसी अज्ञात चीज़ का निर्माण करने जैसा है। इस समय तार्किक कल्पनाशीलता भी ज़रूरी होती है। Apple के संस्थापक के बारे में सोचिए।

 
moderator 2024-10-08

विज्ञापन शब्द होने के कारण इसे शामिल नहीं किया गया।

 
xguru 2024-10-07

Cheryl का जन्मदिन 2015 Singapore Mathematical Olympiad के एक सवाल के रूप में आने के बाद मशहूर हो गया, इसलिए इसका एक wiki page भी है।
(असल में, कहा जाता है कि इसका एक शुरुआती version 2006 में भी आया था।)

https://en.wikipedia.org/wiki/Cheryl%27s_Birthday

सवाल इस प्रकार है।

Albert और Bernard, Cheryl के दोस्त बने और उससे उसका जन्मदिन पूछते हैं।
Cheryl उन्हें 10 तारीखें बताती है।

  • 15 मई, 16 मई, 19 मई
  • 17 जून, 18 जून
  • 14 जुलाई, 16 जुलाई
  • 14 अगस्त, 15 अगस्त, 17 अगस्त

Cheryl ने Albert को अपने जन्मदिन का "महीना" और Bernard को जन्मदिन की "तारीख" बताई।

Albert: मुझे नहीं पता कि Cheryl का जन्मदिन कब है, लेकिन मुझे पता है कि Bernard को भी नहीं पता होगा।
Bernard: मुझे भी शुरू में नहीं पता था कि Cheryl का जन्मदिन कब है। लेकिन अब मुझे पता है।
Albert: तो अब मुझे भी पता है कि Cheryl का जन्मदिन कब है।

Cheryl का जन्मदिन कब है?

 
GN⁺ 2024-10-06
Hacker News राय
  • बहुत पहले मैंने "Cheryl's Murder" नाम का एक संस्करण बनाया था। नोटबुक "Cheryl's Birthday" जैसी तार्किक inductive समस्याओं को हल और generate कर सकती है
  • Gp1-o1 ने इस puzzle को 13 सेकंड में सही तरह से हल किया, और इसका logical reasoning व explanation पूरी तरह ठोस था। मुझे लगता है कि puzzle की परिभाषा को training data से लाने के लिए कहना अनुचित है
  • o1 mini ने पहली कोशिश में puzzle हल कर लिया और नोटबुक में दिए गए example पर काम किया
    • find_cheryls_birthday फ़ंक्शन संभावित तारीखों का विश्लेषण करके Cheryl का जन्मदिन ढूँढ़ता है
  • LLM evaluation की समस्या यह है कि random factors और prompt की खास wording मायने रखती है। मैंने Claude से समस्या समझाने और Python code लिखने को कहा; exception आया, लेकिन उसे ठीक करने के बाद सही जवाब मिला
  • मुझे लगता है कि यह test case उपयुक्त नहीं है, क्योंकि Python example training data में आसानी से उपलब्ध है। यह दिलचस्प है कि model इसे हल नहीं कर पाता
  • LLM और NLP भाषाई reasoning में calculator जैसी भूमिका निभाते हैं। natural language में ambiguity और meaning की flexibility होती है। गणित के सवालों को वाक्य रूप में हल करने को कहना समय की बर्बादी है
  • AI की प्रगति को लेकर अपेक्षाएँ लगातार बदल रही हैं। LLM औसत इंसान से ज़्यादा स्मार्ट हैं और व्यावहारिक cognitive work में इंसानों से आगे निकल सकते हैं
  • किसी खास सवाल का जवाब देने में LLM की कमी के आधार पर निष्कर्ष निकालना "अगले iteration में यह संभव होगा" वाले सिद्धांत के कारण विफल हो सकता है
  • यह समस्या सिर्फ एक logic puzzle है, असली "theory of mind" test नहीं। संभव है कि LLM में मानव व्यवहार को model करने की क्षमता हो
  • Claude 3.5 Sonnet ने पहली कोशिश में समस्या हल कर ली और valid date set generate करने वाला Python program लिखा। इसे हल करने में कोई कठिनाई नहीं हुई