- क्लासिक deduction game Battleship को natural language प्रश्न-उत्तर फ़ॉर्म में फिर से बनाया गया, ताकि अनिश्चित वातावरण में AI एजेंट की अच्छे सवाल पूछने की क्षमता मापने के लिए एक testbed तैयार किया जा सके
- इसमें एक व्यक्ति छिपे हुए जहाज़ों की स्थिति पूछने वाला captain होता है, और टीम का सदस्य रीयल-टाइम में जवाब देने वाला spotter; 40 से अधिक लोगों के खेलने के डेटा से BattleshipQA dataset बनाया गया
- बिना pretraining के भी GPT-5 जैसे बड़े models ने इंसानों से कम turns में जीत हासिल की, लेकिन छोटे models उपयोगी सवाल बनाने में कमजोर रहे, इसलिए Monte Carlo inference strategy लागू की गई
- Llama 4 Scout की इंसानों के खिलाफ़ जीत दर सुधार से पहले 8% थी, जो बढ़कर 82% हो गई; इसने GPT-5 को भी पीछे छोड़ा, जबकि लागत लगभग 1% रही
- इससे साबित हुआ कि छोटे models बड़े models से लागत-कुशल तरीके से बेहतर प्रदर्शन कर सकते हैं, और needle-in-a-haystack जैसी sparse-solution search वाली scientific discovery में उनकी संभावनाएँ हैं
शोध की पृष्ठभूमि: AI एजेंट्स की information search सीमाएँ
- 2026 में AI एजेंट्स को लेकर उम्मीदें पहले से कहीं ज़्यादा हैं, और वे customer service तथा software development जैसे अच्छी तरह परिभाषित कार्य language model (LM) के आधार पर कर रहे हैं
- लेकिन medical diagnosis और scientific discovery जैसे अनिश्चित वातावरण, जहाँ व्यापक समाधान-क्षेत्र खोजना पड़ता है, वहाँ LM को कठिनाई होती है
- MIT CSAIL और Harvard SEAS के शोधकर्ताओं ने high-stakes परिस्थितियों में LM की मुख्य समस्या का विश्लेषण करने के लिए cognitive science में मानव information search के अध्ययन में इस्तेमाल हुए Battleship को test के रूप में चुना
Collaborative Battleship गेम और BattleshipQA dataset
- गेम को natural language प्रश्न-उत्तर केंद्रित रूप में बदला गया, जहाँ एक प्रतिभागी छिपे जहाज़ों की स्थिति पूछने वाला captain और टीममेट रीयल-टाइम में जवाब देने वाला spotter बनता है
- 40 से अधिक लोगों ने साथ खेलते हुए प्रश्न और yes/no जवाब दिए, जिनसे BattleshipQA dataset तैयार किया गया
- इस डेटा का उपयोग GPT-5 जैसे नवीनतम LM और Llama 4 Scout जैसे छोटे models के परीक्षण में comparison baseline के रूप में किया गया
- बिना pretraining के भी शीर्ष LM इंसानों से कम turns में गेम समाप्त कर “जीत” सकते थे, लेकिन छोटे systems काफ़ी अधिक अव्यवहारिक साबित हुए
बेहतर सवाल पूछना — Monte Carlo inference strategy
- कई models की मूल समस्या यह थी कि वे उपयोगी सवाल बना ही नहीं पाते थे
- हर response पर विकल्पों में सही उत्तर की संभावना मापने वाली Monte Carlo inference strategy हर model को देने पर, उसके आकार की परवाह किए बिना, वह सामान्य खिलाड़ियों को हराने लगा
- LM संभावित अनुमानों को अलग-अलग particle की तरह संभालता है, और spotter के हर जवाब के साथ अधिक विश्वसनीय दिखने वाले अनुमानों को ज़्यादा weight देता है
- यह हर turn पर फूलने-सिकुड़ने वाली गेम बॉल की तरह काम करता है, जिससे captain spotter से कहीं अधिक जानकारी निकाल पाता है
- छोटे model Llama 4 Scout की इंसानों के खिलाफ़ जीत दर केवल 8% थी, लेकिन inference strategy सुधार के बाद उसने 82% हासिल किए, GPT-5 को पार किया, और लागत लगभग 1% ही रही
अधिक सटीक जवाब देना — Python code में रूपांतरण
- GPT-5 एक भरोसेमंद spotter था, लेकिन छोटे systems में जहाज़ की स्थिति के बारे में गलत जवाब देने की आदत थी
- captain के प्रश्न को अपने-आप encoded command में बदलकर spotter LM को अपने जवाब की जाँच करने के लिए प्रेरित किया गया, जिससे औसत accuracy 15% बढ़ी
- उदाहरण: "क्या column 1 में दो rows तक फैला जहाज़ है?" → इसे उस क्षेत्र की खोज करने और गेम पीस की चौड़ाई का मूल्यांकन करने वाले command में बदला गया
- जब models को उनकी अच्छी तरह समझ में आने वाली Python भाषा में स्पष्ट निर्देश दिए गए, तो सही जवाब की दर काफ़ी बढ़ गई
- lightweight model GPT-4o-mini में लगभग 30% performance improvement हुआ, जबकि बड़े model Claude 4 Opus में लगभग 8 points की बढ़ोतरी हुई
- auto-formalization strategy, जिसमें LM code बनाकर समाधान की जाँच करता है, की सफलता के आधार पर शोधकर्ताओं ने संकेत दिया कि search और information gathering क्षमता सुधारकर बेहतर समाधान उत्पन्न किए जा सकते हैं
दूसरे गेम तक विस्तार — Guess Who?
- 100 विकल्पों में से छिपे character का अनुमान लगाने वाले Guess Who? पर भी यही तकनीक लागू की गई
- Llama 4 Scout 30% से बढ़कर 72% से अधिक पर पहुँचा, और GPT-4o 62% से 90% तक गया; हर गेम में GPT-5 ने spotter की भूमिका निभाई
- फिर भी models को इंसानों की तुलना में जटिल सवालों का जवाब देने में कठिनाई रहती है
- GPT-5 औसत Battleship खिलाड़ी को हरा सकता है और तकनीक लागू होने पर थोड़ा और सुधरता है, लेकिन chess की तरह यहाँ expert players को हराना सभी models के लिए अब भी कठिन है
बाकी चुनौतियाँ और आगे की दिशा
- AI एजेंट्स के पास विशाल विकल्प-समूह में दुर्लभ समाधान खोजने वाली needle-in-a-haystack search में क्षमता है
- molecular structure identification जैसे वैज्ञानिक कार्यों में वे उत्कृष्ट research assistants के रूप में उपयोगी हो सकते हैं
- Collaborative Battleship अपेक्षाकृत सरल testbed है, इसलिए ऐसे जटिल वातावरण में अतिरिक्त सत्यापन की ज़रूरत है जहाँ और अधिक विकल्पों पर विचार करना पड़ता है
- मानव-AI collaboration प्रभाव का अध्ययन, game simulation आधारित fine-tuning, और अधिक compute resources के ज़रिए उन्नत reasoning क्षमता हासिल करने की योजना है
- शोधकर्ताओं के अनुसार, जैसे-जैसे एजेंट अधिक autonomous बनेंगे, shared grounding को ट्रैक करना, गलतफ़हमियाँ दूर करना, और partner adaptation जैसी social problems सबसे कठिन होंगी; केवल optimal question calculation नहीं, बल्कि जवाबों का अधिकतम उपयोग करने वाली practical reasoning ही असली bottleneck है
अभी कोई टिप्पणी नहीं है.