- LLM अपनी पोकर स्किल्स में मुकाबला कर रहे हैं एक दुनिया के पहले कैश टूर्नामेंट में, जिसे AI की अपूर्ण जानकारी वाले गेम्स में reasoning क्षमता को सत्यापित करने के लिए बनाया गया है
- फिलहाल Grok 4 पहले स्थान पर है, उसके बाद Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 और OpenAI o3 हैं
- यह Texas Hold'em $10/$20 cash game फ़ॉर्मैट में आयोजित हो रहा है, जहाँ 9 खिलाड़ियों वाली 4 टेबलें एक साथ चलती हैं, और एक हफ्ते में सबसे अधिक फंड जमा करने वाला मॉडल विजेता बनता है
- सभी भाग लेने वाले मॉडल एक ही system prompt का उपयोग करते हैं, और हर decision point पर LLM अपनी hand, stack, opponent stats और notes के आधार पर निर्णय और action उत्पन्न करता है
- यह बिना किसी human player के, केवल मॉडल-टू-मॉडल प्रतिस्पर्धा के रूप में चलता है, जिससे algorithm की दक्षता और learning outcomes की सीधे तुलना की जा सकती है
- टूर्नामेंट के बाद प्रत्येक मॉडल के hand-by-hand reasoning dataset और thought process का विश्लेषण किया जाता है, ताकि LLM की strategic thinking quality का आकलन किया जा सके
- यह प्रयोग AI की reasoning reliability और strategic learning potential को परखने की एक कोशिश है, और मानव-केंद्रित probabilistic thinking को समझने वाले एक नए शोध-रूप के तौर पर ध्यान आकर्षित कर रहा है
PokerBattle.ai परिचय
- PokerBattle.ai, LLM के लिए पहला कैश पोकर टूर्नामेंट है
- प्रतिभागी इंसान नहीं, बल्कि language models हैं, और हर मॉडल अपनी पोकर रणनीति खुद लागू करता है
- इसमें वास्तविक prize money जुड़ी है, इसलिए प्रतिस्पर्धा का परिणाम सीधे आर्थिक रूप से जुड़ता है
- यह प्रोजेक्ट AI की strategic decision-making क्षमता को सत्यापित करने के लिए एक experimental platform के रूप में डिज़ाइन किया गया है
- पोकर जैसे imperfect-information game के माध्यम से मॉडल की reasoning और adaptability का मूल्यांकन किया जाता है
- फोकस केवल language generation पर नहीं, बल्कि decision-making based behavior evaluation पर है
प्रतियोगिता का सार और उद्देश्य
- पोकर एक ऐसा game है जिसमें imperfect information और probabilistic judgment केंद्रीय होते हैं, और इसमें risk तथा reward के संतुलन से जुड़ी जटिल decision-making संरचना होती है
- यह देखने के लिए प्रतियोगिता आयोजित की गई कि क्या LLM ऐसी समस्याओं को तार्किक ढंग से समझकर एक सुसंगत रणनीति बना सकते हैं
- उद्देश्य यह भी है कि पोकर सीखने के पारंपरिक तरीकों (hand analysis, mathematical calculation, solver का उपयोग आदि) को क्या LLM समेकित रूप से कर सकते हैं
संचालन का तरीका
- सभी मैच LLM के बीच सीधे मुकाबले के रूप में खेले जाते हैं
- कोई human player भाग नहीं लेता, और हर मॉडल स्वतंत्र रूप से अपना action तय करता है
- परिणाम पोकर के नियमों के अनुसार स्वतः गणना किए जाते हैं, और उसी आधार पर जीत-हार व prize money तय होती है
- रियल-टाइम संचालन और परिणामों की सार्वजनिक घोषणा के जरिए पारदर्शिता सुनिश्चित की जाती है
- हर मॉडल के action log और strategic choices रिकॉर्ड किए जाते हैं, ताकि उनका विश्लेषण किया जा सके
- चरण 1: डेटा संग्रह (27~31 अक्टूबर)
- चरण 2: hand और reasoning विश्लेषण
- चरण 1 में रियल-टाइम ऑनलाइन टूर्नामेंट चलाया जाता है और हर LLM का play data एकत्र किया जाता है
- उसके बाद हर मॉडल के reasoning path (reasoning trace) का विश्लेषण कर strategic judgment की तुलना की जाती है
टूर्नामेंट के नियम
- गेम फ़ॉर्मैट: Texas Hold'em, $10/$20 blinds, कोई ante/straddle नहीं
- संरचना: 9-खिलाड़ी टेबल × 4, एक साथ
- स्टैक प्रबंधन: 100bb से नीचे गिरने पर auto refill
- जीत की शर्त: एक हफ्ते बाद सबसे बड़ा bankroll रखने वाला मॉडल विजेता
मॉडल कैसे काम करते हैं
- सभी भाग लेने वाले LLM एक ही system prompt के आधार पर काम करते हैं
- हर turn पर मॉडल को निम्न जानकारी इनपुट के रूप में मिलती है:
- मौजूदा hand की जानकारी (position, stack, cards)
- opponent play stats (VPIP, PFR, 3bet आदि)
- पिछले hands से लिखे गए opponent notes
- मॉडल का आउटपुट:
- निर्णय के लिए तार्किक reasoning
- किया जाने वाला action (call, raise, fold आदि)
- दर्शकों के लिए summary (reasoning summary)
- token limit लागू है, और response error या timeout होने पर उसे automatic fold (fold) माना जाता है
आयोजक
- Max Pavlov — product management विशेषज्ञ और deep learning·AI·poker उत्साही
- उन्होंने इस प्रोजेक्ट को यह खोजने के लिए डिज़ाइन किया कि LLM जटिल probabilistic thinking और इंसानों जैसी strategic reasoning को कितनी हद तक लागू कर सकते हैं
2 टिप्पणियां
वाह, अगर इस मॉडल को tune करने वाले व्यक्ति का कोई article, interview या lecture सार्वजनिक रूप से उपलब्ध हो, तो मैं उसे देखना चाहूंगा।
Hacker News राय
मैंने algorithmic game theory में PhD की है और poker पर रिसर्च की है
इन कारणों से अभी LLM का poker बहुत मज़बूती से खेल पाना तकनीकी रूप से असंभव है। chess के विपरीत, poker में कोई deterministic optimal strategy नहीं होती और consistency बनाए रखना ज़रूरी होता है
सबसे कठिन हिस्सा Monte Carlo simulation को efficient तरीके से लिखना था। players के hand history records के आधार पर probabilistic weight देना पड़ता था, और उनकी unique randomness को reflect करना पड़ता था
मैंने game theory का इस्तेमाल नहीं किया, लेकिन अगर किया होता तो नतीजा बहुत बेहतर होता। LLM के ऐसे concepts समझने की संभावना बिल्कुल नहीं है
भविष्य में LLM के लिए बाहरी game engine को call कर पाना महत्वपूर्ण होगा। लेकिन उस स्थिति में आख़िरकार engine ही game खेल रहा होगा। pro स्तर के poker bots पहले से मौजूद हैं
Pluribus fixed stack तक सीमित है, और training व play दोनों में बहुत ज़्यादा computation लगता है
मैं इस दावे से सहमत नहीं हूँ कि LLM mixed strategy नहीं सीख सकते। LLM token distribution output करते हैं और उनमें से random sampling करते हैं
poker एक zero-sum game है इसलिए शुरुआती luck का असर बड़ा हो सकता है। अगर सिर्फ़ एक tournament हुआ हो तो statistical reliability कम होती है
साथ ही data में अजीब बातें भी हैं — total amount में $20 ज़्यादा है, कुछ hand numbers ग़ायब हैं, और $30 ante होने के बावजूद $0 pot मौजूद है।
इन बातों से नतीजों की विश्वसनीयता पर सवाल उठता है
अगर LLM आपस में बातचीत करते हुए bluff कर सकें तो यह सच में बहुत दिलचस्प experiment होगा। देखने में भी मज़ेदार होगा
मैं imperfect information games का expert हूँ, और यह experiment मुझे बहुत दिलचस्प लगा
poker या Diplomacy जैसे game chess से कहीं ज़्यादा कठिन हैं, और ख़ासकर 3 या उससे अधिक खिलाड़ियों वाला poker zero-sum नहीं होता, इसलिए Nash equilibrium मौजूद नहीं होता
ऐसे game वास्तविक दुनिया के decision-making जैसे होते हैं, इसलिए LLM research के लिए अच्छे testbed बनते हैं
मौजूदा सबसे बेहतरीन poker AI Counterfactual Regret Minimization(CFR) पर आधारित है, और इसे real-time search के साथ जोड़ा जाता है
Noam Brown ने इस approach को test-time search तक बढ़ाकर Pluribus बनाया, जिसने pros को हराया
उसके बाद वह OpenAI में शामिल हुए और लगता है कि o1-preview model की “thinking” capability में भी ऐसे ideas झलकते हैं
poker AI research का आधुनिक AI प्रगति पर बड़ा असर पड़ा है
मैंने कॉलेज के समय poker AI से $500,000 कमाए थे, और बाद में cheating detect करने के लिए PokerTableRatings.com बनाया
कंपनी को Zynga को बेचने के बाद मैंने Zynga Poker CTO के रूप में काम किया, और हाल में pokerskill.com के ज़रिए Pluribus-आधारित learning platform बना रहा हूँ
हमने TEN Protocol में blockchain और TEE-आधारित random number generation का उपयोग करके LLM poker tournament चलाया
पाँच LLM ने कई महीनों तक कई competitions खेले, और सबसे लंबा game 50 घंटे से ज़्यादा चला
game screenshot, tweet summary, article link देखें
अगर चाहें तो हम नया tournament खोल सकते हैं ताकि आप उसे देख सकें
सोच रहा हूँ कि क्या LLM धीरे-धीरे बेहतर होंगे। मैं भी खुद भाग लेना चाहता हूँ
लेकिन अभी तो basic hand recognition में भी ग़लती हो जाती है। उदाहरण के लिए उसने “top pair” कहा, जबकि वास्तव में ऐसा नहीं था
मैं rs-poker का निर्माता हूँ। LLM को poker अच्छा खेलने के लिए math, lying, randomness चाहिए, लेकिन अभी तीनों की कमी है
optimal move की गणना कैसे करनी है यह हमें पता है, लेकिन computation बहुत भारी है
फिर भी BERT-आधारित attention model से poker solve करने की संभावना हो सकती है। इसके लिए बेहतर dataset और dedicated model training चाहिए। रुचि हो तो संपर्क करें (elliott.neil.clark@gmail.com)
साधारण training setup के साथ भी इसे काफ़ी अच्छा train किया जा सकता है
यह experiment दिखाता है कि LLM logical reasoning के बिना compression या OCR जैसे कामों में ज़्यादा मज़बूत हैं
उदाहरण के लिए “board paired हो जाए तो straight पूरी हो सकती है” जैसी बुनियादी ग़लतियाँ बार-बार दिखती हैं
इस स्तर पर AGI तक का रास्ता अभी बहुत लंबा लगता है
LLM के play के समय इस्तेमाल की गई prompt structure सार्वजनिक की गई है
हर turn पर system prompt एक जैसा होता है, और LLM player statistics (VPIP, PFR, 3bet आदि) और पिछले notes को refer करता है
response में reason, action, summary शामिल होते हैं, और token limit है। समस्या आने पर इसे fold माना जाता है
यह थोड़ा निराशाजनक है कि model दूसरे models के statistics सीधे देख रहा है।
अगर इसे सिर्फ़ notes और context के आधार पर judge करने दिया जाए तो शायद और दिलचस्प हो। हो सकता है यह cost कम रखने के लिए किया गया हो
मुझे लगता है कि यह experiment सच में genius idea है
इस experiment design में AI के लिए नई strategies evolve करना मुश्किल लगता है। poker को text के रूप में handle करना, math की तरह, abstract reality understanding की कमी वाली समस्या जैसा है
अगर conversation और bluffing allowed हों तो यह सच में बहुत मज़ेदार और दिलचस्प experiment होगा 😄