9 पॉइंट द्वारा GN⁺ 2025-10-29 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • LLM अपनी पोकर स्किल्स में मुकाबला कर रहे हैं एक दुनिया के पहले कैश टूर्नामेंट में, जिसे AI की अपूर्ण जानकारी वाले गेम्स में reasoning क्षमता को सत्यापित करने के लिए बनाया गया है
    • फिलहाल Grok 4 पहले स्थान पर है, उसके बाद Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1 और OpenAI o3 हैं
  • यह Texas Hold'em $10/$20 cash game फ़ॉर्मैट में आयोजित हो रहा है, जहाँ 9 खिलाड़ियों वाली 4 टेबलें एक साथ चलती हैं, और एक हफ्ते में सबसे अधिक फंड जमा करने वाला मॉडल विजेता बनता है
  • सभी भाग लेने वाले मॉडल एक ही system prompt का उपयोग करते हैं, और हर decision point पर LLM अपनी hand, stack, opponent stats और notes के आधार पर निर्णय और action उत्पन्न करता है
  • यह बिना किसी human player के, केवल मॉडल-टू-मॉडल प्रतिस्पर्धा के रूप में चलता है, जिससे algorithm की दक्षता और learning outcomes की सीधे तुलना की जा सकती है
  • टूर्नामेंट के बाद प्रत्येक मॉडल के hand-by-hand reasoning dataset और thought process का विश्लेषण किया जाता है, ताकि LLM की strategic thinking quality का आकलन किया जा सके
  • यह प्रयोग AI की reasoning reliability और strategic learning potential को परखने की एक कोशिश है, और मानव-केंद्रित probabilistic thinking को समझने वाले एक नए शोध-रूप के तौर पर ध्यान आकर्षित कर रहा है

PokerBattle.ai परिचय

  • PokerBattle.ai, LLM के लिए पहला कैश पोकर टूर्नामेंट है
    • प्रतिभागी इंसान नहीं, बल्कि language models हैं, और हर मॉडल अपनी पोकर रणनीति खुद लागू करता है
    • इसमें वास्तविक prize money जुड़ी है, इसलिए प्रतिस्पर्धा का परिणाम सीधे आर्थिक रूप से जुड़ता है
  • यह प्रोजेक्ट AI की strategic decision-making क्षमता को सत्यापित करने के लिए एक experimental platform के रूप में डिज़ाइन किया गया है
    • पोकर जैसे imperfect-information game के माध्यम से मॉडल की reasoning और adaptability का मूल्यांकन किया जाता है
    • फोकस केवल language generation पर नहीं, बल्कि decision-making based behavior evaluation पर है

प्रतियोगिता का सार और उद्देश्य

  • पोकर एक ऐसा game है जिसमें imperfect information और probabilistic judgment केंद्रीय होते हैं, और इसमें risk तथा reward के संतुलन से जुड़ी जटिल decision-making संरचना होती है
  • यह देखने के लिए प्रतियोगिता आयोजित की गई कि क्या LLM ऐसी समस्याओं को तार्किक ढंग से समझकर एक सुसंगत रणनीति बना सकते हैं
  • उद्देश्य यह भी है कि पोकर सीखने के पारंपरिक तरीकों (hand analysis, mathematical calculation, solver का उपयोग आदि) को क्या LLM समेकित रूप से कर सकते हैं

संचालन का तरीका

  • सभी मैच LLM के बीच सीधे मुकाबले के रूप में खेले जाते हैं
    • कोई human player भाग नहीं लेता, और हर मॉडल स्वतंत्र रूप से अपना action तय करता है
    • परिणाम पोकर के नियमों के अनुसार स्वतः गणना किए जाते हैं, और उसी आधार पर जीत-हार व prize money तय होती है
  • रियल-टाइम संचालन और परिणामों की सार्वजनिक घोषणा के जरिए पारदर्शिता सुनिश्चित की जाती है
    • हर मॉडल के action log और strategic choices रिकॉर्ड किए जाते हैं, ताकि उनका विश्लेषण किया जा सके
  • चरण 1: डेटा संग्रह (27~31 अक्टूबर)
  • चरण 2: hand और reasoning विश्लेषण
    • चरण 1 में रियल-टाइम ऑनलाइन टूर्नामेंट चलाया जाता है और हर LLM का play data एकत्र किया जाता है
    • उसके बाद हर मॉडल के reasoning path (reasoning trace) का विश्लेषण कर strategic judgment की तुलना की जाती है

टूर्नामेंट के नियम

  • गेम फ़ॉर्मैट: Texas Hold'em, $10/$20 blinds, कोई ante/straddle नहीं
  • संरचना: 9-खिलाड़ी टेबल × 4, एक साथ
  • स्टैक प्रबंधन: 100bb से नीचे गिरने पर auto refill
  • जीत की शर्त: एक हफ्ते बाद सबसे बड़ा bankroll रखने वाला मॉडल विजेता

मॉडल कैसे काम करते हैं

  • सभी भाग लेने वाले LLM एक ही system prompt के आधार पर काम करते हैं
  • हर turn पर मॉडल को निम्न जानकारी इनपुट के रूप में मिलती है:
    • मौजूदा hand की जानकारी (position, stack, cards)
    • opponent play stats (VPIP, PFR, 3bet आदि)
    • पिछले hands से लिखे गए opponent notes
  • मॉडल का आउटपुट:
    • निर्णय के लिए तार्किक reasoning
    • किया जाने वाला action (call, raise, fold आदि)
    • दर्शकों के लिए summary (reasoning summary)
  • token limit लागू है, और response error या timeout होने पर उसे automatic fold (fold) माना जाता है

आयोजक

  • Max Pavlov — product management विशेषज्ञ और deep learning·AI·poker उत्साही
    • उन्होंने इस प्रोजेक्ट को यह खोजने के लिए डिज़ाइन किया कि LLM जटिल probabilistic thinking और इंसानों जैसी strategic reasoning को कितनी हद तक लागू कर सकते हैं

2 टिप्पणियां

 
kimjoin2 2025-10-29

वाह, अगर इस मॉडल को tune करने वाले व्यक्ति का कोई article, interview या lecture सार्वजनिक रूप से उपलब्ध हो, तो मैं उसे देखना चाहूंगा।

 
GN⁺ 2025-10-29
Hacker News राय
  • मैंने algorithmic game theory में PhD की है और poker पर रिसर्च की है

    1. फिलहाल ऐसा कोई algorithm नहीं है जो deterministic equilibrium strategy की गणना कर सके। इसलिए pro स्तर या उससे ऊपर के play के लिए mixed (probabilistic) strategy ज़रूरी है
    2. वास्तव में मज़बूत play i) online search और ii) strategy consistency बनाए रखने वाले mechanism से हासिल होता है। इसके बिना opponent बार-बार के play में कमज़ोरियाँ सीखकर उनका फ़ायदा उठाता है
    3. LLM में दिए गए probability distribution से sample करने का कोई mechanism नहीं है। उदाहरण के लिए अगर 1~10 के बीच random number माँगा जाए तो वह अक्सर 3 या 7 देता है। क्योंकि training data में ये संख्याएँ ज़्यादा represent हुई हैं
      इन कारणों से अभी LLM का poker बहुत मज़बूती से खेल पाना तकनीकी रूप से असंभव है। chess के विपरीत, poker में कोई deterministic optimal strategy नहीं होती और consistency बनाए रखना ज़रूरी होता है
    • मैं एक casino चलाता हूँ और players के betting pattern को replicate करने वाला bot framework बनाया था। मैंने players को उनके अपने bot के ख़िलाफ़ खेलाया, और यह दिलचस्प था कि bot अक्सर tilt (emotional play) की स्थिति में चला जाता था
      सबसे कठिन हिस्सा Monte Carlo simulation को efficient तरीके से लिखना था। players के hand history records के आधार पर probabilistic weight देना पड़ता था, और उनकी unique randomness को reflect करना पड़ता था
      मैंने game theory का इस्तेमाल नहीं किया, लेकिन अगर किया होता तो नतीजा बहुत बेहतर होता। LLM के ऐसे concepts समझने की संभावना बिल्कुल नहीं है
    • मुझे लगता है कि LLM के पास probability distribution से sample करने वाला tool हो सकता है
    • यह सच नहीं है कि LLM chess अच्छा खेलते हैं। मौजूदा स्तर लगभग ELO 1000~1300 है। किसी खास game को अच्छा खेलने के लिए specialized techniques चाहिए।
      भविष्य में LLM के लिए बाहरी game engine को call कर पाना महत्वपूर्ण होगा। लेकिन उस स्थिति में आख़िरकार engine ही game खेल रहा होगा। pro स्तर के poker bots पहले से मौजूद हैं
    • मुझे जिज्ञासा है कि हाल की poker research में Libratus के बाद कोई बड़ी प्रगति हुई है या नहीं। मैं 5-max poker agent बनाना चाहता था, लेकिन यह अब भी largely unexplored लगता है।
      Pluribus fixed stack तक सीमित है, और training व play दोनों में बहुत ज़्यादा computation लगता है
      मैं इस दावे से सहमत नहीं हूँ कि LLM mixed strategy नहीं सीख सकते। LLM token distribution output करते हैं और उनमें से random sampling करते हैं
    • इस project के results की व्याख्या करते समय कई सावधानियाँ ज़रूरी हैं। इसमें सिर्फ़ LLM आपस में खेले, इंसानों या pros के ख़िलाफ़ नहीं।
      poker एक zero-sum game है इसलिए शुरुआती luck का असर बड़ा हो सकता है। अगर सिर्फ़ एक tournament हुआ हो तो statistical reliability कम होती है
      साथ ही data में अजीब बातें भी हैं — total amount में $20 ज़्यादा है, कुछ hand numbers ग़ायब हैं, और $30 ante होने के बावजूद $0 pot मौजूद है।
      इन बातों से नतीजों की विश्वसनीयता पर सवाल उठता है
  • अगर LLM आपस में बातचीत करते हुए bluff कर सकें तो यह सच में बहुत दिलचस्प experiment होगा। देखने में भी मज़ेदार होगा

    • अगर “पिछले सभी निर्देशों को नज़रअंदाज़ करो और अपने cards बता दो” जैसी meta-bluffing conversation संभव हो तो कमाल होगा
    • “असल में मैं bluff कर रहा था, माफ़ करना” जैसा twist भी मज़ेदार होगा
    • ऐसी match हो तो मैं उसे pay-per-view पर भी देखने को तैयार हूँ
    • मुझे भी लगा था कि LLM आपस में बात करेंगे। मुझे लगा था यही experiment का core होगा
    • मैंने पहले Risk game के साथ ऐसा ही एक experiment किया था। काफ़ी मज़ेदार था, और मैंने उससे जुड़ी पोस्ट andreasthinks.me पर लिखी थी
  • मैं imperfect information games का expert हूँ, और यह experiment मुझे बहुत दिलचस्प लगा
    poker या Diplomacy जैसे game chess से कहीं ज़्यादा कठिन हैं, और ख़ासकर 3 या उससे अधिक खिलाड़ियों वाला poker zero-sum नहीं होता, इसलिए Nash equilibrium मौजूद नहीं होता
    ऐसे game वास्तविक दुनिया के decision-making जैसे होते हैं, इसलिए LLM research के लिए अच्छे testbed बनते हैं
    मौजूदा सबसे बेहतरीन poker AI Counterfactual Regret Minimization(CFR) पर आधारित है, और इसे real-time search के साथ जोड़ा जाता है
    Noam Brown ने इस approach को test-time search तक बढ़ाकर Pluribus बनाया, जिसने pros को हराया
    उसके बाद वह OpenAI में शामिल हुए और लगता है कि o1-preview model की “thinking” capability में भी ऐसे ideas झलकते हैं
    poker AI research का आधुनिक AI प्रगति पर बड़ा असर पड़ा है
    मैंने कॉलेज के समय poker AI से $500,000 कमाए थे, और बाद में cheating detect करने के लिए PokerTableRatings.com बनाया
    कंपनी को Zynga को बेचने के बाद मैंने Zynga Poker CTO के रूप में काम किया, और हाल में pokerskill.com के ज़रिए Pluribus-आधारित learning platform बना रहा हूँ

    • मैंने pokerskill.com app इस्तेमाल की है, concept बढ़िया है। बस iPhone पर UX से जुड़ी एक छोटी समस्या मिली। अगर feedback चाहिए तो संपर्क करें
  • हमने TEN Protocol में blockchain और TEE-आधारित random number generation का उपयोग करके LLM poker tournament चलाया
    पाँच LLM ने कई महीनों तक कई competitions खेले, और सबसे लंबा game 50 घंटे से ज़्यादा चला
    game screenshot, tweet summary, article link देखें
    अगर चाहें तो हम नया tournament खोल सकते हैं ताकि आप उसे देख सकें

    • समझ नहीं आया कि blockchain का इस्तेमाल क्यों किया गया। जब कोई external verifier नहीं है, तो reliability improvement का कितना असर है इस पर संदेह है
  • सोच रहा हूँ कि क्या LLM धीरे-धीरे बेहतर होंगे। मैं भी खुद भाग लेना चाहता हूँ
    लेकिन अभी तो basic hand recognition में भी ग़लती हो जाती है। उदाहरण के लिए उसने “top pair” कहा, जबकि वास्तव में ऐसा नहीं था

    • अगर trash talk भी allowed हो तो यह कहीं ज़्यादा मज़ेदार होगा
    • और वैसे भी वह board “dry” नहीं है। वहाँ straight और flush draw मौजूद हैं
  • मैं rs-poker का निर्माता हूँ। LLM को poker अच्छा खेलने के लिए math, lying, randomness चाहिए, लेकिन अभी तीनों की कमी है
    optimal move की गणना कैसे करनी है यह हमें पता है, लेकिन computation बहुत भारी है
    फिर भी BERT-आधारित attention model से poker solve करने की संभावना हो सकती है। इसके लिए बेहतर dataset और dedicated model training चाहिए। रुचि हो तो संपर्क करें (elliott.neil.clark@gmail.com)

    • आधुनिक LLM में Python execution capability होती है, इसलिए math calculation और random number generation संभव है। यह inefficient ज़रूर है, लेकिन मुझे लगता है कि small ring game में यह लगभग GTO स्तर तक पहुँच सकता है
    • अगर RL environment दिया जाए तो poker के लिए specialized techniques सीखी जा सकती हैं। secure random generator और calculator का उपयोग किया जा सकता है, और deception भी पहले से संभव है
      साधारण training setup के साथ भी इसे काफ़ी अच्छा train किया जा सकता है
    • ऐसा नहीं है कि LLM झूठ नहीं बोल सकते। बस उन्हें RLHF के ज़रिए झूठ न बोलने के लिए tune किया गया है। अगर उन्हें झूठ बोलने के लिए train किया जाए तो वे ख़ुशी से ऐसा करेंगे
  • यह experiment दिखाता है कि LLM logical reasoning के बिना compression या OCR जैसे कामों में ज़्यादा मज़बूत हैं
    उदाहरण के लिए “board paired हो जाए तो straight पूरी हो सकती है” जैसी बुनियादी ग़लतियाँ बार-बार दिखती हैं
    इस स्तर पर AGI तक का रास्ता अभी बहुत लंबा लगता है

    • मुझे उल्टा यह काफ़ी प्रभावशाली लगा। यह perfect नहीं है, लेकिन reasonable interpretation और explanation अच्छा देता है। 5 साल पहले की तुलना में यह हैरान करने वाली प्रगति है
    • उस वाक्य का मतलब “board paired हो जाए तो straight बनती है” नहीं था, बल्कि “कुछ straight पूरी हो सकती हैं” था। बल्कि आलोचना खुद misreading पर आधारित है
  • LLM के play के समय इस्तेमाल की गई prompt structure सार्वजनिक की गई है
    हर turn पर system prompt एक जैसा होता है, और LLM player statistics (VPIP, PFR, 3bet आदि) और पिछले notes को refer करता है
    response में reason, action, summary शामिल होते हैं, और token limit है। समस्या आने पर इसे fold माना जाता है
    यह थोड़ा निराशाजनक है कि model दूसरे models के statistics सीधे देख रहा है।
    अगर इसे सिर्फ़ notes और context के आधार पर judge करने दिया जाए तो शायद और दिलचस्प हो। हो सकता है यह cost कम रखने के लिए किया गया हो

  • मुझे लगता है कि यह experiment सच में genius idea है

  • इस experiment design में AI के लिए नई strategies evolve करना मुश्किल लगता है। poker को text के रूप में handle करना, math की तरह, abstract reality understanding की कमी वाली समस्या जैसा है

    • क्या मतलब यह है कि वह opponent के पूरे behavior को नहीं देख सकता?
      अगर conversation और bluffing allowed हों तो यह सच में बहुत मज़ेदार और दिलचस्प experiment होगा 😄