1 पॉइंट द्वारा GN⁺ 2024-11-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • हाल में यह रहस्य रहा है कि बड़े language models (LLM) शतरंज अच्छा नहीं खेलते। लेकिन gpt-3.5-turbo-instruct अपवादस्वरूप शौकिया स्तर पर शतरंज अच्छा खेलता है। यह मॉडल दूसरे नए मॉडलों की तुलना में पुराना है और आकार में भी छोटा है।

  • कई सिद्धांत सामने रखे गए हैं:

    • सिद्धांत 1: पर्याप्त रूप से बड़े base models शतरंज अच्छे से खेलते हैं, लेकिन chat models के लिए instruction tuning के दौरान ऐसा नहीं रहता।
    • सिद्धांत 2: संभव है कि gpt-3.5-turbo-instruct ने अधिक शतरंज डेटा पर प्रशिक्षण लिया हो।
    • सिद्धांत 3: किसी खास LLM architecture में कुछ विशेष बात है।
    • सिद्धांत 4: अलग-अलग डेटा प्रकारों के बीच "प्रतिस्पर्धा" होती है, इसलिए LLM को शतरंज अच्छा खेलने के लिए बहुत अधिक शतरंज गेम डेटा चाहिए।
    • सिद्धांत 5: यह दावा कि OpenAI धोखा कर रहा है।
    • सिद्धांत 6: यह दावा कि LLM वास्तव में शतरंज खेल ही नहीं सकते।
  • OpenAI के धोखा करने का दावा मानना मुश्किल है। gpt-3.5-turbo-instruct शतरंज इंजन की तरह चालें नहीं चुनता, और विशेषज्ञ मानकों के हिसाब से यह असाधारण नहीं है।

  • LLM शतरंज खेल सकते हैं। gpt-3.5-turbo-instruct लगभग कभी अवैध चालों का सुझाव नहीं देता, और नई board states में भी अच्छा खेलता है।

  • gpt-3.5-turbo-instruct एक "completion" model है, जो text लेकर नया text बनाता है। gpt-4o-mini और gpt-4o "chat" models हैं, जो system prompt और user prompt का उपयोग करते हैं।

  • विभिन्न प्रयोगों से पुष्टि हुई कि prompt adjustments, उदाहरण जोड़ना, और fine-tuning जैसी चीजें मॉडल के प्रदर्शन को प्रभावित कर सकती हैं।

  • उदाहरण जोड़ने से प्रदर्शन पर बड़ा असर पड़ा, और fine-tuning से भी मदद मिली। लेकिन कानूनी चालें उपलब्ध कराने से प्रदर्शन घट गया।

  • gpt-4o को "completion" mode की तरह काम करने के लिए प्रेरित करने पर उसका प्रदर्शन बेहतर हुआ। इससे संकेत मिलता है कि gpt-4-base शतरंज अच्छा खेल सकता है।

  • निष्कर्षतः, OpenAI के base models ने संभवतः अधिक शतरंज डेटा सीखा है, और chat models का प्रदर्शन completion models से कमजोर हो सकता है।

  • सर्वोत्तम prompt, उदाहरण और fine-tuning ढूँढना कठिन और महंगा काम है।

1 टिप्पणियां

 
GN⁺ 2024-11-23
Hacker News राय
  • लेखक ने अवैध चालों की आवृत्ति पर डेटा नहीं दिया, इसलिए कोई सार्थक निष्कर्ष निकालना कठिन है

    • उदाहरण के लिए, यह वैसा है जैसे कोई LLM खुद को expert-level doctor बताए, लेकिन गलत medical advice को छोड़कर डेटा दे
  • gpt-3.5-turbo-instruct एंडगेम में भी लगभग कभी अवैध चालों का सुझाव नहीं देता

    • दावा किया गया है कि यह मॉडल शतरंज को "समझ" सकता है और "तार्किक सोच" कर सकता है
    • इस पर सवाल उठता है, क्योंकि "advanced amateur" शतरंज खिलाड़ी भी शायद ही कभी अवैध चाल चलते हैं
  • यह जांचने के लिए कि क्या वह शतरंज समझता है, उसे 1000 रैंडम वैध पोज़िशन से अगली चाल चलने को कहा जाता है

    • ChessPositionRanking प्रोजेक्ट से जनरेट की गई पोज़िशन में देखा जाता है कि क्या वह अवैध चालों का सुझाव नहीं देता
    • ऐसी पोज़िशन अगली चाल की वैधता जांचने में उपयोगी हैं, लेकिन गुणवत्ता में फर्क करने के लिए कम उपयोगी हैं
  • हर कोई गलत नहीं है

    • मान लेना चाहिए कि प्रकाशित benchmarks को ट्रेनिंग के दौरान किसी न किसी रूप में target किया गया होगा
    • OpenAI के लिए ट्रेनिंग डेटा में शतरंज के गेम शामिल करना स्वाभाविक है
  • LLM ऐसे लगते हैं मानो कोई जादू-टोना खोज रहे हों

    • उम्मीद है कि तकनीकी innovation जारी रहे; LLM चौंकाने वाले हैं, लेकिन कभी-कभी SF फ़िल्म जैसे महसूस होते हैं
  • दावा किया गया है कि code samples पर ट्रेनिंग से "reasoning" बेहतर होती है

    • अगर "language to world model" वाला पेपर काम करता है, तो शतरंज उसका सबसे छोटा उदाहरण होना चाहिए
  • यह एक खास मामला हो सकता है जहां gpt-3.5-turbo-instruct शतरंज notation को पहचानकर किसी बाहरी chess engine को कॉल करता हो

    • यह संभावना उठाई गई है कि किसी खास मॉडल को शतरंज notation पहचानने पर किसी दूसरे LLM पर स्विच करने के लिए ट्रेन किया गया हो
  • नतीजों को मापा गया, जबकि LLM को गेम जीतने के लिए स्पष्ट रूप से निर्देश नहीं दिया गया था

    • इस पर सवाल उठता है कि क्या यह "आप एक chess grandmaster हैं" वाले prompt में निहित था
  • fine-tuning मदद करती है, और examples fine-tuning की जगह ले सकते हैं

    • यह दिलचस्प है कि examples देना fine-tuning के बराबर प्रभाव दे सकता है
  • prompts के बारे में सोचे बिना LLM के साथ शतरंज खेलना मजेदार होगा

    • यह महसूस करने का एक नया तरीका हो सकता है कि LLM कैसे "सोचता" है