LLM शतरंज की असामान्य घटना की आंशिक व्याख्या संभव
(dynomight.net)-
हाल में यह रहस्य रहा है कि बड़े language models (LLM) शतरंज अच्छा नहीं खेलते। लेकिन
gpt-3.5-turbo-instructअपवादस्वरूप शौकिया स्तर पर शतरंज अच्छा खेलता है। यह मॉडल दूसरे नए मॉडलों की तुलना में पुराना है और आकार में भी छोटा है। -
कई सिद्धांत सामने रखे गए हैं:
- सिद्धांत 1: पर्याप्त रूप से बड़े base models शतरंज अच्छे से खेलते हैं, लेकिन chat models के लिए instruction tuning के दौरान ऐसा नहीं रहता।
- सिद्धांत 2: संभव है कि
gpt-3.5-turbo-instructने अधिक शतरंज डेटा पर प्रशिक्षण लिया हो। - सिद्धांत 3: किसी खास LLM architecture में कुछ विशेष बात है।
- सिद्धांत 4: अलग-अलग डेटा प्रकारों के बीच "प्रतिस्पर्धा" होती है, इसलिए LLM को शतरंज अच्छा खेलने के लिए बहुत अधिक शतरंज गेम डेटा चाहिए।
- सिद्धांत 5: यह दावा कि OpenAI धोखा कर रहा है।
- सिद्धांत 6: यह दावा कि LLM वास्तव में शतरंज खेल ही नहीं सकते।
-
OpenAI के धोखा करने का दावा मानना मुश्किल है।
gpt-3.5-turbo-instructशतरंज इंजन की तरह चालें नहीं चुनता, और विशेषज्ञ मानकों के हिसाब से यह असाधारण नहीं है। -
LLM शतरंज खेल सकते हैं।
gpt-3.5-turbo-instructलगभग कभी अवैध चालों का सुझाव नहीं देता, और नई board states में भी अच्छा खेलता है। -
gpt-3.5-turbo-instructएक "completion" model है, जो text लेकर नया text बनाता है।gpt-4o-miniऔरgpt-4o"chat" models हैं, जो system prompt और user prompt का उपयोग करते हैं। -
विभिन्न प्रयोगों से पुष्टि हुई कि prompt adjustments, उदाहरण जोड़ना, और fine-tuning जैसी चीजें मॉडल के प्रदर्शन को प्रभावित कर सकती हैं।
-
उदाहरण जोड़ने से प्रदर्शन पर बड़ा असर पड़ा, और fine-tuning से भी मदद मिली। लेकिन कानूनी चालें उपलब्ध कराने से प्रदर्शन घट गया।
-
gpt-4oको "completion" mode की तरह काम करने के लिए प्रेरित करने पर उसका प्रदर्शन बेहतर हुआ। इससे संकेत मिलता है किgpt-4-baseशतरंज अच्छा खेल सकता है। -
निष्कर्षतः, OpenAI के base models ने संभवतः अधिक शतरंज डेटा सीखा है, और chat models का प्रदर्शन completion models से कमजोर हो सकता है।
-
सर्वोत्तम prompt, उदाहरण और fine-tuning ढूँढना कठिन और महंगा काम है।
1 टिप्पणियां
Hacker News राय
लेखक ने अवैध चालों की आवृत्ति पर डेटा नहीं दिया, इसलिए कोई सार्थक निष्कर्ष निकालना कठिन है
gpt-3.5-turbo-instruct एंडगेम में भी लगभग कभी अवैध चालों का सुझाव नहीं देता
यह जांचने के लिए कि क्या वह शतरंज समझता है, उसे 1000 रैंडम वैध पोज़िशन से अगली चाल चलने को कहा जाता है
हर कोई गलत नहीं है
LLM ऐसे लगते हैं मानो कोई जादू-टोना खोज रहे हों
दावा किया गया है कि code samples पर ट्रेनिंग से "reasoning" बेहतर होती है
यह एक खास मामला हो सकता है जहां gpt-3.5-turbo-instruct शतरंज notation को पहचानकर किसी बाहरी chess engine को कॉल करता हो
नतीजों को मापा गया, जबकि LLM को गेम जीतने के लिए स्पष्ट रूप से निर्देश नहीं दिया गया था
fine-tuning मदद करती है, और examples fine-tuning की जगह ले सकते हैं
prompts के बारे में सोचे बिना LLM के साथ शतरंज खेलना मजेदार होगा