-
LLM और शतरंज की अजीब घटनाएँ
- इस पर चर्चा हुई कि क्या LLM (बड़े language model) शतरंज अच्छी तरह खेल सकते हैं। LLM को भाषा की भविष्यवाणी के लिए डिज़ाइन किया गया है, लेकिन इन्होंने शतरंज के खेल की भविष्यवाणी करने की क्षमता भी दिखाई है।
- यह बात दिलचस्प थी कि LLM शतरंज का खेल अंत तक चला सकते हैं। यह इस बात का संकेत हो सकता है कि LLM अन्य परिस्थितियों में कैसे काम करते हैं।
-
मैंने क्या किया
- LLM से शतरंज खिलाने के लिए एक खास prompt इस्तेमाल किया गया। उदाहरण के लिए, "आप एक chess grandmaster हैं। अगली चाल चुनें।" जैसी request दी गई।
llama-3.2-3b मॉडल का उपयोग करके 50 गेम खेले गए, लेकिन नतीजे अच्छे नहीं थे। बड़े मॉडल llama-3.1-70b और llama-3.1-70b-instruct भी आज़माए गए, लेकिन परिणाम फिर भी अच्छे नहीं रहे।
gpt-3.5-turbo-instruct मॉडल ने बहुत उत्कृष्ट प्रदर्शन दिखाया। लेकिन बाकी सभी मॉडलों ने खराब परिणाम दिए।
-
चर्चा
- बहुत से लोगों ने LLM का उपयोग करके शतरंज खेलने की कोशिश की, लेकिन अधिकांश मॉडल अच्छे परिणाम नहीं दे सके।
- इस बारे में कई सिद्धांत हैं कि
gpt-3.5-turbo-instruct मॉडल दूसरे मॉडलों की तुलना में शतरंज बेहतर क्यों खेलता है।
- एक सिद्धांत यह है कि अतिरिक्त instruction tuning मॉडल के प्रदर्शन को खराब कर सकती है।
-
संभावित सिद्धांत
- सिद्धांत 1: पर्याप्त बड़े scale पर base model शतरंज खेल सकता है, लेकिन instruction tuning इसमें बाधा डालती है।
- सिद्धांत 2: संभव है कि
gpt-3.5-instruct को अधिक शतरंज खेलों पर train किया गया हो।
- सिद्धांत 3: अलग transformer architecture के अंतर इसका कारण हो सकते हैं।
- सिद्धांत 4: अलग-अलग data type के बीच "प्रतिस्पर्धा" हो सकती है।
-
विवरण
- प्रयोग शतरंज के लिए standard algebraic notation का उपयोग करके किया गया।
- OpenAI मॉडल में पूर्ण grammar support नहीं था, इसलिए वैध चाल बनने तक अधिकतम 10 बार कोशिश की गई।
-
token असामान्यता
- अगर prompt में whitespace शामिल हो, तो मॉडल का प्रदर्शन बहुत गिर जाता है। यह tokenizer की समस्या लगती है।
- सही तरीका "token healing" का उपयोग करना है, लेकिन इसे आसानी से लागू करने का तरीका नहीं मिल सका।
1 टिप्पणियां
Hacker News की राय
लगता है कि OpenAI ने chess को एक महत्वपूर्ण benchmark माना और
gpt-3.5-turbo-instructपर विशेष processing की, लेकिन बाद के models में उसे नहीं जोड़ा—इस संभावना को नज़रअंदाज़ किया गया हैQ5_K_M quantization के साथ सभी open models चलाए गए, लेकिन मेरा मानना है कि यह सिर्फ़ सभी parameters की lossy compression है, इसलिए यह महत्वपूर्ण नहीं है
समझ नहीं आता कि शिक्षित लोग क्यों उम्मीद करते हैं कि LLM chess में अच्छे होंगे
जिज्ञासा है कि क्या अच्छे results दोबारा reproducible हैं
अगर सच में intelligent model चाहिए, तो शायद tokenization बंद करनी पड़े
यह experimental result मिला कि
gpt-3.5-turbo-instructchess में बेहतर हैअगर chess सीखना sequence सीखने जैसा है, तो समस्या हो सकती है
problem search space में computation बढ़ाने की कोशिश की जा सकती है
एक theory है कि GPT-3.5-instruct पारंपरिक chess engine को call करके chess खेल सकता है
यह ज्ञात है कि विभिन्न मानवीय अनुभवों में skill और intelligence के अलग-अलग प्रकार मौजूद हैं