1 पॉइंट द्वारा GN⁺ 2024-11-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • LLM और शतरंज की अजीब घटनाएँ

    • इस पर चर्चा हुई कि क्या LLM (बड़े language model) शतरंज अच्छी तरह खेल सकते हैं। LLM को भाषा की भविष्यवाणी के लिए डिज़ाइन किया गया है, लेकिन इन्होंने शतरंज के खेल की भविष्यवाणी करने की क्षमता भी दिखाई है।
    • यह बात दिलचस्प थी कि LLM शतरंज का खेल अंत तक चला सकते हैं। यह इस बात का संकेत हो सकता है कि LLM अन्य परिस्थितियों में कैसे काम करते हैं।
  • मैंने क्या किया

    • LLM से शतरंज खिलाने के लिए एक खास prompt इस्तेमाल किया गया। उदाहरण के लिए, "आप एक chess grandmaster हैं। अगली चाल चुनें।" जैसी request दी गई।
    • llama-3.2-3b मॉडल का उपयोग करके 50 गेम खेले गए, लेकिन नतीजे अच्छे नहीं थे। बड़े मॉडल llama-3.1-70b और llama-3.1-70b-instruct भी आज़माए गए, लेकिन परिणाम फिर भी अच्छे नहीं रहे।
    • gpt-3.5-turbo-instruct मॉडल ने बहुत उत्कृष्ट प्रदर्शन दिखाया। लेकिन बाकी सभी मॉडलों ने खराब परिणाम दिए।
  • चर्चा

    • बहुत से लोगों ने LLM का उपयोग करके शतरंज खेलने की कोशिश की, लेकिन अधिकांश मॉडल अच्छे परिणाम नहीं दे सके।
    • इस बारे में कई सिद्धांत हैं कि gpt-3.5-turbo-instruct मॉडल दूसरे मॉडलों की तुलना में शतरंज बेहतर क्यों खेलता है।
    • एक सिद्धांत यह है कि अतिरिक्त instruction tuning मॉडल के प्रदर्शन को खराब कर सकती है।
  • संभावित सिद्धांत

    • सिद्धांत 1: पर्याप्त बड़े scale पर base model शतरंज खेल सकता है, लेकिन instruction tuning इसमें बाधा डालती है।
    • सिद्धांत 2: संभव है कि gpt-3.5-instruct को अधिक शतरंज खेलों पर train किया गया हो।
    • सिद्धांत 3: अलग transformer architecture के अंतर इसका कारण हो सकते हैं।
    • सिद्धांत 4: अलग-अलग data type के बीच "प्रतिस्पर्धा" हो सकती है।
  • विवरण

    • प्रयोग शतरंज के लिए standard algebraic notation का उपयोग करके किया गया।
    • OpenAI मॉडल में पूर्ण grammar support नहीं था, इसलिए वैध चाल बनने तक अधिकतम 10 बार कोशिश की गई।
  • token असामान्यता

    • अगर prompt में whitespace शामिल हो, तो मॉडल का प्रदर्शन बहुत गिर जाता है। यह tokenizer की समस्या लगती है।
    • सही तरीका "token healing" का उपयोग करना है, लेकिन इसे आसानी से लागू करने का तरीका नहीं मिल सका।

1 टिप्पणियां

 
GN⁺ 2024-11-15
Hacker News की राय
  • लगता है कि OpenAI ने chess को एक महत्वपूर्ण benchmark माना और gpt-3.5-turbo-instruct पर विशेष processing की, लेकिन बाद के models में उसे नहीं जोड़ा—इस संभावना को नज़रअंदाज़ किया गया है

    • इसकी वजह यह हो सकती है कि chess ने लगातार media coverage पैदा नहीं की
  • Q5_K_M quantization के साथ सभी open models चलाए गए, लेकिन मेरा मानना है कि यह सिर्फ़ सभी parameters की lossy compression है, इसलिए यह महत्वपूर्ण नहीं है

  • समझ नहीं आता कि शिक्षित लोग क्यों उम्मीद करते हैं कि LLM chess में अच्छे होंगे

    • chess में वास्तविक reasoning और deterministic calculation की ज़रूरत होती है
  • जिज्ञासा है कि क्या अच्छे results दोबारा reproducible हैं

    • पहले अच्छे results मिले थे, लेकिन उन्हें फिर से reproduce नहीं किया जा सका
    • venture capital की economics का मतलब है कि ऐसी technology को justify करने का दबाव होता है जिसे "धोखा" माना जा सकता है
  • अगर सच में intelligent model चाहिए, तो शायद tokenization बंद करनी पड़े

    • information stream की structure को सीमित करके हम model की vision और perception को सीमित कर रहे हैं
  • यह experimental result मिला कि gpt-3.5-turbo-instruct chess में बेहतर है

  • अगर chess सीखना sequence सीखने जैसा है, तो समस्या हो सकती है

    • modern chess engines कम-से-कम सभी players के साथ draw दर्ज कर सकते हैं
  • problem search space में computation बढ़ाने की कोशिश की जा सकती है

    • step-by-step instructions देकर, जो एक शुरुआती chess player भी कर सके, विभिन्न parameters को adjust किया जा सकता है
  • एक theory है कि GPT-3.5-instruct पारंपरिक chess engine को call करके chess खेल सकता है

  • यह ज्ञात है कि विभिन्न मानवीय अनुभवों में skill और intelligence के अलग-अलग प्रकार मौजूद हैं

    • model का chess में अच्छा होना शायद इस वजह से हो कि उसके पास संयोग से सही 'connectome' है