1 पॉइंट द्वारा GN⁺ 2024-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Leela Chess Zero की सीमाएँ

  • Leela Chess Zero ने self-play के ज़रिए अरबों बार प्रशिक्षण लेकर विश्व चैंपियन का दर्जा हासिल किया
  • लेकिन Stockfish के सामने पूरी तरह हार गया
  • बड़ा नेटवर्क प्रशिक्षित करने पर भी वह Stockfish को हरा नहीं सका
  • Stockfish ने Leela की तुलना में बहुत छोटा मॉडल इस्तेमाल किया, लेकिन बेहतर search क्षमता के कारण जीत हासिल की

Stockfish की जीत पर कुछ और विचार

  • Leela search अच्छी तरह नहीं कर सका, इसलिए उसने विश्व चैंपियन की जगह गंवा दी
  • LLM में search क्षमता जोड़ना अब काफी करीब है, लेकिन इस पर ध्यान नहीं दिया जा रहा
  • GPT-4 जैसे Foundation models में search क्षमता नहीं है
  • यह धारणा हावी है कि search संभव बनाने के लिए बड़े मॉडल चाहिए, लेकिन इसके प्रतिवाद मौजूद हैं
  • DeepMind के शोध के अनुसार chess algorithm में search व्यवहार स्वाभाविक रूप से उभरता है
  • जब efficient search algorithms मौजूद हैं, तब बड़े मॉडल में संयोग से inefficient precursor search के उभरने का इंतज़ार करने की ज़रूरत नहीं है
  • आज के मॉडल search संभव बनाने के लिए पर्याप्त बड़े हैं, और शायद ज़रूरत से भी ज़्यादा बड़े हैं

Search लक्षित क्षेत्र में computing resources आवंटित करने में सक्षम बनाता है

  • मान लें कि एक pharma company AI का उपयोग करके नई दवा पर शोध करना चाहती है
  • AI search संभव होने वाली दुनिया में दो विकल्प हैं
    1. 2030 तक इंतज़ार किया जाए कि OpenAI 4 orders of magnitude बड़ा मॉडल जारी करे, या
    2. आज ही 4 orders of magnitude अधिक inference computing resources का उपयोग किया जाए
  • pharma company दूसरे विकल्प को प्राथमिकता देगी
  • search के माध्यम से 2030-स्तर की ASI क्षमता का उपयोग अभी से किया जा सकता है

Search-आधारित AI प्रगति परिदृश्य

  • यह खोज लिया जाता है कि मौजूदा मॉडलों में search काम करता है
  • सरकारें या बड़े research labs समझ जाते हैं कि AI research या विदेशी सूचना-संग्रह में search को तुरंत लागू किया जा सकता है
  • inference computing resources सीमित होने के कारण इसका उपयोग सरकारों या बड़े research labs तक, और वह भी security या AI research तक सीमित रहता है
  • search-प्रेरित AI प्रगति से अधिक efficient search algorithms और model architectures खोजे जाते हैं
  • search को अधिक training data की ज़रूरत नहीं होती, इसलिए 'data wall' की समस्या हल हो जाती है
  • intelligence explosion 2030 में नहीं, बल्कि अगले ही साल से शुरू हो जाता है

स्वयं AI research में search लागू करने की संभावना

  • यदि AI इतना आगे बढ़ जाए कि वह स्वयं पर research कर सके, तो तेज़ प्रगति की dynamics की उम्मीद की जा सकती है
  • जैसे pharma companies नई दवा के शोध के लिए GPT-8 का इंतज़ार किए बिना आगे बढ़ सकती हैं, वैसे ही AI labs भी बड़े मॉडल का इंतज़ार किए बिना AI पर research कर सकेंगी
  • मानव AI researchers को replace करने के लिए शायद और अधिक constraints हटाने की ज़रूरत पड़े
  • लेकिन GPT-8 स्तर की बुद्धिमत्ता वाला एक साधारण chatbot भी AI प्रगति को तेज़ करने के लिए पर्याप्त हो सकता है

1 टिप्पणियां

 
GN⁺ 2024-06-16
Hacker News राय

Hacker News टिप्पणियों का सारांश

  • सर्च की प्रभावशीलता value function की गुणवत्ता से गहराई से जुड़ी है: मौजूदा value function बहुत खास domains के लिए specialized हैं, और ऐसा value function बनाया जा सकता है जो नए domains पर generalize कर सके, इसके समर्थन में पर्याप्त प्रमाण नहीं हैं।
  • Yann LeCun का शोध: Yann LeCun AGI बनाने के लिए सर्च की भूमिका का अध्ययन कर रहे हैं, और JEPA के जरिए एक मजबूत world model बनाने की कोशिश कर रहे हैं।
  • language model की सीमाएँ: इस पर सवाल है कि क्या मौजूदा LLM पर्याप्त रूप से समृद्ध world model को simulate कर सकते हैं, और video महत्वपूर्ण इसलिए है क्योंकि इंसान image sequence से उपयोगी world model निकाल सकते हैं।
  • लेख की अस्पष्टता: पोस्ट एक दिलचस्प premise से शुरू होती है, लेकिन LLM के संदर्भ में सर्च को परिभाषित नहीं करती, और "Pfizer आज GPT-8 capabilities का उपयोग कर सकता है" इस दावे की भी व्याख्या नहीं करती।
  • chess engine में सर्च: chess engine में सर्च एक objective function होने की वजह से संभव है, लेकिन सवाल यह है कि क्या LLM के लिए ऐसा metric मौजूद है।
  • सर्च की आवश्यकता: सर्च लगभग निश्चित रूप से जरूरी है, और यह पता लगाना महत्वपूर्ण है कि low-cost cluster किस तरह high-cost cluster को हरा सकता है।
  • chess और अन्य खेलों का अंतर: chess में pruning factors कम होते हैं, इसलिए व्यापक approach संभव है, लेकिन real-world situations में pruning factors कहीं अधिक होते हैं।
  • सर्च का generalization: सर्च "generate and test" और rejection sampling का generalization है, और इसकी speed candidate generation और testing time पर निर्भर करती है।
  • website की समस्या: एक खास website default browser features में बाधा डालती है, जिससे असुविधा होती है।
  • Leela Chess Zero का game tree: Leela chess game को game tree के रूप में model करता है और search algorithm का उपयोग करता है।
  • LLM में सर्च की संभावना: यह स्पष्ट नहीं है कि LLM किस possibility space में search कर सकते हैं।
  • LLM की सीमाएँ: चूँकि LLM cheesecake बना या उसका मूल्यांकन नहीं कर सकते, इसलिए AGI को लेकर अपेक्षाएँ कम रखने की जरूरत है।
  • information-theoretic समस्या: LLM training के लिए बहुत अधिक data की जरूरत इस बात की समस्या दिखाती है कि generalization और internal world modeling पर्याप्त नहीं है।