AI खोज: और भी कड़वा सबक

(yellow-apartment-148.notion.site)

1 पॉइंट द्वारा GN⁺ 2024-06-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें

foundation model में लंबे reasoning time का उपयोग करने वाली search क्षमता जोड़ने से, बड़े model के release का इंतज़ार करने से अलग AI progress का रास्ता खुल सकता है
Leela Chess Zero ने self-play और deep learning से Stockfish को हराया, लेकिन Stockfish ने एक छोटे neural network को मज़बूत search pipeline से जोड़कर फिर बढ़त हासिल कर ली
यहाँ search का मतलब training compute नहीं, बल्कि inference compute अधिक खर्च करके problem-solving performance बढ़ाने की क्षमता है; यह सिर्फ chess-style MCTS या AlphaBeta नहीं है
search compute को केवल ज़रूरी क्षेत्रों पर केंद्रित करने देती है, जिससे Pfizer जैसी कंपनियों के लिए OpenAI के बड़े model का इंतज़ार करने के बजाय inference cost सीधे चुकाने का विकल्प बन सकता है
अगर search पहले AI research में लागू होती है, तो इसका इस्तेमाल अधिक efficient search algorithms और model architectures खोजने में हो सकता है, जिससे self-improving AI उम्मीद से अधिक करीब हो सकती है

Leela और Stockfish ने जो “और भी कड़वा सबक” दिखाया

Leela Chess Zero एक chess engine है जिसने केवल rules जानकर शुरुआत की और अरबों self-play games से सीखा
- इंसानी chess knowledge को सीधे hardcode किए बिना, उसने अपने-आप सीखे तरीके से human chess theory को पलट देने वाली moves खेलीं
- उसने long-term sacrifices और creative moves दिखाईं, और world championship जीती
Leela की ताकत deep learning थी, और यह The Bitter Lesson में बताए गए large-scale computation और learning की शक्ति को अच्छी तरह दिखाती है
- यह उस trend से जुड़ता है कि human-designed knowledge की तुलना में self-learned representations अधिक शक्तिशाली हो सकती हैं
Leela team ने 2018 में देखा कि बड़े networks छोटे networks की तुलना में लगातार ज़्यादा मजबूत होते हैं
- बड़े networks ने explicit search के बिना भी कई moves आगे देखने जैसी emergent properties दिखाईं
2020 में Leela team ने बड़ा network train करने के लिए corporate donors और परिचितों के GTX 1070 आदि से compute इकट्ठा किया, और world championship से ठीक पहले अपना सबसे बड़ा model तैयार किया, लेकिन हार गई

Stockfish की वापसी: छोटा model और मजबूत search

Stockfish 2010s का dominant chess program था, और 2019 में यह पुराने दौर की AI जैसा था, जिसमें इंसानों ने game knowledge को mathematical techniques के जरिए code में डाला था
Leela ने deep learning और tabula rasa approach से 2019 में Stockfish को हराया, लेकिन बाद में Stockfish ने Leela की deep learning techniques अपनाकर बहुत छोटा model train किया
- वह model शीर्ष Leela models से सैकड़ों गुना छोटा था
- Stockfish ने इस छोटे model को अपनी मौजूदा search pipeline में डाला, और जल्द ही Leela पर हावी हो गया
यह जीत बड़े models की ओर बढ़ने वाले scaling laws के उलट लगती है
- क्योंकि model छोटा था, लेकिन search algorithm अधिक efficient था, hardware का बेहतर उपयोग करता था, और अधिक दूर तक देख सकता था
“और भी कड़वा सबक” यह है कि चमकदार deep learning युग में भी AI search की शक्ति को कम नहीं आंकना चाहिए

foundation model search की परिभाषा और मौजूदा सीमाएँ

GPT-4 जैसे foundation models में इस लेख के अर्थ वाली search की कमी है
- GPT-4 से यह कहना कि वह किसी problem पर एक महीने तक सोचे और फिर बेहतर उत्तर दे, अभी संभव नहीं है
- “step-by-step सोचो” जैसी request performance बढ़ा सकती है, लेकिन returns जल्दी घटने लगते हैं
foundation model search training compute नहीं, बल्कि inference compute अधिक खर्च करके समस्याओं को बेहतर हल करने की क्षमता है
- यह सिर्फ chess-style MCTS या AlphaBeta search को नहीं दर्शाती
- इंसानों की introspective thinking और collaboration भी इस definition में आते हैं
AI researchers, economists और CEOs शायद यह कम आंक रहे हों कि foundation models को search देना कितना पास और कितना महत्वपूर्ण है
search क्यों महत्वपूर्ण है, इसे तीन बातों में समेटा जा सकता है
- implementation के लिए ज़रूरी नहीं कि बहुत बड़े model scale की आवश्यकता हो
- compute को केवल ज़रूरी जगहों पर केंद्रित किया जा सकता है
- AI research automation को तेज किया जा सकता है

scale शायद search की prerequisite न हो

व्यापक assumption यह है कि LLM search को संभव बनाने के लिए बड़े models चाहिए
- Sholto Douglas ने कहा कि long-term thinking संभालने के लिए LLM reliability में और अधिक “nines” चाहिए
- Leopold Aschenbrenner मानते हैं कि pretraining में search के लिए जरूरी ingredients पहले से हो सकते हैं, और “थोड़ी और scaling” तथा extra tokens चाहिए
लेकिन chess का उदाहरण इस विचार को हिला देता है कि scale search की prerequisite है
- DeepMind ने search के बिना chess algorithm में अध्ययन किया कि आगे देखने वाला behavior external scaffolding के बिना स्वाभाविक रूप से उभरता है
- तर्क यह है कि chess में search algorithms पहले से मौजूद हैं, इसलिए बड़े models में inefficient lookahead capability के संयोग से उभरने का इंतज़ार करने की वजह कमजोर है
Scaling Scaling Laws with Board Games ने दिखाया कि training-time compute को 10 गुना बढ़ाने पर test-time compute को लगभग 15 गुना घटाया जा सकता है
- यह result single-neuron model तक जाने पर भी observe हुआ
- यह Stockfish के Leela से तीन अंकों तक छोटे model के साथ जीतने के मामले से जुड़ता है
मौजूदा models search को संभव बनाने के लिए पहले से काफी बड़े हो सकते हैं, और शायद जरूरत से भी बड़े हों

search economics और AI research automation की संभावना

search training-time और inference-time compute के बीच trade-off को संभव बनाती है, और cost को सिर्फ specific domains पर खर्च करने देती है
Pfizer का उदाहरण दिखाता है कि search कैसे domain-specific compute spending तक ले जाती है
- अगर Pfizer को नई drug research करनी है, तो वह 2030 में OpenAI द्वारा 4-अंकीय रूप से बड़ा model जारी करने तक इंतज़ार कर सकता है
- या अभी 4-अंकीय रूप से अधिक inference compute इस्तेमाल करके वैसी ही capability पाने की कोशिश कर सकता है
मान लें Pfizer GPT-4 पर सालाना 100,000 डॉलर खर्च करता है, तो 2030 की ASI-level capability तक पहुंचने के लिए उसे AI budget को 4 अंकों तक बढ़ाकर सालाना 1 billion डॉलर करना होगा
- Pfizer का R&D budget पहले से ही 12 billion डॉलर है
- माना जाता है कि उसी capability वाला model train करने में OpenAI को trillions of dollars लग सकते हैं
Leopold Aschenbrenner का 2030 ASI path बड़े clusters, revenue growth, बड़े corporate loans, और government द्वारा और बड़ा cluster बनाने से होकर जाता है, जिसके बाद model इतना बड़ा हो जाता है कि AI research खुद कर सके
- search के बिना दुनिया में यह path plausible लगता है
जिस दुनिया में search काम करती है, वहाँ दूसरा path संभव है
- मौजूदा models पर search काम करती है
- बड़ी labs और governments search को तुरंत AI research या foreign intelligence पर लागू करती हैं
- inference compute limited होने के कारण governments या बड़ी labs इसके उपयोग को security या AI research तक सीमित करती हैं
- search-based AI progress अधिक efficient search algorithms और model architectures खोज निकालती है
- search को अधिक training data की मांग नहीं होती, इसलिए data barrier की समस्या कमजोर पड़ती है
- इससे यह outlook बनता है कि intelligence explosion 2030 में नहीं, बल्कि अगले साल शुरू हो सकता है
AI research में search का इस्तेमाल करने पर, नई drugs की discovery के विपरीत, results सीधे बेहतर AI बनाने में योगदान दे सकते हैं
- शुरुआती search-enhanced models में tools का उपयोग करने या tests चलाने जैसी human-like agency नहीं हो सकती
- फिर भी माना जाता है कि वे superhuman “armchair theorists” की तरह algorithmic progress को आगे बढ़ा सकते हैं
- अगर GPT-4 1 trillion tokens और 15 million डॉलर खर्च करके ऐसा algorithm खोज ले जो training cost को 3% घटा दे या search efficiency को 10% बढ़ा दे, तो लागत recover की जा सकती है—ऐसी calculation सामने आती है
यह prediction दो premises पर निर्भर है
- ऐसा foundation model search algorithm मौजूद है जो RL systems में दिखे performance gains जैसा सुधार संभव बनाता है
- search मौजूदा capital को intelligence में model scaling की तुलना में अधिक efficiently बदलती है
2020s के scaling laws के उलट, search की performance और economics पर अच्छे evidence अभी कम हैं, और game reinforcement learning experience के आधार पर extrapolation बाकी है

1 टिप्पणियां

GN⁺ 2024-06-16

Hacker News राय

खोज का असर value function की गुणवत्ता के साथ चलता है। लेकिन अभी के value functions बहुत ज़्यादा domain-specific हैं, और मुझे लगता है कि ऐसा value function बनाया जा सकता है जो नए domains में अच्छी तरह generalize हो—इसके सबूत कमज़ोर हैं या हैं ही नहीं
यह लेख असल में “chess के लिए अच्छा value function है” से “AI research के लिए search संभव कराने वाला अच्छा value function बनाया जा सकता है” तक एक वैचारिक छलांग लगाता है
बेशक अगर ऐसा हो जाए तो यह शानदार, किसी holy grail जैसा होगा, लेकिन सच में संभव है या नहीं, इस पर शक है। ऊपर से LLM चलाने में inference-time cost 1000x या 10000x जुड़ जाए तो लागत बेहिसाब स्तर तक पहुँच जाएगी
- generalized value function, यानी LLM benchmarks, कुछ हद तक मौजूद हैं, ऐसा लगता है। समस्या यह है कि inference के समय tree search करने लायक कोई सस्ता approximation नहीं है
  chess इसलिए काम करता है क्योंकि material advantage जीत का काफ़ी अच्छा approximation है और उसे calculate करना भी बहुत आसान है
- जिज्ञासा है कि क्या आप “general-purpose AI” breakthrough आने पर विश्वास करते हैं। अभी कही गई बात मेरे हिसाब से उन AI researchers पर संदेह की वजह को अच्छी तरह व्यक्त करती है जो मानते हैं कि “हम जल्द ही वहाँ पहुँचने वाले हैं”
  शुरुआत में ही general-purpose AI असल में क्या है, यह भी ठीक से defined नहीं लगता
- कुछ domains में सिर्फ self-evaluation भी पर्याप्त हो सकता है। तब AI अपने ही मानदंडों पर ज़्यादा score पाने वाले answer खोजने के लिए कई attempts करेगा और बार-बार खुद को evaluate करेगा
- अच्छे value function के लिए उस task की high-quality simulation ही चाहिए
  कुछ domains में यह बेहतर काम करता है। उदाहरण के लिए, mathematics में theorem provers success है या नहीं, यह ठीक-ठीक बता देते हैं
  साथ ही Lean में human researchers की मदद करने वाली search जैसी functionality जोड़ी जा सकती है, और इससे mathematics में AI progress में भी मदद मिल सकती है
- Stockfish में किसी given position से legal moves सीमित होते हैं, और हारने वाली branches को जल्दी और कड़ाई से prune किया जा सकता है, फिर भी 40 moves आगे देखते समय वह लाखों positions evaluate कर सकता है
  एक optimal answer चुनने के लिए LLM के आगे आने वाले लाखों sentences evaluate करने की लागत की कल्पना करना भी मुश्किल है
  LLM में tree search जिस जगह ज़्यादा समझ में आ सकती है, वह word-level alternatives नहीं बल्कि reasoning में बड़े granularity वाले “अगर ऐसा सोचें तो” paths explore करना हो सकता है। फिर भी generation और evaluation·pruning की लागत आसानी से असंभालनीय हो सकती है, और इतना biased approach bitter lesson के अनुरूप होने के बजाय उलटे सीधे उसके खिलाफ़ जाता हुआ भी दिखता है
यह generally solve करने के लिए सच में मुश्किल problem है, और Yann LeCun जैसे समझदार researchers भी AGI बनाने में search की भूमिका क्या है, यह खोज रहे हैं
Yann का मौजूदा दांव Joint Embedding Predictive Architectures, यानी JEPA, को representation learning में इस्तेमाल करके robust world model बनाने और agent को अलग-अलग actions आज़माकर theories test करने देने की दिशा में दिखता है
यह paper [0] उनके संभावित vision को अच्छी तरह summarize करता है, लेकिन बेशक यह सिर्फ search + transformer से कहीं ज़्यादा कठिन काम है
इसमें यह assumption है कि language दुनिया को इतना अच्छी तरह represent करती है कि agent उस पर प्रभावी ढंग से search कर सके और नए, उपयोगी ideas निकाल सके। यह open question जैसा लगता है। LLM क्या जानते हैं? क्या वे सच में कुछ जानते हैं? Researchers को पता लगाना होगा
अगर मौजूदा LLM पर्याप्त rich world model simulate कर सकते हैं, तो search सच में useful हो सकती है, लेकिन अगर वे सिर्फ नकल कर रहे हैं, तो यह केवल unreliable beliefs पर search करना होगा
इसलिए video महत्वपूर्ण है। क्योंकि यह इस बात का evidence है कि इंसान images की sequence से useful world model निकाल सकते हैं
language और chess में action space effectively discrete होता है, इसलिए loss calculation के लिए पूरे input को reconstruct करने वाली generative model training संभव है। video पर जाते ही transformers को continuous distribution पर scale करना पड़ता है, इसलिए useful predictive world model बनाना कहीं ज़्यादा मुश्किल हो जाता है
[0]: https://arxiv.org/abs/2306.02572
- मुझे लगता है कि AGI संभव है, यह विचार ही human brain को computer मानने वाली गहरी और व्यापक कल्पना से आता है। लेकिन human brain computer नहीं है
  आप कितना भी complex program लिख लें, वह फिर भी Turing machine ही है, और इंसान मूल रूप से ऐसा नहीं है
  https://aeon.co/essays/your-brain-does-not-process-informati...
  human intelligence के लिए information processing metaphor अब everyday life और science, दोनों में human thought पर हावी है। लेकिन आखिरकार यह भी उन चीज़ों को समझने के लिए बनाया गया एक और metaphor भर है जिन्हें हम वास्तव में नहीं समझते, और एक दिन इसे किसी दूसरे metaphor या वास्तविक knowledge से बदल दिया जाएगा
  उसी concert में Beethoven 5th सुनने पर भी मेरे brain में होने वाले changes और किसी दूसरे व्यक्ति के brain में होने वाले changes लगभग निश्चित रूप से बिल्कुल अलग होंगे। क्योंकि changes हर व्यक्ति के unique experiences से बनी neural structure पर होते हैं
  इसलिए दो लोग एक ही कहानी सुनें तो भी उसे बिल्कुल एक जैसा repeat नहीं करते, और समय के साथ उनका repetition और अलग होता जाता है। कहानी की “copy” नहीं बनती, बल्कि कहानी सुनने वाला हर व्यक्ति कुछ हद तक बदल जाता है
- “क्या वे सच में कुछ जानते हैं?” इसका answer मेरे हिसाब से yes है। हालांकि वे ऐसी चीज़ें भी जानते हैं जो पूरी तरह झूठ हैं
  LLM में मैंने जो सबसे बड़ी विशेषता देखी है, वह है कि वे logic और math को अच्छी तरह handle नहीं कर पाते। जब “नहीं पता” कहना बेहतर होता, तब भी वे साफ़ तौर पर झूठी जानकारी confidence से दे देते हैं। मुझे लगता है कि यह intended design होने की संभावना बहुत कम है
लेख एक दिलचस्प आधार से शुरू होता है, लेकिन LLM के संदर्भ में exploration क्या है, इसे परिभाषित नहीं करता, और “Pfizer अधिक inference compute से आज की GPT-8 क्षमताओं के करीब पहुंच सकता है” वाली बात भी समझाता नहीं, इसलिए यह अधूरा लगता है
मैं AI practitioner हूं, फिर भी इसे follow करना मुश्किल था। मूल लेख का मतलब क्या है, यह और समझा सकने वाला कोई चाहिए
Chess engine में exploration, यानी कई चाल आगे देखने का तरीका, इसलिए संभव लगता है क्योंकि परिणामों को rank करने वाला objective function होता है। कोई संभावित चाल “बेहतर” है या नहीं, इसका आकलन करने के लिए metric होता है, और यह आम तौर पर reinforcement learning की intrinsic property जैसा है। सवाल है कि LLM में भी ऐसा कोई metric है या नहीं
- यह बात मुझे भी बहुत उलझाती है
  अंदाज़ा लगाऊं तो शायद मतलब यह है कि model के top predicted tokens में से हर एक के लिए कुछ tokens आगे तक run करके देखा जाए, फिर track किया जाए कि कौन-सी branch training data की तुलना में सबसे अच्छा perform करती है, और उस जानकारी को training में इस्तेमाल किया जाए
  लेकिन exploration को inference time पर efficiency बढ़ानी चाहिए, और यह तरीका ऐसा नहीं करता
- शायद मतलब वही है, और मुझे लगता है कि ऐसा कोई metric नहीं है। लोग adversarial evaluation की कोशिश करेंगे, लेकिन आखिर में इसके average prediction की ओर converge करने की संभावना ज्यादा लगती है
  साथ ही LLM inference सस्ता नहीं है। inference cost और training cost के बीच trade-off application के हिसाब से बहुत अलग होता है। कुछ domains में training cost को 10x घटाने के बदले inference cost को 100x या 1000x स्वीकार करना समझदारी हो सकती है
Charlie Steiner ने 5 साल पहले Less Wrong पर यह बात पहले ही उठाई थी
अगर GPT-3 को medical textbooks के एक bundle पर train किया जाए और उससे Alzheimer’s का इलाज बताने को कहा जाए, तो वह इलाज नहीं बताएगा, बल्कि यह बताएगा कि इंसानों ने Alzheimer’s के इलाज के बारे में क्या कहा है
बात यह है कि यह logical oracle से ज्यादा, training data में मौजूद associations के आधार पर plausible कहानी कहने वाला intuitive oracle बन जाता है
Alzheimer’s का इलाज कठिन है, इसका मतलब है कि इस design में कुछ missing है, और वह है exploration। इसका मतलब यह नहीं कि neural network सीधे इलाज output नहीं कर सकता, लेकिन ऐसा लगता है कि trained model के भीतर पहले से “Alzheimer’s cure” वाला dimension मौजूद होना चाहिए
अगर हम इलाज अभी नहीं जानते, तो realistic तरीका है कि कई logical steps से गुजरते हुए logical space में धीरे-धीरे move किया जाए, possibilities को क्रमशः narrow किया जाए, और अंत में शर्तों पर खरी उतरने वाली चीज़ खोजी जाए। यानी exploration problem solve करना
अगर AI Alzheimer’s का इलाज बता सकता है, तो संभावना है कि वह explicitly इलाज explore कर रहा है, या उसकी internal state implicitly exploration कर रही है
https://www.lesswrong.com/posts/EMZeJ7vpfeF4GrWwm/self-super...
- सोचता हूं कि इसे सिर्फ GPT तक सीमित न रखकर generalize करें तो क्या ऐसे कहा जा सकता है
  “अगर एक logical machine को medical textbooks के bundle पर train किया जाए और उससे Alzheimer’s का इलाज बताने को कहा जाए, तो वह इलाज नहीं बल्कि वे textbooks Alzheimer’s के इलाज के बारे में जो कहते हैं, वही बताएगी”
  शायद ऐसा नहीं होगा। GPT पढ़ी हुई चीज़ों को दोहराने और recombine करने तक काफी हद तक सीमित लगता है, लेकिन बेहतर logic वाला कोई दूसरा algorithm असल में meta-research कर सकता है। यानी अब तक के सभी Alzheimer’s experiment results लेकर humans जिस मुकाम तक पहुंचे हैं, उससे भी narrower solution space तक इसे घटा सकता है
  इंसानों के पास relevant results को एक साथ दिमाग में रखने की क्षमता नहीं हो सकती, लेकिन computer के लिए यह संभव हो सकता है
  GPT से “step by step सोचो” कहने पर performance बेहतर होती है, इसलिए उसके पास जरूरी logic का कोई न कोई रूप जरूर है। “यह data है, इसे transform कर दो” भी यह अच्छी तरह करता है
  सीमा logic की quality और उस transformation को करने के लिए उपलब्ध window के size में है। हालांकि training में याद किया गया data input token window से कहीं ज्यादा हो सकता है, इसलिए यह आंशिक workaround हो सकता है
  अगर दोनों क्षमताएं मौजूद हैं, तो scaling असंभव है कहना मुश्किल है। GPT का evolved form मौजूदा data के भीतर Alzheimer’s का इलाज खोज सकता है या नहीं, इसे खारिज कर पाना मुझे नहीं पता, और अगर कोई system इस काम के लिए ज्यादा उपयुक्त हो तो AGI तक की जरूरत भी नहीं पड़ सकती
  बेशक data में solution के लिए जरूरी components होने चाहिए। लेकिन quote ऐसा लगता है जैसे भले ही data में सारी information हो और बस complete solution अभी न हो, फिर भी इलाज identify करने की संभावना को ही खारिज कर रहा है
exploration लगभग निश्चित रूप से जरूरी है, और trillion-dollar clusters की वकालत करने वालों को अब उन लोगों से बात करनी चाहिए जिन्होंने आज smartphones पर भी चलने वाले superhuman chess engines बनाए हैं
क्योंकि कोई million-dollar cluster, या 5 लाख million-dollar clusters से trillion-dollar cluster को हराने का तरीका निकाल सकता है
chess पर मेरा निष्कर्ष है कि chess का branching factor इतना बड़ा नहीं होता कि breadth-first approach असंभव हो जाए। median branching factor, यानी legal moves की संख्या, अधिकतम करीब 40 होती है और आम तौर पर 30 के आसपास रहती है
वास्तविक game positions में मैंने सबसे ज्यादा 147 moves देखे हैं, लेकिन उस point पर लगभग सभी moves checkmate थे
Go engines को superhuman बनाना लंबे समय तक कठिन रहा, क्योंकि उसका branching factor chess से कहीं ज्यादा बड़ा था
MCTS कम exhaustive है, इसलिए full search उसकी कमजोरियां ढूंढकर exploit कर सकता है, यह बात समझ आती है। सवाल यह है कि क्या breadth-first approach को बड़े games और situations पर apply किया जा सकता है, और मेरा मानना है कि जवाब साफ तौर पर नहीं है
real-world situations का branching factor chess के विपरीत कई orders of magnitude ज्यादा है
हालांकि chess से अलग, real world में ज्यादातर छोटे decisions ज्यादा मायने नहीं रखते। New York से LA जाते समय drive करना है, flight लेनी है या पैदल जाना है—यह बहुत महत्वपूर्ण है। लेकिन दरवाजे से बाहर निकलते समय पहले बायां पैर रखना है या दायां, अभी पलक झपकानी है या 2 सेकंड बाद—ये आम तौर पर महत्वपूर्ण नहीं होते
- LLM का branching factor, अगले possible tokens की संख्या के आधार पर, लगभग 50 हजार के आसपास लगता है
लेख भविष्यवाणी के मामले में काफ़ी अमूर्त और कुछ ज़्यादा ही आत्मविश्वासी लगता है, लेकिन इसे आज़माने लायक लगता है
“एक्सप्लोरेशन” दरअसल “बनाओ और टेस्ट करो” और rejection sampling का सामान्यीकृत रूप है। यह क्लासिक AI है
dot-com दौर से पहले जब मैंने AI की शुरुआती क्लास ली थी, तब Prolog में एक्सप्लोरेशन प्रोग्राम लिखना सीखा था
गति इस पर निर्भर करती है कि एक candidate बनाने में कितना समय लगता है, उसे टेस्ट करने में कितना समय लगता है, और कितने candidates आज़माने पड़ते हैं। अगर ये धीमे हैं, तो पूरी प्रक्रिया भी धीमी होगी
human-in-the-loop rejection sampling का एक उदाहरण है: image generator इस्तेमाल करते हुए तब तक अलग-अलग prompts आज़माते रहना जब तक पसंद की image न आ जाए। लेकिन नई image generate होने में समय ज़्यादा लगता है, इसलिए loop धीमा है
अगर image generation Google Image Search जितनी तेज़ी से काम करे, तो यह सचमुच कुछ मायने रखने वाली चीज़ बन सकती है
theorem proving और program fuzzing ऑटोमेटेड, तेज़ हैं और उनके पास अच्छे evaluation functions हैं, इसलिए LLM और exploration को जोड़ने के लिए ये अच्छे लगते हैं
लगता है Google ने कोई fuzzer [1] जारी किया है जिसे आपकी पसंद के LLM से जोड़ा जा सकता है; सोच रहा हूँ किसी ने इसे इस्तेमाल किया है या नहीं
[1] https://github.com/google/oss-fuzz-gen
- theorem proving या planning के क्षेत्र में ज्ञात search procedures और “evaluation functions” पहले से ही सैद्धांतिक रूप से optimal सीमाओं के क़रीब हैं
  इसलिए ज़रूरत किसी नए evaluation या search procedure की नहीं, बल्कि नई mathematics की है जो यह गारंटी दे कि शुरुआत में कोशिश करने की वजह है
  theorem proving को उदाहरण के तौर पर लें, तो SLD-Resolution inductive inference के लिए sound और complete automated theorem proving procedure है। space-efficient implementation में depth-first search इस्तेमाल की जा सकती है, लेकिन left recursion में loop में फँस सकती है; time-efficient implementation में memoization के साथ breadth-first search इस्तेमाल की जा सकती है, लेकिन space complexity exponential बढ़ जाती है
  यहाँ “evaluation function” लागू नहीं होता। क्योंकि Resolution अपने-आप में formal logic statements की truth, या truth value की certainty का मूल्यांकन करने वाले function का एक प्रकार है
  और यह sound और complete है, और स्पष्ट logic के लिए semidecidable है। जब तक आप Church-Turing का उल्लंघन नहीं करते, यही सबसे अच्छा है
  heuristic search से efficiency सुधारी जा सकती है। उदाहरण के लिए, practical SLD-Resolution के एक अहम हिस्से subsumption relation की NP-hardness से बचने के लिए ऐसी कोशिशें हुई थीं, और यहाँ व्यापक अर्थ में heuristic cost function आता है
  लेकिन दो समस्याएँ हैं। a) heuristic search इस्तेमाल करने का मतलब completeness का त्याग है, और b) planning में planning problem को relax करके heuristic function निकालने की काफ़ी मजबूत method पहले से मौजूद है
  सबक यह है कि soundness, completeness, efficiency में से केवल दो चुनें। LLM जैसे statistical machine learning approaches मौजूदा techniques से अलग दो ही चुन सकते हैं
  मूल रूप से search-based AI की कुल performance limit पर हम अब उस बिंदु पर हैं जहाँ सिर्फ़ किनारों पर छोटे gains मिल सकते हैं। जब तक कोई बेहतर mathematics नहीं लाता, हम वहीं रहेंगे
- मशहूर mathematician और computer-assisted theorem proving के मजबूत समर्थक Terence Tao मानते हैं कि machine learning theorem provers के क्षेत्र में नए रास्ते खोलेगी
मुझे लगता है मैं उस game space को समझता हूँ जिसे Leela और मौजूदा Stockfish search करते हैं। लेकिन लेखक LLM को किस possibility space में search करता मानते हैं, यह समझ नहीं आता
1. लिखे गए शब्द, 2) mathematics·reinforcement learning·materials science models, 3) chess के game space जैसे छोटे और formalized spaces, ये सब, या कुछ और—स्पष्ट नहीं है। शायद कहीं साफ़ किया हो और मैं चूक गया हूँ
- लगता है वे चाहते हैं कि search algorithm itself बेहतर search algorithms खोजने के लिए search करे। यानी self-improvement। तब कुछ संकरे domain constraints हट सकते हैं
मेरा सुझाव है कि LLM से cancer cure खोजने से पहले, पहले एक ज़्यादा manageable समस्या “भगवान का cheesecake” खोजने को कहें
ऐसा cheesecake जो 100 निष्पक्ष chefs को इतना स्वादिष्ट लगे कि वे उसे अब तक खाई गई सबसे अच्छी चीज़ घोषित करें
LLM को बस काफ़ी combinatorially सीमित “cheesecake space” को समझदारी से explore करके जितना हो सके उतनी स्वादिष्ट cheesecake recipe खोजनी है
लेकिन LLM cheesecake bake नहीं कर सकता, और अगर कर भी दे तो उसके स्वाद का मूल्यांकन नहीं कर सकता
जब तक AI “भगवान का cheesecake” समस्या हल नहीं कर लेता, तब तक AGI को लेकर हम सबको थोड़ा शांत रहना चाहिए
- ये cookies बहुत स्वादिष्ट थीं, लेकिन दिव्य स्तर की नहीं थीं। थोड़े investment और ज़्यादा modern techniques से काफ़ी अच्छी recipes बनाई जा सकती हैं, और शायद किसी भी इंसान से बेहतर भी
  मुझे लगता है AI बहुत competitive baking competition जीतने वाली recipe बना सकता है। बस judges 100 के 100 को हराना किसी के लिए भी असंभव है
  https://static.googleusercontent.com/media/research.google.c...
- अगर जवाब यह हो कि “meaningful answer देने के लिए 2 हफ्ते और 5000 डॉलर चाहिए”, तो इसे कैसे देखा जाएगा, यह जानना चाहूँगा
- पूरी तरह computer पर चलने वाले LLM की सीमाओं के भीतर भी, अगर LLM सचमुच शानदार short stories या अच्छा ad copy लिख सकता है, तो दुनिया बदलने वाली बात है
- TikTok इस समस्या का digital version है
- क्या कोई सच में मानता है कि LLM-assisted program से cheesecake recipes पर trial-and-error करके और judging panel से उनका evaluation कराकर इतिहास का सबसे अच्छा cheesecake नहीं निकलेगा?
  bake करने वाला हिस्सा robotics है, इसलिए तुलना थोड़ी कम fair है, लेकिन यह पहले से कुछ हद तक संभव है
लेखक ने जिस सबसे बड़ी समस्या पर ध्यान नहीं दिया, वह यह है कि इसके लिए जरूरी compute कितना बड़ा है
यह लेख वैसा ही है जैसे कहना कि बंदर को समय दें तो वह Shakespeare लिख देगा। बेशक यह सही है, लेकिन search space संभालने लायक नहीं, बेहद बड़ा है, और भले ही कहीं जवाब मौजूद हो, उस अफरा-तफरी में उसे खोज नहीं पाएंगे
मैं एक साल से अधिक समय से full-time pruning और evolutionary LLM systems बना रहा हूं
कई “search” या “exploration” algorithms बनाकर देखे हैं। समस्या यह है कि कई चरणों के बाद वह agent, जिसे मूल रूप से biology का अध्ययन या कोई कार्य करने को कहा गया था, battleships की कहानियां सुनाने लगता है। यह मेरे पिछले असली काम से आया उदाहरण है
single-step लगभग अकेली स्थिति है जहां search function सच में काम करता है। multi-step agents में संभावनाएं बहुत तेजी से अनंत तक फटकर बढ़ती हैं
single-step में भी समस्या है। उदाहरण के लिए, coding problem हल करने वाला zero-shot सवाल 1000 बार चलाने से बेहतर solution खोजने में मदद मिल सकती है, लेकिन यह इसलिए संभव है क्योंकि search space सीमित है। वह सीमा अच्छी बात है
हाल ही में कई LLM models पर, एक input prompt को केवल input settings बदलकर 10,000 बार inference कराने का test किया। हर अलग prompt के पास अनंत संभावित responses नहीं होते। वे सीमित होते हैं। इसलिए वे अभी LLM के रूप में काम कर पाते हैं
agents के ठीक से काम न करने की घटना इसी समस्या का उदाहरण है। single-step search space भी विशाल है, लेकिन agent के हर एक step के साथ यह exponentially बढ़ता है
इस समस्या को हल करने के लिए tools और systems बना रहा हूं, लेकिन large-scale search अभी भी उतनी ही दूर लगती है जितना यह कहना कि “AI model का size 100x बढ़ा देने से समाधान हो जाएगा”
autonomy intelligence या reasoning के समान नहीं है
“Leela Chess Zero को zero इसलिए कहा गया क्योंकि उसने केवल rules जानकर शुरुआत की” — यह अभिव्यक्ति आम है, लेकिन गलत है
Leela और उसके परिवार में एक और chess-specific knowledge है जो performance के लिए जरूरी है। वह है chess game को game tree के रूप में व्यक्त करने वाला game world model। इसमें हर player की बारी एक ply में बंटी होती है
इस game tree को minimax या Monte Carlo Tree Search जैसे adversarial search algorithms explore करते हैं। मेरी समझ में Leela ने MCTS चुना
game को game tree के रूप में अधिक सटीक ढंग से model करने का तरीका केवल chess ही नहीं, कई games पर लागू होता है। लेकिन chess engines में इस्तेमाल होने वाला खास game tree, chess जैसे 2-player zero-sum perfect-information board games के लिए उपयुक्त रूप है
दूसरे प्रकार के games को अलग models और अलग search algorithms चाहिए। उदाहरण के लिए Poker और Libratus [1] को देखें
ऐसे game tree, यानी game world model, अगर लक्ष्य उच्च performance है तो फिलहाल हटाए नहीं जा सकते। लेख search-free algorithms का जिक्र करता है और उनकी मुख्य सीमा, यानी “क्यों?”, को संक्षेप में छूता है
bitter lesson को लेकर मेरी चिंता भी यही है। क्योंकि हम सुविधानुसार चुनते हैं कि किसे domain knowledge, यानी theory के रूप में “model” माना जाए
Rodney Brooks [2] आदि ने भी कहा है कि convolutional neural networks ने location invariance स्थापित करने के लिए convolutional layers का उपयोग किया, इसलिए वे image classification में dominate करने लगे। वह इंसानों द्वारा आविष्कृत machine vision model है
यह वैसा ही है जैसे game tree इंसानों द्वारा आविष्कृत game model है, और AI तथा machine learning में अब तक हमने जो अधिकांश काम किया है, वह भी ऐसा ही है। इंसान world, environment, domain और process के models बनाते हैं, computer उन models से computation करता है, और कभी-कभी chess और Go की तरह इंसानों से बेहतर नतीजे देता है, या कम से कम ऐसे results देता है जिन्हें हाथ से बनाए solutions से match नहीं किया जा सकता
सीखने वाला lesson अलग है। human model + machine computation ने पिछले 80 वर्षों में AI की सभी कठिन समस्याएं हल की हैं। और इससे जरा भी अलग कुछ करना हमें बिल्कुल नहीं आता
[1] https://en.wikipedia.org/wiki/Libratus
[2] https://rodneybrooks.com/a-better-lesson/
- केवल observations से world model बनाने वाला algorithm मैंने अभी तक नहीं देखा। hints जरूर देखे हैं, लेकिन human-like level का नहीं
  वह कभी न कभी आएगा। हम दिलचस्प दौर में जी रहे हैं

AI खोज: और भी कड़वा सबक

Leela और Stockfish ने जो “और भी कड़वा सबक” दिखाया

Stockfish की वापसी: छोटा model और मजबूत search

foundation model search की परिभाषा और मौजूदा सीमाएँ

scale शायद search की prerequisite न हो

search economics और AI research automation की संभावना

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय