LLM क्या कभी नहीं कर सकते

(strangeloopcanon.com)

36 पॉइंट द्वारा GN⁺ 2024-04-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

[ LLM की सीमाएँ ]

LLM के goal drift और कम reliability के बारे में, या LLM Conway's Game of Life क्यों नहीं कर पाते
पिछले कुछ वर्षों में LLM ने उन समस्याओं को शानदार ढंग से हल किया है जिन्हें कभी अंसुलझा माना जाता था, फिर भी वे अब भी ऐसे सवालों का जवाब क्यों नहीं दे पाते जो देखने में सरल लगते हैं, यह स्पष्ट नहीं है
पिछले कुछ हफ्तों से मैं LLM के failure modes को समझने की कोशिश कर रहा था। यह विषय थोड़ा अजीब है, लेकिन दिलचस्प भी है। AI की असफलताएँ उसकी सफलताओं से ज़्यादा सिखाती हैं
शुरुआत इस बुनियादी बिंदु से हुई कि आखिरकार LLM जिन कई कामों के लिए इस्तेमाल होंगे, उनमें हर कदम पर evaluation की ज़रूरत होगी, लेकिन ध्यान इस बात पर गया कि reasoning की सीमाएँ समझकर learning ability पर भरोसा करने का कोई तरीका कैसे निकाला जाए
LLM की reasoning ability का आकलन करना कठिन है
- reasoning ability को training data से अलग करना मुश्किल है
- मैं यह जाँचना चाहता था कि क्या iterative reasoning और सवालों के जवाब देने की क्षमता को परखने का कोई तरीका मिल सकता है
सबसे सरल ऐसे version से शुरुआत की जो संतोषजनक मानदंडों को पूरा करता हो
- क्या यह 3x3, 4x4, 5x5 आकार के word grid लगातार बना सकता है
- evaluation ऐसा होना चाहिए जिसे बनाना आसान हो, जाँचना आसान हो, लेकिन करना कठिन हो
सभी नवीनतम large language models (Opus, GPT-4 सहित) इस काम में असफल रहे
- ये models economics, quantum mechanics जैसे कठिन सवालों के जवाब दे सकते हैं, coding, drawing, music, video creation, पूरे applications बनाना, यहाँ तक कि उच्च स्तर का chess भी खेल सकते हैं
- लेकिन Sudoku नहीं कर सकते

Reversal Curse

LLM में Reversal Curse नाम की समस्या होती है, जिसमें अगर model ने "A, B है" जैसे रूप में सीखा हो, तो वह इसे उलटकर "B, A है" के रूप में generalize नहीं कर पाता
- उदाहरण के लिए, अगर model ने सीखा कि "Valentina Tereshkova अंतरिक्ष यात्रा करने वाली पहली महिला थीं", तो वह अपने-आप इस सवाल का जवाब नहीं दे पाता: "अंतरिक्ष यात्रा करने वाली पहली महिला कौन थीं?"
- इतना ही नहीं, सही उत्तर ("Valentina Tereshkova") की संभावना किसी random नाम से भी अधिक नहीं होती
model लोगों के बीच संबंधों को समझने में अच्छी तरह generalize नहीं कर पाता
सबसे उन्नत models भी अब तक इस समस्या से जूझ रहे हैं

क्या यह training data distribution की समस्या हो सकती है?

मुझे लगा कि कहीं यह training data distribution की अजीबता की वजह से तो नहीं है। ऐसा लगा कि शायद हमने पर्याप्त examples नहीं दिखाए, इसलिए मैंने कुछ deterministic आज़माया
transformer को Cellular Automata का prediction करने के लिए train करके परीक्षण किया
translation की समस्या नहीं दिखती, फिर भी यह असफल रहा!
कम से कम दो अलग समस्याएँ हैं
1. वे समस्याएँ जिन्हें LLM इसलिए नहीं कर सकता क्योंकि training data में जानकारी नहीं है और उसे यह काम करने के लिए train नहीं किया गया
2. वे समस्याएँ जिन्हें LLM अपने निर्माण के तरीके की वजह से नहीं कर सकता
जो कुछ हम लगभग हर जगह देख रहे हैं, वह समस्या 1 से ज़्यादा समस्या 2 की याद दिलाता है

LLM मूल रूप से यह क्यों नहीं कर सकता

मेरा मानना है कि model में goal drift की समस्या है, और क्योंकि उसे एक-एक token बनाना पड़ता है, वह prompt के अंदर के context से आगे generalize नहीं कर पाता और यह नहीं जानता कि ध्यान कहाँ देना चाहिए
- यही वजह है कि prompt injection काम करता है। क्योंकि यह attention mechanism को विकृत कर देता है (मसलन _### Instruction: ...` जैसी चीज़ कहकर model को jailbreak करना)
LLM में भी और इंसानों में भी, context एक सीमित resource है
संक्षेप में,
1. LLM computation की नकल करने वाले probabilistic models हैं, और कभी-कभी वे इसे हैरान करने वाली निकटता से नकल करते हैं
2. जैसे-जैसे बड़े models को train किया जाएगा, वे data में और अधिक implicit associations सीखेंगे, जो बेहतर reasoning में मदद करेंगे
- लेकिन सीखी गई associations हमेशा हमारे विचारों से साफ-साफ map नहीं होतीं
1. reasoning हमेशा single-pass होती है
- जब तक training data में उस process को विस्तार से न बताया गया हो, LLM रुककर world state इकट्ठा नहीं कर सकता, reasoning नहीं कर सकता, अपने पिछले उत्तर की फिर से समीक्षा नहीं कर सकता, या भविष्य के उत्तर का अनुमान नहीं लगा सकता
- पिछले prompts और responses शामिल कर देने पर भी अगली reasoning फिर भी शुरुआत से single-pass के रूप में ही शुरू होती है
1. इससे एक तरह की अनिवार्य 'goal drift' समस्या पैदा होती है, जिसमें reasoning की reliability गिर जाती है
- यही कारण है कि prompt injection काम करता है (क्योंकि यह attention mechanism को विकृत करता है)
- यह 'goal drift' बताता है कि agents या बार-बार क्रमिक रूप से किए जाने वाले काम कम reliable होते हैं
- क्योंकि attention selective या dynamic नहीं है, model 'भूल' जाता है कि उसे किस पर focus करना चाहिए
1. LLM context को dynamically reset नहीं कर सकता
- Turing machine memory के रूप में tape का उपयोग करती है, जबकि transformer intermediate computation को track करने के लिए internal state (जिसे self-attention से संभाला जाता है) का उपयोग करता है
- इसका मतलब है कि कई तरह की computations ऐसी हैं जिन्हें transformer अच्छी तरह नहीं कर पाता
1. इसे आंशिक रूप से chain of thought या अन्य LLM की मदद से output की समीक्षा और correction जैसी विधियों से सुलझाया जा सकता है
- मूल रूप से, reasoning को फिर से सही रास्ते पर लाने का तरीका ढूँढ़ना
- पर्याप्त चतुर prompts और step-by-step iteration के साथ, LLM training data में मौजूद लगभग हर चीज़ को निकाल सकता है
- जैसे-जैसे model बेहतर होंगे, हर reasoning भी बेहतर होगी, reliability बढ़ेगी और बेहतर agents संभव होंगे
1. काफी मेहनत से, हमारे पास जुड़े हुए GPT systems, कई internal iterations, लगातार error checking और correction, externalized memory आदि जैसे functional components होंगे
- लेकिन इससे भी, भले ही कई क्षेत्रों में AGI तक पहुँचने के लिए brute-force तरीके से आगे बढ़ा जाए, training data से आगे सचमुच generalize करना संभव नहीं होगा
- फिर भी, यह अब भी चमत्कारिक उपलब्धि ही है

[ प्रयोग - GPT Wordle क्यों नहीं सीख सकता ]

LLM Wordle नहीं खेल सकता
- Sudoku या word grid (crossword का सबसे सरल रूप) भी नहीं
यह चौंकाने वाली बात है, क्योंकि ये समस्याएँ कठिन नहीं हैं
- एक प्राथमिक स्कूल का बच्चा भी इन्हें आज़मा सकता है, लेकिन सर्वश्रेष्ठ LLM भी इन्हें करने में असफल रहते हैं
पहली परिकल्पना training data की कमी हो सकती है
- लेकिन यहाँ मामला ऐसा नहीं लगता
- क्योंकि इसके नियम स्पष्ट रूप से data में मौजूद हैं
- ऐसा नहीं है कि Wordle किसी तरह मौजूदा LLM training datasets से छूट गया हो
एक और परिकल्पना यह है कि यह tokenization की समस्या है
- लेकिन यह भी सही नहीं है
- कई मौके देने और पिछले उत्तर दिखाकर iteration की गुंजाइश देने पर भी, यह सही समाधान तक पहुँचने में संघर्ष करता है
- अक्षरों के बीच spaces देने पर भी किस्मत साथ नहीं देती
पिछले answers, context और सवाल फिर से दे देने पर भी, यह अक्सर [3,4] cell में कुछ edit करने के बजाय पूरे answer sequence को फिर से शुरू कर देता है
इसके बजाय, ऐसा लगता है कि अपनी प्रकृति से ही हर step को अलग-अलग स्तर की iterative computation चाहिए, जिसे कोई भी model कर पाने में सक्षम नहीं दिखता
- एक अर्थ में यह समझ में आता है, क्योंकि autoregressive models एक बार में केवल एक forward pass ही कर सकते हैं
  - वे मौजूदा token store और output को scratch pad की तरह इस्तेमाल करके सोचते हुए आगे बोल सकते हैं, लेकिन बहुत जल्दी track खो देते हैं
यहाँ निष्कर्ष यह है कि जब हर step को memory और computation दोनों चाहिए हों, तो वह transformer के मौजूदा layers और attention heads की सीमा के भीतर हल होने योग्य नहीं लगता
- यहाँ तक कि GPT-4 जैसे बहुत बड़े model में भी, जिसे खरबों tokens पर train किया गया है
विडंबना यह है कि model यह समझ ही नहीं पाता कि ध्यान कहाँ केंद्रित करना चाहिए
- क्योंकि आज attention जिस तरह काम करती है वह static है और sequence के सभी हिस्सों को एक साथ process करती है
- इसके बजाय कि कई heuristics का उपयोग करके अधिक selective बना जाए और context को dynamically reset करके alternatives आज़माए जाएँ
ऐसा इसलिए है क्योंकि वर्तमान में मापी जाने वाली attention वास्तव में हमारे सोचने के तरीके जैसी multi-threaded hierarchical analysis नहीं है
- या हो सकता है कि वह अप्रत्यक्ष रूप से ऐसी हो, लेकिन उससे बनने वाला probabilistic evaluation उस context को किसी individual problem में translate नहीं करता

[ प्रयोग - LLM को Cellular Automata सिखाना ]

यह सोचा गया था कि ट्रेनिंग के दौरान मनचाहा परिणाम मिलने तक अनंत डेटा जनरेट किया जा सकता है, इसलिए बुनियादी चीज़ें सिखाई जा सकती हैं
एक toy transformer बनाकर prediction कराने की कोशिश की गई
बाईं ओर CA है, दाईं ओर Transformer का output है, और पूछा गया कि क्या दोनों में फर्क किया जा सकता है
इसे परिणाम predict करना सिखाया नहीं जा सका और कारण भी समझ में नहीं आया
यह toy model था, लेकिन जिन कई equations को आज़माया गया उन्हें सीखने लायक यह काम कर रहा था और थोड़ी बहुत generalization भी कर रहा था
grid size घटाया गया, hyperparameter optimization किया गया, लेकिन फिर भी काम नहीं बना
लगा कि शायद physical layout की जानकारी और चाहिए, इसलिए CNN layer जोड़ी गई और positional embedding को इस तरह बदला गया कि वह X, Y axis को explicit रूप से संभाले। फिर भी काम नहीं हुआ
निराश होकर यह कोशिश की गई कि कम-से-कम एक बहुत simple equation ही सिखा दी जाए
शुरुआत में यह बिल्कुल काम नहीं कर रहा था, लेकिन start/end tokens जोड़ते ही अचानक चलने लगा। Transformer अजीब है
size पूरी तरह perfect नहीं था, लेकिन यह लगभग सीख ही रहा था। जबकि इसमें न के बराबर heads या layers थीं और max_iter 1000 था
विचार यह था कि इसे कई states सीखनी होंगी और history बनाए रखनी होगी, इसलिए किसी तरह वह क्षमता जोड़नी होगी। इसलिए decoder को बदलकर output के बाद दूसरा input जोड़ने की कोशिश की गई। यह essentially एक और RNN layer जोड़ने या पहले कौन-से step से गुज़रा गया उसकी memory देने जैसा था
लेकिन फिर भी काम नहीं हुआ। Cellular automata पर लौटकर बुनियादी चीज़ों से शुरू किया गया, तब भी यह नहीं चला। जबकि यह 1D था और नियम भी बेहद आसान थे। सिर्फ Turing-complete 110 ही नहीं, बल्कि 0 जैसे नियम भी
अगर किसी model ने कुछ problems की एक श्रृंखला में सही जवाब देना सीख लिया, तो क्या इसका मतलब है कि उसने मूल नियम सीख लिया? या उसने उस नियम का कोई analog सीखा, ताकि दिए गए distribution के भीतर परिणाम की नकल कर सके? यानी ऐसे state में जहाँ वह गलत तरीके से गलती करने की ओर झुका हो
यही समस्या सिर्फ toy model या GPT 3.5 में नहीं, बल्कि GPT-4, Claude, Gemini जैसे बड़े LLMs में भी दिखती है। कम-से-कम chat mode में तो
चाहे fine-tuning की जाए या विशेष training, LLM Conway's Game of Life नहीं कर पाते लगते हैं
अगर कोई इसे हल कर दे, तो वह बेहद दिलचस्प होगा। कम-से-कम अगर यह समझा सके कि ऐसी समस्या आती ही क्यों है

[ अब तक इस समस्या को कैसे सुलझाया गया है ]

इस system को design करते समय, हम अपनी intelligence को जितना ज़्यादा इसमें reflect करते हैं, अंतिम output उतना बेहतर तरीके से ज़रूरी transformation की नकल कर सकता है
हम individual puzzles को एक-एक करके सिखा सकते हैं और उम्मीद कर सकते हैं कि reasoning transfer हो जाएगी, लेकिन यह कैसे पता चले कि उसने सच में generalization सीखा है? हाल तक तो addition और multiplication तक इस model के लिए कठिन थे
Victor Taelin का दावा है कि "GPT कभी भी A::B समस्या हल नहीं कर सकता"। यह transformer-based models के training set के बाहर की नई समस्याएँ सच में सीख पाने या long-term reasoning करने में असमर्थ होने का एक उदाहरण था
- उनका कहना था, "मज़बूत GPT मूलतः ऐसा है जैसे weights के भीतर एक circuit designer evolve हो गया हो," और "लेकिन computation model के रूप में attention की rigidity की वजह से ऐसे evolved circuits पर्याप्त रूप से flexible नहीं हो सकते"
- "AGI उसके भीतर उगने की कोशिश कर रहा है, लेकिन imposed computation और communication constraints की वजह से शायद ऐसा नहीं कर पा रहा। याद रखिए कि मानव मस्तिष्क लगातार synaptic plasticity से गुज़रता है। ऐसे अधिक flexible architectures मौजूद हैं जो बहुत छोटे scale पर train होकर भी AGI तक पहुँचने की अधिक संभावना रखते हैं। लेकिन हम अभी उन्हें नहीं जानते।"
उन्होंने इस समस्या पर 10,000 डॉलर का bounty रखा, और यह एक ही दिन में हल हो गया।

[ LLM वास्तव में कितना सीख सकते हैं? ]

LLM की learning ability को लेकर सवाल

LLM अक्सर बच्चों के खेल जैसे simple repeated interaction या constraint selection वाले tasks में भी fail हो जाते हैं
लेकिन LLM कठिन math problems, competitive economics reasoning, Fermi estimation, यहाँ तक कि उन भाषाओं में लिखे physics problems भी हल कर सकते हैं जिन्हें उन्हें explicitly train नहीं किया गया
LLM के जवाब prompt करने के तरीके पर बहुत अधिक निर्भर करते हैं
LLM शानदार intuition दिखाते हैं, लेकिन उनकी intelligence सीमित है
reasoning steps बढ़ने पर LLM को लक्ष्य समझने और उस पर focus बनाए रखने में कठिनाई होती है

external memory जोड़ने पर neural networks का performance सुधार

RNN-type connections जोड़ने से थोड़ा फर्क पड़ता है, लेकिन समस्या पूरी तरह हल करने के लिए यह काफ़ी नहीं है
neural network में external memory जोड़ने पर वह विभिन्न irregular patterns सीख सकता है
केवल वही networks जो structured memory (stack या memory tape) जोड़ते हैं, context-free और context-sensitive tasks पर सफल generalization कर पाते हैं

chain-of-thought prompting और scratchpad की सीमाएँ

chain-of-thought prompting, scratchpad का उपयोग, बीच के विचारों को कागज़ पर लिखना—ये सभी goal drift कम करने की सोच-प्रक्रिया के उदाहरण हैं
लेकिन ये तरीके भी अब भी original sin से बाधित हैं
ऐसे outputs जो पिछले input पर निर्भर हों, खासकर जब हर step पर computation चाहिए, मौजूदा transformer-based models के लिए इतने जटिल और लंबे होते हैं कि उन्हें संभालना मुश्किल हो जाता है

autoregression का अभिशाप

model का scale बढ़ने पर long chain-of-thought में बेहतर performance दिखती है, लेकिन reasoning chain के किसी भी मनमाने बिंदु पर यह लगातार ऐसी errors दिखाता है जिनका दूसरी abilities से कोई संबंध नहीं लगता
एक ही task को कई steps में हल करते हुए भी, steps जितने लंबे होते जाते हैं, उतनी ही ज़्यादा गलतियाँ होती हैं
GPT-4 में GPT-3.5 की तुलना में hallucination और errors कम हैं
क्या Wordle गेम में fail होने वाले GPT-4 या Opus जैसे बड़े models बनाना ही सही जवाब है?

cognition की प्रकृति पर सवाल

अगर ऐसी problem types मौजूद हैं जिन्हें एक primary school student आसानी से हल कर सकता है, लेकिन खरबों tokens और अरबों डॉलर से बने sophisticated models नहीं, तो यह हमारी cognition की प्रकृति के बारे में क्या बताता है?
AGI में G, यानी generalization, सबसे कठिन हिस्सा है, और यह आसानी से distribution के पार generalize नहीं कर सकता
हमारे पास जो है, वह Babel की library के एक हिस्से के अधिक क़रीब है, और वह सिर्फ पहले से लिखी किताबें ही नहीं, बल्कि उन किताबों के बीच की जगहों में मौजूद जानकारी भी पढ़ सकता है

इंसानों और LLM के training data का अंतर

इंसान पूरी ज़िंदगी में 30,000 से 50,000 किताबें पढ़ सकते हैं, लेकिन अधिकांश लोग उनमें से 1% भी नहीं पढ़ पाते (अधिकतम 1GB data)
इसके विपरीत, LLM ने इंटरनेट पर मौजूद लगभग सब कुछ और उससे भी बहुत कुछ absorb किया है, और सभी domains व academic fields में सैकड़ों अरब शब्दों पर training ली है (GPT-3 को 45TB data पर train किया गया)
अगर कोई 20 लाख किताबें पढ़े तो वह कैसा होगा, या अगर एक simple pattern recognizer 20 लाख किताबें पढ़े तो वह क्या कर सकता है—इसका जवाब आसानी से नहीं मिलता
LLM training data के patterns और implicit rules सीखते हैं, लेकिन उन्हें explicit बनाना आसान नहीं है
अगर LLM के पास pattern matching से जुड़े equations जानने का कोई तरीका नहीं है, तो वह generalize करना नहीं सीख सकता, इसलिए Reversal Curse अब भी मौजूद है

[ LLM context reset नहीं कर सकते ]

यह कहना कि LLM कोई entity, neuron, या neocortex के किसी हिस्से जैसा है, कुछ मौकों पर उपयोगी रूपक हो सकता है, लेकिन यह LLM में दिखने वाले behavior को पूरी तरह capture नहीं करता
pattern सीख सकने वाले models की दिलचस्प बात यह है कि वे ऐसे patterns भी सीखते हैं जो dataset में explicitly शामिल न रहे हों
भाषा सीखने की प्रक्रिया में LLM data में निहित विभिन्न connections पकड़ लेते हैं, जिससे वे von Neumann और Charles Dickens को जोड़ सकते हैं और हमारे द्वारा लिखी गई लगने वाली काफ़ी यथार्थपरक नकलें output कर सकते हैं

dataset की जटिलता और model size की सीमाएँ

भले ही मान लें कि dataset मानवता की सारी जटिलता encode करता है, फिर भी छोटे dataset के भीतर मौजूद ऐसे patterns की संख्या model size को बहुत जल्दी overwhelm कर देगी
यह लगभग एक गणितीय अनिवार्यता है
cellular automata समस्या में यह स्पष्ट नहीं है कि LLM ने सच में तरीका सीखा है या नहीं, और उस पर कितना भरोसा किया जा सकता है
LLM की गलतियाँ, उनकी सफलताओं की तुलना में, इस बात का बेहतर संकेतक हैं कि वे क्या नहीं जानते

सीखना कैसे सीखा जाए, इसे सीखने वाले LLM की सीमाएँ

बड़े neural networks सिर्फ data से नहीं सीखेंगे, बल्कि सीखना कैसे है यह भी सीखेंगे
यही वजह है कि LLM को कुछ examples देने पर वे training set में न देखी गई problems भी कर लेते हैं
लेकिन LLM जो तरीका इस्तेमाल करते हैं, वह पर्याप्त रूप से generalize नहीं करता लगता, खासकर इस मामले में कि ध्यान कहाँ देना है यह सीखना
सीखना कैसे सीखा जाए, यह हमारे लिए भी कोई एकल global algorithm नहीं है
कुछ चीज़ों पर यह बेहतर काम करता है और कुछ पर कम
अलग-अलग प्रकार की समस्याओं पर यह अलग ढंग से काम करता है
यह सब एक ही संख्या के parameters के भीतर लिखा जाना होता है, इसलिए इन weights के ज़रिए होने वाली computation को न सिर्फ Muppets के बारे में जवाब दे पाना चाहिए, बल्कि अगली सबसे बड़ी physics discovery के बारे में भी बताना चाहिए जो मौजूदा theory को तोड़ दे

परस्पर क्रिया करने वाले प्रतीक अनुक्रमों की जटिलता

यदि किसी प्रतीक अनुक्रम में किसी एक प्रतीक की मौजूदगी या स्थिति अगले प्रतीक की सूचना-सामग्री को प्रभावित करने के तरीके से परस्पर क्रिया करती है, तो डेटा सेट की कुल Shannon entropy केवल अलग-अलग प्रतीकों को देखकर अनुमानित की गई मात्रा से अधिक हो सकती है
इससे Conway's Game of Life जैसी state-dependent चीजें वास्तव में कठिन हो जाती हैं
यही कारण भी लगता है कि Life Game डेटा सेट पर fine-tune किए जाने के बावजूद GPT वास्तव में पैटर्न सीख नहीं पाता
इसके बजाय GPT सवालों के जवाब देने लायक भर सीखता है (एक तरह का Goodhart's law)

साधारण टेस्ट से LLM को परिभाषित करने की कठिनाई

LLM पर चलाए जा सकने वाले किसी साधारण टेस्ट से इनमें से किसी एक को परिभाषित करने वाला higher-order सवाल पूछना मूर्खतापूर्ण है
क्योंकि इनमें से किसी एक को परिभाषित करना शायद आधी सदी से अधिक के वैज्ञानिक शोध के एक खाके को प्रभावी रूप से परिभाषित करने जैसा है

[ और अधिक agents की आवश्यकता ]

मौजूदा सिद्धांत के अनुरूप, LLM मॉडल में अधिक recursion जोड़ने से स्वाभाविक रूप से वे बेहतर होंगे
लेकिन वे अधिक जटिल planning समस्याओं को step-by-step केवल उतनी ही हद तक हल कर पाएंगे, जितना वे मूल लक्ष्य और अब तक के रास्ते को ध्यान में रख सकें
LLM अविश्वसनीय क्यों हैं, यह अब भी स्पष्ट नहीं है
GPT-4, GPT-3.5 की तुलना में अधिक विश्वसनीय है, लेकिन यह स्पष्ट नहीं है कि ऐसा सिर्फ इसलिए है कि वह training में अधिक कुशल हो गया है, या scale बढ़ने से reliability बढ़ती है और hallucination घटती है

एजेंट: एक शक्तिशाली उपयोग मामला

एजेंट, यानी ऐसी autonomous entities जो हमारी ओर से पूरा काम कर सकें, LLM का dream use case हैं
वास्तव में कई कामों में अधिक agents की ज़रूरत है
अगर वे कुछ कामों में थोड़ा बेहतर काम करते हैं, तो क्या पर्याप्त संख्या में agents होने पर वे हर काम में बेहतर काम करेंगे? संभावना है, लेकिन फिलहाल ऐसा लगता नहीं
Cognition Labs के Devin जैसे विकल्पों में हमने इसकी एक झलक देखी है कि यह कितना शक्तिशाली हो सकता है (वास्तविक उपयोग मामला दिखाते हुए)

आने वाले कुछ वर्षों में बड़ी संख्या में नौकरियों तक विस्तार की संभावना

क्या यह व्यवहार आने वाले कुछ वर्षों में बड़ी संख्या में नौकरियों तक फैल सकता है? ऐसा लगता है कि हाँ
हर नौकरी के लिए अलग-अलग तरीके से पहुँचना होगा, और यह specialized models का मामला होगा जो आसानी से scale नहीं होते (सब पर राज करने वाला एक मॉडल नहीं)
open source versions पहले से ही कुछ मुख्य तत्व दिखा रहे हैं
- जानकारी base model तक किस क्रम और कितनी मात्रा में पहुँचती है, इसका सावधानी से परीक्षण करना, और जैसा पहले देखा गया है उनकी सीमाओं को ध्यान में रखते हुए ऐसा वातावरण बनाना जिसमें वे फल-फूल सकें

GPT की सीमाएँ और समाधान

यह महत्वपूर्ण नहीं है कि GPT, Life Game जैसी समस्याओं को अपने दम पर या steps के बारे में सोचते हुए भी हल नहीं कर सकता
महत्वपूर्ण यह है कि GPT उसे हल करने के लिए एक program लिख सकता है
यानी, अगर GPT को हर program में ऐसे हालात पहचानने के लिए train किया जा सके जहाँ program लिखना उचित हो, तो हम AGI के करीब पहुँच सकते हैं (यह मेरा दृष्टिकोण है)

मॉडल क्षमता की सीमाएँ और vision-language modalities के बीच प्रतिस्पर्धी संबंध

कम से कम छोटे models में, क्या सीखा जाता है इसे लेकर weights के बीच प्रतिस्पर्धा मौजूद होती है
DeepSeek paper में देखी गई सबसे अच्छी टिप्पणी:
- DeepSeek-VL-7B गणित (GSM8K) में कुछ गिरावट दिखाता है
- यह संकेत देता है कि vision और language modalities के बीच सामंजस्य बढ़ाने के प्रयासों के बावजूद, दोनों के बीच अब भी प्रतिस्पर्धी संबंध मौजूद है
- इसका कारण सीमित model capacity (7B) हो सकता है, और बड़े models इस समस्या को काफी हद तक कम कर सकते हैं

[ निष्कर्ष ]

ऊपर के उदाहरणों से सीखी गई बातें
- LLM (Large Language Model) फिलहाल कुछ खास तरह की समस्याएँ हल नहीं कर सकते
  - खासकर वे समस्याएँ जिनमें पिछले state पर निर्भर रहना पड़ता है या future state का अनुमान लगाना होता है, यानी जहाँ लंबे reasoning steps की ज़रूरत होती है
  - जैसे Wordle खेलना या CA (Cellular Automata) का अनुमान लगाना
- बड़े LLM का उपयोग करने पर, समस्या के step-by-step संकेत और कई follow करने योग्य उदाहरण देकर कुछ हद तक reasoning सिखाई जा सकती है
  - लेकिन यह असल में समस्या को abstract करके उत्तर सोचने का तरीका prompt में डालना है
- इसमें निम्न तरीकों से सुधार हो सकता है
  1. बेहतर prompting
  2. बीच के चरणों में memory, computation और tools तक बेहतर पहुँच
  - लेकिन यह मनुष्यों के संदर्भ में उपयोग होने वाले generalizable consciousness के स्तर तक नहीं पहुँचेगा
  - LLM में डाली गई सारी जानकारी शायद सही prompt मिलने पर बाहर निकाली जा सकती है
- इसलिए मॉडल का सही उपयोग करने का बहुत बड़ा हिस्सा यह है कि काम के अनुसार सही prompt बनाया जाए
  - इसके लिए external guardrails के साथ, मॉडल को सही तरह respond कराने के लिए computational problems के सही और गलत उत्तरों की लंबी sequence सावधानी से तैयार करनी पड़ सकती है
- 'Attention' पर goal drift का असर आसानी से पड़ता है, इसलिए पर्याप्त external scaffolding के बिना इसे भरोसेमंद बनाना बहुत कठिन है
  - LLM की गलतियाँ उसकी सफलताओं की तुलना में कहीं ज़्यादा उपयोगी जानकारी देती हैं
AGI (Artificial General Intelligence) तक पहुँचने और पर्याप्त generalization हासिल करने के लिए बुनियादी architectural सुधार ज़रूरी हैं
- मौजूदा मॉडल का scale बढ़ाना और Jamba जैसी नई architecture जोड़ना उन्हें अधिक efficient, तेज़ और स्थिर बना सकता है, लेकिन generalization की कमी या goal drift जैसी मूल समस्याएँ हल नहीं करेगा
सिर्फ specialized agents जोड़कर "prompt engineering" कराना और 17 GPTs को आपस में बात करने देना पर्याप्त नहीं है
- हालाँकि, पर्याप्त अस्थायी उपायों के साथ, जिन domains की हमें परवाह है उनमें शायद परिणामों में अंतर पहचानना मुश्किल हो जाए
AI के शुरुआती दौर में जब chess engines पहली बार आए थे, तब उनके पास सीमित processing power और लगभग बेकार search या evaluation capabilities थीं
- इसलिए उन्हें hardcoded openings या endgames, बेहतर search के लिए Iterative Deepening, Alpha-Beta Pruning जैसी अस्थायी तकनीकों पर निर्भर रहना पड़ा
- अंततः इन्हें gradual improvement से पार किया गया, और LLM में भी कुछ वैसा ही हो रहा है
लेखक की पसंदीदा सोच यह है कि कई planning agents हों, अलग-अलग स्तरों वाली hierarchy में, जो reliability कुछ बेहतर होने पर आपस में जुड़े अपने sub-agents वाले अन्य specialized agents को निर्देश दे सकें
हम reasoning और iteration के लिए modules जोड़ सकते हैं, permanent और random-access memory जोड़ सकते हैं, और यहाँ तक कि physical world की समझ भी दे सकते हैं
- इस बिंदु पर लगता है कि शायद हम LLM में वैसी चेतना का approximation पा सकें जैसा जानवरों में मिलता है, लेकिन क्या सच में?
- यह भी हो सकता है कि अंत में यह distribution से बाहर जाकर हमारी ज़रूरत की नकल करने वाला एक बेहद convincing statistical model ही निकले
यही वजह है कि लेखक LLM को fuzzy processor कहते हैं, और "LLM होना कैसा है" जैसे सवालों का अंत अक्सर circular discussion पर होता है
इसे इस रूप में नहीं लेना चाहिए कि आज हमारे पास जो है वह चमत्कारी नहीं है
- सिर्फ इसलिए कि Bitter Lesson शायद AGI तक पूरी तरह extrapolate न हो, इसका मतलब यह नहीं कि जो उपलब्धियाँ हमारे पास पहले से हैं वे महान नहीं हैं
लेखक को भरोसा है कि LLM अपने देखे हुए डेटा से "सीखते" हैं
- वे न तो सिर्फ साधारण compressor हैं, न ही तोते
- वे training dataset या prompt के अलग-अलग हिस्सों से nuanced data को जोड़कर intelligent responses दे सकते हैं
Thomas Nagel शायद यह सवाल पूछते कि LLM होना आखिर कैसा होता है
- mammals होने के नाते चमगादड़ LLM की तुलना में हमसे ज़्यादा करीब हैं, और अगर उनका अंदरूनी अनुभव भी हमें धुंधला लगता है, तो नए models की आंतरिक कार्यप्रणाली को समझ पाने की हमारी संभावना कितनी है?
- या उल्टा, क्योंकि LLM में हम सभी weights और circuits को स्वतंत्र रूप से inspect कर सकते हैं, क्या इन models के बारे में हमारे पास किसी स्तर की अंतर्दृष्टि हो सकती है?
यही कारण है कि लेखक औपचारिक रूप से यह बात मानने को तैयार हैं
- काफी scale की गई statistics, training data की distribution के भीतर, intelligence से अलग नहीं की जा सकती
- यह हर चीज़ नहीं है, और न ही सब कुछ कर सकने लायक पर्याप्त है, लेकिन यह मृगतृष्णा भी नहीं है
- इसी वजह से success की तुलना में tests में हुई गलतियाँ diagnosis के लिए कहीं अधिक उपयोगी हैं
अगर LLM ऐसी मशीन है जो कुछ भी कर सकती है, तो आखिरकार उसे ज़्यादातर काम कर पाने चाहिए
- बहुत सारे stimuli और probing के ज़रिए यह संभव हो सकता है
- यह शायद Bach या von Neumann जैसी प्रतिभा को प्रेरित न करे, लेकिन उससे अधिक साधारण, फिर भी कम महत्वपूर्ण नहीं, innovation और discovery संभव हैं
- और यह consciousness या moral personhood के बिना भी किया जा सकता है
- अगर Kuhn के कहे paradigm के भीतर होने वाली छलांगों को automate या तेज़ किया जा सके, तो paradigms के बीच भी अधिक स्वतंत्रता से छलांग लगाई जा सकती है

1 टिप्पणियां

GN⁺ 2024-04-28

Hacker News राय

सारांश:

मौजूदा LLM (Large Language Model) में Wordle या Rule 110 जैसी cellular automata की भविष्यवाणी जैसे ऐसे प्रश्न मौजूद हैं जो इंसानों के लिए आसान हैं, लेकिन LLM के लिए कठिन हैं (या संभव है कि असंभव हों)। इसका कारण अभी पूरी तरह स्पष्ट नहीं है।
प्रॉम्प्ट में उदाहरण और step-by-step निर्देश देना, LLM का खुद "reasoning steps" समझ लेना नहीं है; बल्कि उपयोगकर्ता वही चीज़ LLM को दे रहा होता है। हमारे पास ऐसी "reasoning machine" है जो बुद्धिमान दिखती है, लेकिन किसी बुनियादी सीमा से टकराती हुई लगती है।
यह स्पष्ट नहीं है कि क्या मौजूदा Attention mechanism का उपयोग करने वाले बड़े models और बेहतर prompting से AGI हासिल किया जा सकता है। Attention बहुत rigid लगता है, जबकि मानव मस्तिष्क लगातार synaptic plasticity से गुजरता है। संभव है कि AGI के लिए कोई अधिक flexible architecture हो, लेकिन हम अभी उसे नहीं जानते।
फिलहाल computational problems के लिए सही और गलत उत्तरों को सावधानी से तैयार करना, model को ठीक तरह से respond करने के लिए prime करना, और बहुत सारे बाहरी guardrails लगाना जैसे तरीकों के साथ, मौजूदा AI models का उपयोग करने के लिए लंबे prompts को बहुत सोच-समझकर बनाना पड़ता है।
Attention मानो "goal drift" से पीड़ित है, इसलिए सभी बाहरी सहारों के बिना reliability सुनिश्चित करना कठिन है।
LLM की सीमाओं को सैद्धांतिक रूप से quantify करने के लिए, हमें केवल उन चीज़ों की empirical सूची पर निर्भर नहीं रहना चाहिए जो वे अभी नहीं कर सकते, बल्कि theoretical results पर भरोसा करना होगा। संबंधित साहित्य में "expressibility" शब्द खोजा जा सकता है।
अंकों के notation rules जैसे सरल नियमों में भी यह कई उदाहरणों पर विफल हो जाता है, और अक्सर prompt को किसी भी तरह बनाया जाए, यह सही काम नहीं करता। यह चौंकाने वाला है, लेकिन सीमाएँ अभी भी बहुत हैं।
यह उन निर्देशों का पालन करने में भी कमजोर है जिनमें किसी खास व्यवहार से मना किया गया हो, जैसे "किसी रोचक तथ्य का उल्लेख करो लेकिन उसे रोचक मत कहो"। उल्टा, मना करने पर उसके वही करने की संभावना बढ़ जाती है।
भले ही मान लें कि LLM "reasoning" करते हैं, तब भी Agentic AI का निर्माण दुनिया के बारे में नहीं, बल्कि दस्तावेज़ों में मौजूद facts, entities और causal relationships के संदर्भ में hallucination से निपटने के लिए किया जाता है। साथ ही, बहुत बड़ी token दूरी पर cross-reasoning से भी निपटना पड़ता है।
ऐसा लगता है कि लोगों के बीच संबंधों, दुश्मनी, गठबंधन आदि जैसी द्वितीयक जटिलताओं को अच्छी तरह संभालने की आवश्यकता ने उच्च स्तर की बुद्धिमत्ता को जन्म दिया।
Wordle/Sudoku जैसी कुछ चीज़ें जिनके बारे में कहा जाता है कि वे "कभी नहीं कर सकते", वे सिर्फ text representation के artifacts हो सकती हैं; अगर उन्हें किसी दूसरे domain में बदला जाए, तो उसी Transformer architecture के साथ भी सफलता दर कहीं अधिक हो सकती है।
हर domain के लिए customized AGI बनाने की ज़रूरत नहीं है; सिर्फ ऐसे agents और model/tool catalog की आवश्यकता है जो समस्याओं को तोड़कर specialist tools को सौंप सकें, फिर उन्हें जोड़कर उत्तर बना सकें।

LLM क्या कभी नहीं कर सकते

[ LLM की सीमाएँ ]

Reversal Curse

क्या यह training data distribution की समस्या हो सकती है?

LLM मूल रूप से यह क्यों नहीं कर सकता

[ प्रयोग - GPT Wordle क्यों नहीं सीख सकता ]

[ प्रयोग - LLM को Cellular Automata सिखाना ]

[ अब तक इस समस्या को कैसे सुलझाया गया है ]

[ LLM वास्तव में कितना सीख सकते हैं? ]

LLM की learning ability को लेकर सवाल

external memory जोड़ने पर neural networks का performance सुधार

chain-of-thought prompting और scratchpad की सीमाएँ

autoregression का अभिशाप

cognition की प्रकृति पर सवाल

इंसानों और LLM के training data का अंतर

[ LLM context reset नहीं कर सकते ]

dataset की जटिलता और model size की सीमाएँ

सीखना कैसे सीखा जाए, इसे सीखने वाले LLM की सीमाएँ

परस्पर क्रिया करने वाले प्रतीक अनुक्रमों की जटिलता

साधारण टेस्ट से LLM को परिभाषित करने की कठिनाई

[ और अधिक agents की आवश्यकता ]

एजेंट: एक शक्तिशाली उपयोग मामला

आने वाले कुछ वर्षों में बड़ी संख्या में नौकरियों तक विस्तार की संभावना

GPT की सीमाएँ और समाधान

मॉडल क्षमता की सीमाएँ और vision-language modalities के बीच प्रतिस्पर्धी संबंध

[ निष्कर्ष ]

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय