बड़े भाषा मॉडलों में reasoning: एक ज्यामितीय दृष्टिकोण

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2024-07-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLM की reasoning performance को सिर्फ model size का मुद्दा मानने के बजाय Transformer layers की geometry के रूप में देखा गया है, और यह समझाया गया है कि self-attention graph की density कैसे MLP input की intrinsic dimension को बदलती है
MLP input space को कई piecewise affine regions में बाँटता है, और input की intrinsic dimension बढ़ने पर वह अधिक regions बनाकर nonlinear functions को अधिक बारीकी से approximate कर सकता है
जब tokens को nodes मानकर attention graph देखा जाता है, तो head की संख्या या context length बढ़ने पर graph density बढ़ती है, और इसके परिणामस्वरूप MLP जिस representation space को संभालता है वह भी बड़ा हो सकता है
GSM8K-Zero और Llama 3 8B/70B Instruct पर किए गए प्रयोगों में 1~10 few-shot examples जोड़ने पर last layer की intrinsic dimension में वृद्धि का सही उत्तर दर बढ़ने से मजबूत संबंध दिखा
first layer की intrinsic dimension में वृद्धि random tokens जोड़ने पर भी दिख सकती है, इसलिए उसकी व्याख्यात्मक शक्ति कम है; वास्तविक reasoning improvement तब अधिक स्पष्ट दिखता है जब प्रासंगिक context final layer representation को समृद्ध बनाता है

reasoning क्षमता को geometry से क्यों देखें

वास्तविक LLM उपयोग में reasoning क्षमता में सुधार एक मुख्य चुनौती है, और GPT-4 तथा Llama 3 जैसे मॉडल कई कार्यों में मजबूत performance दिखाते हैं
मौजूदा सुधार दिशाएँ मोटे तौर पर दो हिस्सों में बँटती हैं
- model size बढ़ाना: बड़े मॉडलों में बेहतर reasoning क्षमता दिखने के उदाहरण हैं
- context length बढ़ाना: chain of thought, retrieval augmented generation, example-based prompting जैसे तरीकों में input tokens बढ़ाए जाते हैं
लंबे inputs और बड़े models, वास्तविक उपयोग में computational cost और inference latency बढ़ा सकते हैं
यह शोध Transformer layer की geometry के माध्यम से LLM की expressivity और reasoning क्षमता के बीच संबंध को देखता है
मुख्य प्रश्न यह है कि input sequence length और attention head की संख्या, LLM की geometry, खासकर self-attention block की intrinsic dimension, को कैसे प्रभावित करती है

MLP का space partitioning और expressivity

ReLU, leaky-ReLU, absolute value, max-pooling जैसी nonlinearities का उपयोग करने वाले MLP को input space को कई क्षेत्रों में बाँटने वाले continuous piecewise affine function के रूप में देखा जा सकता है
हर region से उस interval में input को process करने वाला affine map जुड़ा होता है
- यदि target function किसी interval में linear है, तो एक region पर्याप्त है
- यदि target function nonlinear है, तो curvature को approximate करने के लिए कई regions चाहिए
sine function को approximate करने वाले toy experiment में hidden neurons की संख्या 50 से 500 तक बढ़ने पर अधिक regions बनते हैं और approximation अधिक सूक्ष्म हो जाती है
regions input space में कहाँ रखे जाएँगे, यह data पर निर्भर करता है, और training data का आकार, uniformity तथा structural changes partition density को प्रभावित कर सकते हैं
समान neuron count पर भी input की intrinsic dimension बढ़ने से MLP द्वारा बनाए जा सकने वाले regions की संख्या exponentionally बढ़ती है

Transformer में intrinsic dimension कैसे बनती है

causal LLM की Transformer layer self-attention, multi-head attention, MLP, residual connection और layer normalization से बनी होती है
attention map को ऐसे graph की तरह समझा जा सकता है जिसमें tokens nodes होते हैं और attention values edge weights होती हैं
self-attention graph की density tokens के बीच connectivity के स्तर को दर्शाती है, और यही density MLP input की intrinsic dimension से जुड़ती है
Theorem 2.1 के अनुसार multi-head attention output की हर row single-head convex hulls के Minkowski sum के भीतर होती है, और effective dimension हर head में उन tokens की संख्या के योग से सीमित होती है जिनके attention values 0 से बड़े हैं
शोध में उपयोग की गई soft intrinsic dimension को उन tokens की संख्या के रूप में परिभाषित किया गया है जिनकी attention value threshold ε से बड़ी है
- experiments में ε को attention values के statistics और distribution के आधार पर तय किया गया
- सभी experiments में threshold 0.1 रखा गया

Attention heads और context length expressivity को कैसे बढ़ाते हैं

MLP input की intrinsic dimension attention map से तय होती है, इसलिए attention graph जितना अधिक dense होगा, MLP उतने अधिक regions बना सकेगा
intrinsic dimension बढ़ाने के दो तरीके बताए गए हैं
- attention heads की संख्या बढ़ाना: कई heads का प्रभाव जुड़कर effective dimension बढ़ा सकता है
- prompt modification या context expansion: input बदलकर attention graph की density बढ़ाई जा सकती है
one-layer LLM toy experiment में embedding → attention block → 1-hidden-layer MLP संरचना से sine function को approximate किया गया
context length 10/100 और head count 1/10 की तुलना में, context length और head count बढ़ने पर MLP द्वारा input space में बनाए गए regions की संख्या बढ़ी
head count बदलने के लिए pre-training या fine-tuning की आवश्यकता हो सकती है, लेकिन context length को model weights बदले बिना समायोजित किया जा सकता है

GSM8K-Zero और Llama 3 experiments

experiments में GSM8K-Zero dataset का उपयोग reasoning questions पर LLM response performance का मूल्यांकन करने के लिए किया गया
शर्तें 0-shot baseline और 1~10-shot prompt variations से बनी थीं
- few-shot examples, GSM8K-Zero training set से random चुने गए question-answer pairs थे
- comparison experiments में random tokens या shuffled few-shot example text को आगे जोड़ा गया
लक्षित models Llama3 8B Instruct और Llama3 70B Instruct थे
base prompt, GSM8K-Zero में गलत उत्तर देने वाले लगभग 300 samples से बना था
responses की correctness का मूल्यांकन Mixtral 8×22B Instruct model को prompt करके किया गया

last layer की ID performance से अधिक मज़बूती से जुड़ती है

few-shot examples आगे जोड़ने पर, यदि last layer में intrinsic dimension बढ़ती है, तो सही उत्तर मिलने की संभावना बढ़ती है
Llama3 8B और 70B Instruct दोनों में final layer ID change जितना बड़ा था, correct response ratio उतना अधिक दिखा
first layer में किसी भी प्रकार के tokens जोड़ने पर intrinsic dimension बढ़ सकती है
- first layer attention graph पूरे token set पर uniform distribution जैसा व्यवहार करता है
- random token experiment दिखाता है कि first layer ID में वृद्धि का reasoning performance से अनिवार्य संबंध नहीं है
random token condition में ID increase सीमित था या negative था, और correct response ratio लगभग 40% पर saturate हुआ
कई layers की तुलना करने वाले Figure 8 में, model size से स्वतंत्र रूप से, last layer की ID response correctness को अलग करने के लिए अधिक उपयोगी signal दिखी
LLM में self-attention head से निकले प्रत्येक token को MLP स्वतंत्र रूप से transform करता है, और अधिक सूक्ष्म partition वाला MLP हर token पर अधिक adaptive affine map लागू कर सकता है
prediction embedded tokens के linear combination से बनती है, इसलिए token-wise approximation error accumulate हो सकती है, और token के आसपास अधिक सूक्ष्म partition final prediction की approximation error को घटा सकती है
intrinsic dimension और affine map partition का LLM की generalization क्षमता से क्या संबंध है, यह इस शोध और अधिकांश संबंधित शोधों में अभी पर्याप्त रूप से नहीं जाँचा गया है

1 टिप्पणियां

GN⁺ 2024-07-09

Hacker News की राय

AI की वैल्यू bathtub curve जैसी लगती है। निचले स्तर पर यह 1–3 लाइन के code को जैसे-तैसे अच्छी तरह लिख देने वाला बेहद शक्तिशाली autocomplete है, और ऊपरी स्तर पर सामने के काम से जुड़े high-level concepts समझाने में अच्छा है
बीच वाले क्षेत्र में यह ठीक से काम नहीं करता। अगर इससे multi-step plan बनवाओ, तो उसके अलग-अलग हिस्से अपने-आप में ठीक लगते हैं, लेकिन वे आपस में फिट नहीं बैठते। AI में यह एहसास नहीं होता कि “ये चार हिस्से कसकर जुड़े हों और मिलकर एक पूरा बनाएँ”; A से B तक जाने के चार steps बनाते समय यह अलग-अलग रास्तों को मोटे तौर पर जोड़ देने जैसा लगता है
- यह bathtub curve नहीं है। low-level काम और “high-level” काम आखिरकार एक ही probabilistic text generation हैं
  यह code के बारे में reasoning नहीं कर रहा, न ही अपनी दी हुई explanation के बारे में reasoning कर रहा है। AI सोच नहीं सकता, दिए गए problem का internal model नहीं बनाता, बस अंदाज़ा लगाता है। इन “बीच वाले” tasks के fail होने की वजह यह है कि सही जवाब देने के लिए abstract reasoning चाहिए
- अगर training data के बारे में सोचें, तो multi-step planning के examples इतने ज़्यादा नहीं हैं। अगर यह concepts, यानी high-dimensional vectors, के आपस में फिट होने का तरीका सीखने वाली संरचना है, तो जहाँ ज़रूरी reasoning examples पर्याप्त न हों वहाँ यह अच्छा नहीं कर पाएगा
  आखिरकार synthetic data, goal की अच्छी descriptions, और उस goal को implement करने वाला code जैसी सामग्री इकट्ठी होगी, तो यह बेहतर होगा
- low-level और high-level का axis, AI को evaluate करने के लिए शायद अच्छा measure नहीं है। इस measure पर kernel trick लगाकर level की ऊँच-नीच और multi-step planning problem को अलग करना चाहिए
  दूसरे शब्दों में, इन तीन समस्याओं को अलग करने के लिए कोई और dimension इस्तेमाल करना चाहिए
पता नहीं आपको “Mad Libs” game याद है या नहीं। उसमें “verb”, “noun”, “adjective” जैसी खाली जगहें भरनी होती थीं, और फिर अगले पेज पर उन्हीं शब्दों से एक मज़ेदार कहानी बनती थी। शुरुआत में शब्द भरते समय context नहीं होता, इसलिए grammar तो सही रहती है लेकिन context के हिसाब से बात बेतुकी लगती है, और वही इसे मज़ेदार बनाता है
LLM, context predictor लगे हुए Mad Libs जैसा है। यह grammatically सही output बनाता है, और statistical correlations आम तौर पर अर्थपूर्ण नतीजे दे देती हैं, इसलिए context predictor बकवास को कम कर देता है। लेकिन इसमें “reasoning” नहीं है; सिर्फ grammatical frame filling और statistical autocomplete है
- सही है, लेकिन यह लगभग कल्पना से परे जटिल autocomplete model है। और human reasoning का बड़ा हिस्सा text में statistical रूप से predictable होता है, इसलिए सिर्फ एक अच्छा autocomplete model होने से भी वास्तव में reasoning-जैसा behavior मिल सकता है
  यह हर मामले में काम नहीं करता, इसलिए यह कम करके नहीं आँकना चाहिए कि यह कितनी हैरान करने वाली हद तक अच्छा काम करता है, और यह कि इसका काम करना ही कितना अप्रत्याशित है। मूल लेख का सार भी यही है कि पर्याप्त रूप से विशाल autocomplete model में reasoning-जैसी घटनाएँ कैसे उभरती हैं, इसकी पड़ताल की जाए
- “यह सिर्फ grammatical frame filling और statistical autocomplete है” कहना stochastic parrots hypothesis है, और हर बार जब कोई LLM paper HN पर आता है तो यह ज़रूर दोहराया जाता है
  यह hypothesis सिर्फ दार्शनिक दावा नहीं है; यह falsifiable predictions बनाती है, और experiments ने इसे काफ़ी हद तक खारिज कर दिया है। LLMs में world model होता है। इस विषय पर एक मशहूर paper OthelloGPT है, और हाल का एक paper है Transformers Represent Belief State Geometry in their Residual Stream
- समझ नहीं आता लोग क्यों बार-बार इतने यक़ीन से कहते हैं कि “reasoning” किसी रूप में grammatical frame filling और statistical autocomplete नहीं है
- मेरी नज़र में reasoning, पर्याप्त रूप से विकसित grammatical frame filling और statistical autocomplete ही है
  यह भी याद रखने लायक है कि grammatical transformations Turing-complete होते हैं: https://wiki.c2.com/?RewriteRules
- इसी idea से, बल्कि ad-libs से, मैंने LLM fill-in-the-blank के लिए एक TypeScript library का नाम रखा: https://github.com/gsuuon/ad-llama/
ऐसा लगता है कि चर्चा के दो पहलू हैं। एक दृष्टिकोण यह है कि मॉडल ने विशाल मात्रा में टेक्स्ट को आत्मसात करते हुए किसी तरह reasoning ability विकसित कर ली, यानी भाषा के बाद reasoning उभरी।
इसके उलट, reasoning तो इंसानों ने पहले ही कर रखी थी और उसे लिखकर छोड़ दिया था, इसलिए अगर आप “Juliet के बाद Romeo को कोई और प्रेम तलाशना चाहिए था क्या” जैसा सवाल पूछते हैं, तो मॉडल अरबों अंग्रेज़ी साहित्यिक निबंधों में परिलक्षित reasoning के सेट को ही वापस दिखाता है। क्या मैं कुछ मिस कर रहा हूँ?
- वे दोनों एक ही सिक्के के दो पहलू लगते हैं। LLM को मूल रूप से text completion करने के लिए train किया जाता है, और training वह प्रक्रिया है जिसमें दिए गए model structure और parameters की संख्या के भीतर इसे सबसे प्रभावी ढंग से करने का तरीका खोजा जाता है।
  अगर हम “LLM विशाल मात्रा में टेक्स्ट को आत्मसात करता है” से शुरू करें, तो एक साधारण मॉडल memorization के जरिए टेक्स्ट को पूरा कर सकता है। लेकिन 234 * 452 = को सही तरह से पूरा करने के लिए सभी संभावित गुणाओं को याद रखने की बजाय वास्तव में गणना करना कहीं ज्यादा सरल है। इसी तरह, अगर मॉडल दुनिया को समझ सके और reasoning कर सके, तो वह मनुष्यों द्वारा लिखे गए वाक्यों को बेहतर ढंग से पूरा कर सकता है। इसलिए यह अपेक्षा की जा सकती है कि जो मॉडल पर्याप्त रूप से अच्छी तरह train हुआ हो, और जिसके पास यह करने लायक बहुत से parameters हों लेकिन इतने भी न हों कि वह केवल overfitting ही करे, वह किसी हद तक reasoning ability विकसित करेगा।
  अगर हम “training set में reasoning बहुत है” से शुरू करें, तो memorization के चरण पर भी reasoning जैसा दिखने वाला परिणाम मिल सकता है। लेकिन यह तर्क कि मॉडल वास्तविक reasoning विकसित करेगा, तब भी वैध रहता है और और भी मजबूत हो जाता है। अगर किसी के तर्क को पूरा करना हो, तो उसके सोचने के प्रवाह का अनुसरण कर पाना उसे पूरा करना कहीं आसान बना देता है
- अभी LLM के लिए इस्तेमाल होने वाले अधिक व्यापक reasoning tests, जैसे MuSR, को देखना अच्छा होगा। क्योंकि प्रश्न नए बनाए जाते हैं, इसलिए केवल बाद वाली व्याख्या से इसे स्पष्ट रूप से समझाना कठिन है: https://arxiv.org/abs/2310.16049
- ऐसे मॉडल “reason” क्यों करते हैं, या अधिक सटीक रूप से कहें तो जटिल concepts को संभाल क्यों पाते हैं, यह काफी सहज है। विशाल टेक्स्ट को प्रोसेस करते हुए वे internal representations बनाते हैं, जिनमें concepts को साधारण nodes, यानी neurons या neurons के समूहों के रूप में दर्शाया जाता है।
  इस तरह वे वास्तव में knowledge को distill करते हैं। या इसे एक बहुत अच्छे principal component analysis की तरह भी समझा जा सकता है, जो कई महत्वपूर्ण पहलुओं को निकाल लेता है, या एक अपने-आप बने semantic graph की तरह। जब knowledge distill हो जाती है, तो concepts को जोड़कर उसके ऊपर आसानी से निर्माण किया जा सकता है। इसमें कोई खास गुप्त बात नहीं है
- पेपर को सरसरी तौर पर देखने पर लगता है कि वह इस समस्या को पहचानता तो है, लेकिन कुछ हद तक इसे छोड़ भी देता है।
  उसमें कहा गया है कि approximation ability और generalization वास्तव में एक ही अवधारणा नहीं हैं, यह स्पष्ट है। लेकिन LLM की reasoning ability generalization से जुड़ी है या नहीं, यह अभी तय नहीं है, और क्योंकि इन अवधारणाओं को अब भी ठीक-ठीक पकड़ना कठिन है, इसलिए experimental section में intrinsic dimension, यानी representational power और reasoning ability के संबंध, पर ध्यान केंद्रित किया गया है
- “मॉडल उस उत्तर को वापस दिखाता है” में वापस दिखाता है इस शब्द के भीतर बहुत कुछ छिपा है। क्या यह सचमुच इतना सरल है?
  क्या इसका मतलब यह है कि मॉडल किसी खास साहित्यिक आलोचना-निबंध का दृष्टिकोण अपना लेता है जिसे उसने “पढ़ा” है? या फिर वह पूरे का कोई “औसत” दृष्टिकोण अपनाता है? और वैसे भी, किसी विषय पर “औसत” दृष्टिकोण को आखिर परिभाषित कैसे किया जा सकता है?
  यह एक दिलचस्प सवाल है जो LLM क्या है, उसके मूल पर चोट करता है, लेकिन यह पेपर कहीं अधिक संकीर्ण फोकस वाला है, इसलिए लगता नहीं कि वह इसका उत्तर देगा
अनुमान का ज्यामिति से क्या संबंध हो सकता है? क्या यह उस विचार जैसा है कि अलग-अलग concepts में कोई अंतर्निहित ज्यामितीय रूप होता है? क्या यह reason की geometry पर कोई प्लेटोनिक या noological नज़रिया है? पेपर को काफी हद तक समझना मुश्किल था
- ज्यामिति कहाँ से आती है, इस बारे में पेपर थोड़ा और पढ़ने के बाद एक और बात जोड़ रहा/रही हूँ
  पेपर जिन स्रोतों का हवाला देता है, उनमें से एक यह पेपर[1] दिखाता है कि आधुनिक deep neural networks की nonlinear layers input को अलग-अलग regions में बाँटती हैं और हर region पर affine map[2] लागू करके output बनाती हैं। यह vector quantization और k-means clustering से इसके संबंध पर भी चर्चा करता है
  इसलिए यहाँ ज्यामितीय दृष्टिकोण का मतलब स्कूल वाली geometry नहीं, बल्कि vector space[3] या combinatorial computational geometry[4] जैसे अधिक अमूर्त concepts हैं
  प्रस्तुत पेपर का तर्क यह लगता है कि इस तरह का partitioning neural network की approximation capacity से सीधे जुड़ा है। आगे यह सुझाया गया है कि approximation capacity बढ़ने पर math word problems के जवाब बेहतर होते हैं, और इसलिए approximation capacity का LLM की reasoning ability से संबंध है
  [1]: https://arxiv.org/abs/1805.06576v2
  [2]: https://en.wikipedia.org/wiki/Affine_transformation
  [3]: https://en.wikipedia.org/wiki/Vector_space
  [4]: https://en.wikipedia.org/wiki/Computational_geometry#Combina...
- आधुनिक neural networks में linear algebra का बहुत उपयोग होता है, और खास तौर पर modern LLMs को चलाने वाली transformer[1] architecture में तो यह और भी स्पष्ट है
  linear algebra का geometry[2] से गहरा संबंध है, इसलिए क्षमता और performance को परिभाषित करने वाले ज्यामितीय पहलू होना काफी स्वाभाविक है
  यह पेपर खास तौर पर attention layers की intrinsic dimension[3] को देखता है और यह जाँचता है कि उसका LLM performance से क्या संबंध है
  [1]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
  [2]: https://en.wikipedia.org/wiki/Linear_algebra#Relationship_wi...
  [3]: https://en.wikipedia.org/wiki/Intrinsic_dimension
- “अलग-अलग concepts में अंतर्निहित ज्यामितीय रूप होते हैं” यह विचार सही है। वास्तव में इसी concept के ऊपर गणित की बुनियाद भी रखी जा सकती है, और एक अर्थ में “reasoning” तथा proofs भी बनाए जा सकते हैं
  dependent type systems इसी तरह काम करते हैं। HoTT और modal homotopy theory देख सकते हैं। Lean4, Coq और theorem proving भी इसी ढंग से काम करते हैं
  अगर आप lambda algebra या Boolean algebra की बुनियाद याद करें, तो वहाँ आंशिक क्रम वाले lattice या semilattice पर संगठित mathematical objects को transformations की एक शृंखला के रूप में संभाला जाता है। उदाहरण के लिए Boolean algebra में implication एक partial order देता है
  यह समझना दिलचस्प होगा कि क्या attention mechanism की density, dependent type systems जैसी प्रगति का अनुसरण करती है, और क्या proof में शामिल dependent types तथा LLM के भीतर के corresponding spaces के बीच कोई संबंध है, जो proximity operator जैसी continuous relaxation और high-level concepts से output tokens तक जाने वाले transformations के माध्यम से बनता हो
  embeddings में geometry का अर्थपूर्ण होना हम पहले ही देख चुके हैं। कुछ सरल concepts vector directions से मेल खाते हैं। अगर dependent concepts पर reasoning, LLM के गुजरने वाले जटिल subspaces से मेल खाती हो, और पर्याप्त training के बाद वह संबंध corresponding proofs की logical structure के और करीब आता जाए, तो इसमें बिल्कुल भी आश्चर्य नहीं होगा
- पेपर यह बात नहीं कहता, लेकिन यहाँ AlphaGeometry-style synthetic benchmark[1] बनाया जा सकता है। इसमें geometry engine 10 करोड़ word problems तैयार करे और LLM उन्हें हल करे
  geometry problems को मशीन से बनाना और हल करना आसान है, लेकिन किसी सामान्य transformer LLM के पास इनमें खास तौर पर अच्छा होने की कोई विशेष वजह नहीं है, और इसका फायदा यह है कि scale को बहुत बड़ा किया जा सकता है। HumanEval जैसे सिर्फ 164 सवालों वाले benchmark से अलग, इसमें यह आलोचना भी कम होगी कि LLM ने जवाब बस रट लिए हैं
  1: https://deepmind.google/discover/blog/alphageometry-an-olymp...
- शायद बात word embeddings की हो रही है। यहाँ context को एक high-dimensional geometric space में embed किया जाता है, और कुछ dimensions यह पकड़ सकते हैं कि कोई शब्द कितना “feminine” है या कितना “blue” के करीब है
यहाँ region से वास्तव में क्या मतलब है, क्या regions ज़्यादा होने पर बेहतर होता है, regions को अलग कैसे किया जाता है, और क्या एक region उसी concept जैसा हो सकता है जिससे जुड़े कई दूसरे regions भी हों — यह जानने की जिज्ञासा है
- मेरी समझ के अनुसार, regions input domain के partition के टुकड़े हैं, यानी weights से बने vector space के हिस्से। उद्धृत पेपर[1] की धारा 3.1 के बाद इस पर और विस्तार है
  उस पेपर का तर्क है कि सामान्य deep neural network की layers input domain को कई regions में बाँटती हैं, और हर region का input पर अपना affine map होता है
  यदि activation function मनमाना हो, तो partition स्वयं और region-wise affine maps के parameters — दोनों खोजने पड़ते हैं। लेकिन आम activation functions globally convex होते हैं, इसलिए यह दिखाया गया है कि इसका उपयोग इस तरह किया जा सकता है कि partition पूरी तरह region-wise affine map parameters से निर्धारित हो जाए
  इसलिए किसी input x के लिए layer का output, x का “partition-region-निर्भर piecewise affine transformation” बन जाता है। affine map parameters वास्तव में वही चीज़ हैं जो training के दौरान बदलती हैं, इसलिए regions की संख्या और आकार भी training के दौरान बदलते हैं
  प्रस्तुत पेपर यह दिखाता है कि regions जितने अधिक होंगे, neural network layer की approximation capacity उतनी बढ़ेगी। ऊपर की बातों को देखते हुए यह अपने-आप में चौंकाने वाला नहीं है, लेकिन इसे एक महत्वपूर्ण stepping stone की तरह इस्तेमाल किया गया है
  [1]: https://arxiv.org/abs/1805.06576v2
जैसा कि कई दार्शनिक बहसों में होता है, यह दावा करना कि LLM “reasoning” कर सकता है, ज़्यादा मायने नहीं रखता। “reasoning” कोई अच्छी तरह परिभाषित शब्द नहीं है, और सब लोग इसकी एक ही परिभाषा पर सहमत भी नहीं होंगे।
अगर आप किसी computer scientist, continental philosopher, या anthropologist से पूछें कि “reasoning” क्या है, तो वे पूरी तरह अलग जवाब देंगे।
अगर reasoning से आपका मतलब गणित में इस्तेमाल होने वाला deductive reasoning और विज्ञान में इस्तेमाल होने वाला inductive reasoning है, तो इस बात का कोई प्रमाण नहीं है कि LLM ऐसा करता है। यह मानने की भी कोई वजह नहीं है कि सिर्फ linguistic pattern matching से हम जिस चीज़ को मानवीय सोच कहते हैं, उसकी पूरी नकल की जा सकती है। ऐसा दावा करने के लिए “सोच” को बेहद संकीर्ण रूप से परिभाषित करना होगा, और इस तथ्य को नज़रअंदाज़ करना होगा कि हम embodied intelligence हैं और अपने-आप को एक पारदर्शी, और शायद pre-linguistic तरीके से भी जान सकते हैं। जब तक AI embodied नहीं होता और वही काम नहीं कर सकता, मुझे नहीं लगता कि वह इंसानों की तरह “सोच” या “reasoning” करेगा। वह अभी भी बेहद शानदार statistical sleight of hand है।
- https://transformer-circuits.pub/2022/in-context-learning-an...
  इस बात के काफ़ी सबूत हैं कि ये induction करते हैं।
- यह बात सही हो सकती है, लेकिन अगर यह “काफ़ी अच्छा” है, तो फिर यह मायने क्यों रखता है? अगर Slack/Teams में टिकट समय पर निपटाने वाले और ठीक-ठाक code quality रखने वाले user और LLM में मैं फ़र्क नहीं कर सकता, तो मुझे इस बात से ज़्यादा फ़र्क नहीं पड़ता कि वह अपने अस्तित्व को किसी पारदर्शी और pre-linguistic तरीके से जानता है या नहीं।
“बस और dimensions जोड़ दो, bro!”
मैं AI क्षेत्र का व्यक्ति नहीं हूँ, बस किनारे से इसे देखना पसंद करता हूँ। पेपर को सरसरी तौर पर देखने के बाद, एक non-expert के नज़रिए से मेरी समझ यह है; अगर मैं कहीं ग़लत हूँ तो सुधार दीजिए।
आधुनिक neural networks, जैसे LLM में इस्तेमाल होने वाली multilayer perceptron[1] layers, मूल रूप से input को कई regions में बाँटती हैं। एक single MLP layer जितने regions में बाँट सकती है, उसकी संख्या input की intrinsic dimension[2] पर exponential रूप से निर्भर करती है, और ऐसा लगता है कि regions/partitions की संख्या MLP layer की approximation क्षमता बढ़ाती है।
इसलिए neurons की संख्या बढ़ाए बिना भी input को प्रभावी रूप से “distill” करके MLP layer की approximation क्षमता काफ़ी बढ़ाई जा सकती है।
Transformer architecture में MLP layer का input self-attention[3] layer होता है। लेखक दिखाते हैं कि self-attention layer की graph density, self-attention layer की intrinsic dimension के साथ मज़बूती से correlated है। यानी self-attention layer जितनी dense होगी, MLP उतना बेहतर काम कर सकता है।
attention layer की density बढ़ाने का एक तरीका है और अधिक context जोड़ना। प्रश्न के आगे किसी भी token को context के रूप में जोड़कर अगर final layer की intrinsic dimension बढ़ाई जाए, तो ऐसा लगता है कि LLM का प्रदर्शन बेहतर होता है।
यह भी कहा गया है कि Transformer architecture में approximation error जमा होना आसान होता है, और high intrinsic dimension input पाने वाली MLP layer द्वारा दी गई अधिक precise partitioning इसमें मदद कर सकती है। हालांकि generalization पर इसका असर क्या होगा, इस पर और शोध की ज़रूरत है।
अगर ये नतीजे टिके रहते हैं, तो यह पेपर LLM और इसी तरह के neural networks को बेहतर optimize करने के लिए अच्छी insight देता हुआ लगता है।
[1]: https://en.wikipedia.org/wiki/Multilayer_perceptron
[2]: https://en.wikipedia.org/wiki/Intrinsic_dimension
[3]: https://en.wikipedia.org/wiki/Transformer_(deep_learning_arc...
- अगर attention graph में tokens को जोड़ने वाली edges की संख्या से density को परिभाषित माना जाए, तो यह ज़्यादा सहज लगता है। और सरल शब्दों में कहें, तो यह वह मान है जो बताता है कि tokens की कुल संख्या की तुलना में कोई token कितनी बार दूसरे tokens से जुड़ा है।
  इसलिए जो tokens वास्तव में एक-दूसरे से संबंधित हों और जानकारी देते हों, वे अच्छे हैं; लेकिन बेमेल tokens मदद नहीं करेंगे।
  “प्रश्न के आगे कोई भी token context के रूप में जोड़ने से LLM का प्रदर्शन बेहतर होता है” — यह अभिव्यक्ति शायद सटीक नहीं है। पेपर में जो पाया गया, वह यह है कि मौजूदा प्रश्न के आगे किसी भी तरह के tokens जोड़ने से पहली layer की intrinsic dimension बढ़ती है, लेकिन यह बढ़ोतरी ज़रूरी नहीं कि model की reasoning क्षमता से correlated हो।
  LLM की reasoning क्षमता में बड़ा सुधार केवल तब होता है जब आगे जोड़े गए tokens model की final layer intrinsic dimension को बढ़ाते हैं।
- क्या जिन अलग-अलग regions की हमें दिलचस्पी है, वे data की Vapnik–Chervonenkis dimension[a] का subset हैं, और चरम स्थिति में शायद उसके बराबर भी माने जा सकते हैं?
  मूल लेख में VC dimension का कोई उल्लेख नहीं है।
  [a] https://en.wikipedia.org/wiki/Vapnik%E2%80%93Chervonenkis_di...

बड़े भाषा मॉडलों में reasoning: एक ज्यामितीय दृष्टिकोण

reasoning क्षमता को geometry से क्यों देखें

MLP का space partitioning और expressivity

Transformer में intrinsic dimension कैसे बनती है

Attention heads और context length expressivity को कैसे बढ़ाते हैं

GSM8K-Zero और Llama 3 experiments

last layer की ID performance से अधिक मज़बूती से जुड़ती है

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय