हालिया शोध के अनुसार LLM को compositional tasks में कठिनाई होती है

(quantamagazine.org)

11 पॉइंट द्वारा GN⁺ 2025-02-03 | 5 टिप्पणियां | WhatsApp पर शेयर करें

LLM को compositional tasks में कठिनाई होती है, जो उनकी क्षमताओं की सीमाओं की ओर संकेत करता है
- यह समस्या दिखाती है कि LLM training data में देखी गई चीज़ों से आगे बढ़कर reasoning नहीं कर पाते
17 दिसंबर 1962 को Life International में 15 वाक्यों वाला एक logic puzzle प्रकाशित हुआ
“ब्रिटिश व्यक्ति लाल घर में रहता है” या “बीच वाले घर में दूध पिया जाता है” जैसे हर वाक्य एक clue देता था
पाँच घरों के रंग, निवासियों की राष्ट्रीयता, पालतू जानवर, पेय आदि सभी गुण अलग-अलग थे, और मुख्य सवाल था “zebra किसके पास है”
इस समस्या को Einstein’s puzzle (या riddle) कहा जाता है, और हाल में इसे machine learning models, खासकर large language models (LLM), की multi-step reasoning क्षमता मापने के संकेतक के रूप में इस्तेमाल किया जा रहा है
Allen Institute for AI की research scientist Nouha Dziri और उनके साथियों ने ChatGPT जैसे LLM पर इस puzzle को लागू कर उनकी सीमाएँ जाँचीं
इससे सामने आया कि LLM के लिए training data में देखी गई चीज़ों से आगे के जटिल प्रश्न हल करना कठिन है
यह “चरण-दर-चरण हल किए गए परिणामों को जोड़कर अंतिम उत्तर तक पहुँचना” वाली compositional reasoning की कठिनाई दिखाता है
Dziri की research team का तर्क है कि LLM में केवल शब्द-पूर्वानुमान के आधार पर सीखने की एक संरचनात्मक सीमा होती है
अन्य शोधकर्ताओं ने भी साबित किया कि आज व्यापक रूप से इस्तेमाल हो रही transformer architecture में ऐसे जटिल problem-solving के लिए गणितीय सीमाएँ हैं
भले ही लगातार अधिक शक्तिशाली models आ रहे हों, फिर भी संभावना जताई जा रही है कि वे मूल रूप से सभी compositional reasoning समस्याएँ हल न कर पाएं
Andrew Wilson (NYU) ने कहा कि इस तरह के शोध AI research community को यह फिर से सोचने पर मजबूर करते हैं कि क्या transformer-केंद्रित approach को उसी तरह आगे बढ़ाना चाहिए

चौंकाने वाली उपलब्धियों से उठे सवाल

Dziri के अनुसार, जब LLM ने हैरान करने वाली language capabilities दिखानी शुरू कीं, तो यह जिज्ञासा बढ़ी कि “क्या वे वास्तव में reasoning कर सकते हैं”
LLM इंटरनेट पर मौजूद विशाल text से एक सरल तरीके, यानी sentence completion prediction, के जरिए train होते हैं, फिर भी वे natural language processing, document summarization और code generation जैसे जटिल काम कर रहे हैं
OpenAI के o1, GPT-4, Google के Gemini, और Anthropic के Claude इसके प्रमुख बड़े models हैं
लेकिन ये models कभी-कभी ऐसे सवालों में भी अप्रत्याशित गलतियाँ कर देते हैं जो इंसानों को सरल लगते हैं
उदाहरण के लिए, साधारण multiplication में भी इनके अक्सर गलत होने के मामले सामने आए हैं
Dziri के शोध के अनुसार, GPT-4 से तीन अंकों का multiplication करवाने पर वह केवल 59% बार सही था, और चार अंकों पर सटीकता 4% तक गिर गई
Einstein’s puzzle के modified versions में भी, जब घर छोटे थे (2-3 गुण), तब accuracy ऊँची थी, लेकिन 4-5 गुण होने पर success rate नाटकीय रूप से गिर गई
जब GPT-3 को 18 लाख multiplication data points पर fine-tune किया गया, तो उसने training में शामिल range के भीतर अच्छा किया, लेकिन training examples से अलग format में पूछने पर accuracy तेज़ी से गिर गई
इससे यह निष्कर्ष निकला कि model ने algorithm को वास्तव में समझने के बजाय training examples पर निर्भर होकर उसकी नकल की

स्पष्ट सीमाएँ

Dziri और अन्य शोधकर्ताओं ने जिस साझा समस्या की ओर इशारा किया, वह है compositional reasoning क्षमता की कमी
Binghui Peng (Stanford University) ने Columbia University में PhD के दौरान ध्यान दिया कि LLM “किसी के पिता के पिता कौन हैं” जैसे तथ्य-संयोजन वाले सवालों में अक्सर गलती करते हैं
उन्होंने गणना की कि ऐसे सवाल हल करने के लिए एक साधारण transformer layer को कितने parameters चाहिए, और निष्कर्ष निकाला कि अगर domain size model parameters की संख्या से बड़ा हो, तो समस्या हल नहीं की जा सकती
बाद में, जब इसे multi-layer transformer तक बढ़ाया गया, तब भी यह साबित किया गया कि जटिल compositional reasoning समस्याओं के सामने यह गणितीय रूप से असमर्थ है
यानी model का आकार बढ़ाने से वह अधिक कठिन समस्याएँ हल कर सकता है, लेकिन अगर समस्या की कठिनाई भी साथ-साथ बढ़े, तो उसकी सीमाएँ सामने आ जाती हैं
कुछ शोधकर्ताओं ने transformer के बाहर अन्य neural network structures, जैसे state-space models, भी आजमाए, लेकिन उनमें भी समान सीमाएँ देखी गईं

सीमाओं से आगे निकलने की कोशिश

LLM की सीमाओं को पार करने के लिए कई पूरक उपाय प्रस्तावित किए जा रहे हैं
उदाहरण के लिए, Tom Goldstein (University of Maryland) की team ने transformer में numbers डालते समय अतिरिक्त positional information जोड़कर बड़े अंकों वाली गणनाएँ भी संभव बनाई
इस काम में 20-अंकीय संख्याओं पर train किए गए model ने 100-अंकीय addition में भी 98% accuracy दिखाई
एक और तरीका chain-of-thought technique है, जिसमें problem-solving process को prompt के भीतर चरण-दर-चरण प्रस्तुत किया जाता है
देखा गया है कि GPT-4 जैसे models इस तरीके से अधिक जटिल समस्याएँ हल करने की क्षमता दिखा सकते हैं
इसका आधार “बड़ी समस्या को छोटी समस्याओं की शृंखला में तोड़ना” है, और एक सैद्धांतिक व्याख्या यह दी गई है कि यह तरीका transformer द्वारा संभाली जा सकने वाली operations की सीमा बढ़ाता है
हालांकि, वास्तविक models हर समस्या में यह क्षमता नहीं दिखाते, और परिणाम training method व model architecture के अनुसार बदलते हैं
अंततः, क्योंकि LLM pattern matching पर आधारित हैं, इसलिए बड़े या जटिल compositional reasoning problems में उनकी सीमाएँ हमेशा मौजूद रहेंगी
फिर भी, सामान्य उपयोगकर्ताओं के लिए ये सीमाएँ बहुत महत्वपूर्ण न भी हों
वहीं, models बनाने वाले शोधकर्ताओं के लिए इन संरचनात्मक सीमाओं को समझना और सुधारना एक प्रमुख कार्य है
Dziri ने जोर देकर कहा, “अगर हम LLM के आंतरिक काम करने के तरीके को ठीक से समझ लें, तो मूलभूत समस्याओं को हल करने की संभावना बढ़ जाती है”

5 टिप्पणियां

ned0909 2025-02-05

यह तो reasoning के दौर से पहले की बात लगती है।

bakyeono0 2025-02-04

~ चिन्ह के Markdown strikethrough टाइपोग्राफिक चिन्ह के रूप में पहचाने जाने की समस्या है। अगर आप इसे ठीक कर दें तो अच्छा होगा।

rabolution 2025-02-04

कोडिंग करते समय LLM का उपयोग करें तो coupling जितनी कम हो और concerns का separation जितना अच्छा हो, उतना ही वह काम बेहतर करता है। सच कहूँ तो लगता है, शायद इंसानों के साथ भी यही बात लागू होती है. ;)

hided62 2025-02-03

लेख खुद तो हाल का है, लेकिन लगता है कि इसका आधार o1 से पहले का है।

उन्होंने कुछ ऐसा पूछा था, "मेरे पिता के छोटे भाई की माँ की बहन की बेटी का मुझसे क्या रिश्ता है?"
4o में साफ़ तौर पर सीमाएँ दिखीं, लेकिन o1 तो जाल जैसे सवालों से भी पूरी तरह बच गया।

GN⁺ 2025-02-03

Hacker News राय

LLM, दूसरे machine learning models की तरह, input data में pattern matching करके सांख्यिकीय रूप से सबसे संभावित परिणाम निकालते हैं
- "Chain of thought" को reinforcement learning के साथ जोड़ने पर कठिन समस्याएँ हल करना संभव हो जाता है
- सफलता की स्पष्ट परिभाषा और reward model की आवश्यकता होती है
- इंसानों की problem-solving क्षमता भी pattern matching पर निर्भर करती है, और इंसान बड़ी मात्रा की जानकारी को कुशलतापूर्वक एकीकृत कर सकते हैं
LLM, AI का एक चमत्कार हैं, और वे उन चीज़ों को भी हर दो महीने में आगे बढ़ा रहे हैं जिन्हें पहले असंभव माना जाता था
- कुछ वैज्ञानिक LLM की उपलब्धियों को कम आँक रहे हैं
- LeCun ने कहा कि LLM एक dead end हैं और शोधकर्ताओं को दूसरी दिशा सुझाई
- Meta के LLM नतीजे दूसरी कंपनियों की तुलना में पीछे रहे हैं, और यह इस तरह के संदेहवाद से जुड़ा हो सकता है
LLM रिसर्च को लेकर बहुत-सी गलत जानकारी है
- 6-12 महीने पुराने models केवल साधारण reasoning कर सकते हैं
- जटिल logical और algorithmic tasks के लिए system 2 thinking की ज़रूरत होती है
- LLM programming के ज़रिए सोच सकते हैं
o3-mini-high तेज़ी से Prolog code बना सका
- उदाहरण के तौर पर दिया गया Prolog code समस्या हल करने में सफल रहा
हालिया शोध परिणाम GPT-3, 3.5, और पहली पीढ़ी के 4 को कवर करते हैं
ChatGPT एक तेज़ search engine जैसा महसूस होता है, जिसमें बहुत-सी hallucinations और सीमित context होता है
- भविष्य के विकास को लेकर वादे बहुत हैं, लेकिन वास्तविक प्रगति कम है
यह अलग करना चाहिए कि शोध परिणाम शुद्ध LLM का विश्लेषण कर रहे हैं या LLM synthesis engine का
- ARC-AGI-1 में o3 का प्रदर्शन synthesis engine की क्षमता दिखाता है
LLM, 2D या 3D thinking की माँग करने वाले साधारण सवालों में विफल हो सकते हैं
- AI को 2D/3D दुनिया को अच्छी तरह represent करने के लिए train किया जा सकता है
जब तक LLM की सीमाएँ किसी लेख में बताई जाती हैं, कुछ महीनों बाद वही सीमाएँ बिना वाला chatbot आ जाता है
- ये सीमाएँ मौलिक नहीं हैं
जब तक academic research प्रकाशित होती है, तब तक अक्सर कई महीने बीत चुके होते हैं
- अगर आपको नवीनतम तकनीक की सीमाएँ जाननी हैं, तो research papers की बजाय social media देखना बेहतर है