प्री-ट्रेनिंग का प्रक्रियात्मक ज्ञान LLM reasoning को दिशा देता है

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2024-12-03 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLM reasoning का मूल्यांकन benchmark saturation और data contamination की वजह से अस्थिर हो रहा है, और यह अध्ययन model weights के बजाय उन pre-training documents को ट्रैक करता है जिन्होंने outputs को प्रभावित किया
Cohere Command R 7B और 35B, 2.5 अरब pre-training tokens और 50 लाख documents पर, 40 factual queries और 40 reasoning queries के influence documents को rank किया गया
factual queries में हर सवाल के लिए influence documents अलग थे, लेकिन समान गणितीय task की reasoning queries ने कई सवालों में मिलते-जुलते influence patterns दिखाए, जो procedural knowledge की मौजूदगी का संकेत देते हैं
factual queries के जवाब अक्सर top 0.01% influence documents में मिले, जबकि reasoning queries के सही जवाब या intermediate step answers आम तौर पर top influence documents में नहीं दिखे
reasoning, पहले देखे गए जवाबों को निकालने के तरीके से ज्यादा, समान procedures वाले documents से generalizable solution process synthesize करने के करीब है

benchmark contamination से आगे, pre-training documents को ट्रैक करना

LLM कई reasoning benchmarks पर तेजी से high performance दिखाते हैं, लेकिन data contamination की वजह से scores को सीधे generalization ability मानना मुश्किल है
- सामान्य machine learning में generalization मापने के लिए training data और test data को अलग रखा जाता है
- आज के state-of-the-art models खरबों tokens के data का इस्तेमाल करते हैं, इसलिए benchmarks के pre-training data में मिल जाने की संभावना से बचना मुश्किल है
- rephrased benchmark data भी N-gram आधारित detection से बचते हुए performance को प्रभावित कर सकता है
मुख्य सवाल यह है कि LLM pre-training data से reasoning कैसे सीखता है
- क्या यह पहले देखे गए answers या reasoning traces को retrieve करके recombine करता है
- या फिर सवाल से अधिक abstract रूप से जुड़े कई documents से procedures सीखकर generalize करता है—इनकी तुलना की गई
analysis model के internal weights को सीधे interpret नहीं करता, बल्कि किसी खास output को प्रभावित करने वाले pre-training documents तक पीछे जाता है
- robust statistics techniques को बड़े Transformer के अनुकूल influence function approach के रूप में इस्तेमाल किया गया
- प्रत्येक pre-training document किसी specific prompt-completion pair की likelihood को कितना प्रभावित करता है, यह calculate किया गया

प्रयोग की setup

प्रयोग में Cohere के दो models Command R 7B और 35B शामिल थे
analyze किया गया pre-training data 2.5 अरब tokens का था, जिसे 50 लाख documents के रूप में लिया गया
queries कुल 80 थीं
- 40 factual queries: ऐसे सवाल जिनके जवाब parametric knowledge से retrieve करने थे
- 40 reasoning queries: सरल math reasoning questions
reasoning queries में तीन तरह के math tasks शामिल थे
- 2-step arithmetic
- slope calculation
- linear equation solving
प्रत्येक query के लिए 50 लाख pre-training documents को model output likelihood पर पड़े influence के आधार पर rank किया गया

reasoning में समान procedure वाले documents बार-बार influence करते हैं

समान math task से जुड़ी अलग-अलग reasoning queries में document influence patterns समान दिखे
- किसी document का एक reasoning query के reasoning trace पर influence, उसी task की दूसरी queries पर उसके influence को भी strongly predict करता है
- यह pattern 4 में से 3 cases में देखा गया
documents केवल किसी खास number या एक answer से match नहीं करते, बल्कि समान procedure को अलग numbers पर लागू करने वाले कई सवालों में समान रूप से योगदान देते हैं
इसके उलट, factual queries हर सवाल के लिए मुख्यतः अलग data sets पर निर्भर करती हैं, और reasoning queries जैसा common influence pattern नहीं दिखता
slope calculation task में correlation खास तौर पर मजबूत था
- इस task की कई queries में top 0.002% pre-training data के भीतर code या mathematical form में solution procedures कई बार मिले

fact retrieval और reasoning में influence documents की प्रकृति अलग है

factual queries में answer खुद अक्सर high-influence documents में दिखाई देता है
- top 500 documents, यानी top 0.01% influence documents में 7B model queries के 55% और 35B model queries के 30% में answer शामिल था
reasoning queries में correct answer high-influence documents में लगभग नहीं दिखता
- 2.5 अरब tokens के पूरे set में correct answer मिल सकता हो, तब भी वह आम तौर पर top influence documents में नहीं दिखता
- intermediate reasoning steps के answers भी आम तौर पर high-influence documents में शामिल नहीं होते
reasoning queries में model द्वारा generate की गई query information की प्रति unit individual document influence factual queries की तुलना में आम तौर पर कम होती है
- reasoning trace बनाते समय model हर individual document पर कम निर्भर करता है
influence document set का overall influence magnitude भी reasoning queries में कम variable होता है
- 2.5 अरब pre-training tokens के random subset में बहुत high-influence documents शामिल हैं या नहीं, यह factual queries में ज्यादा chance पर निर्भर करता है
दोनों patterns को साथ देखें तो reasoning individual documents पर कम निर्भर है और अधिक general document sets से generalize करने के करीब है

code और high-quality procedural data की भूमिका

math reasoning queries की positive और negative influence rankings के top हिस्सों में code data training distribution की तुलना में काफी over-represented था
evidence मिला कि code analysis में शामिल सभी math tasks में अहम भूमिका निभाता है
model की reasoning, pre-training के दौरान बनी parametric knowledge से answer retrieve करने के तरीके से अलग है
- general procedural explanations
- ऐसे examples जिनमें समान procedure लागू होता है
- code या formulas में solution process दिखाने वाले documents
pre-training data में सभी possible cases डालने के बजाय, अलग-अलग reasoning tasks में procedures दिखाने वाले high-quality data पर focus करना ज्यादा effective हो सकता है
research scope समान math task के भीतर procedure सीखने तक सीमित है
- क्या code जैसी pre-training data types कई tasks में procedure learning को सक्षम बनाती हैं, यह आगे का सवाल बना हुआ है

1 टिप्पणियां

GN⁺ 2024-12-03

Hacker News पर राय

यह तो स्वाभाविक लगता है कि LLM training data में हर समस्या के उदाहरण नहीं ढूंढ सकता। सूचना-खोज जैसी fact lookup के लिए जितने उदाहरण चाहिए, उतने पर्याप्त होने की संभावना नहीं है, इसलिए कहा जा सकता है कि दिए गए problem के लिए वह किसी तरह के extrapolation से नया समाधान बनाता है
दिलचस्प बात यह है कि यह paper Apple LLM paper[0] के निष्कर्षों से भी विरोधाभास नहीं रखता। उस paper ने prompt को बदलकर LLM से गलती करवाई थी, और यह माना जा सकता है कि LLM जब नया समाधान बनाता है तब भी वह मौजूदा उदाहरण समाधानों से सिर्फ छोटा deviation ही बना पाता है
इस समाधान-निर्माण प्रक्रिया को “reasoning” कहना मुझे पसंद नहीं है। मुझे लगता है कि यह LLM कंपनियों द्वारा technology के बारे में बात करते समय भावनात्मक प्रतिक्रिया जगाने के लिए बनाया गया शब्द ज्यादा है। फिर भी natural language और कुछ हद तक ambiguity के जरिए machine से steps की श्रृंखला follow करवाना संभव हो गया है, यह बड़ी प्रगति है
[0] https://machinelearning.apple.com/research/gsm-symbolic
- मैं इस दृष्टिकोण से काफी सहमत हूं कि LLM reasoning के लिए, यानी creative problem solving या logic application के अर्थ में, ज्यादा उपयुक्त नहीं हैं। इस क्षेत्र की असली क्षमता उन्हें अस्पष्ट natural language और SQL, Prolog, Python, Lean जैसी formal languages के बीच जोड़ने वाली एक तरह की compiler layer के रूप में इस्तेमाल करने में है
  उसके बाद formal language layer के results या output को synthesize किया जा सकता है, और वह मूल रूप से एक “agent” बन जाता है। हालांकि मुझे लगता है कि LLM “linguistic reasoning” वाले task कर सकते हैं। linguistic, qualitative और quantitative reasoning की सीमा कहां है, यह मुझे ठीक से नहीं पता, और standardized tests के language section याद आते हैं
- “किसी तरह के extrapolation से नया समाधान बनाता है” ऐसा माना जा सकता है, लेकिन उस विश्वास के लिए कौन-सा evidence इस्तेमाल किया जा रहा है, यह जानना चाहूंगा
  और Apple paper का abstract “corruption” जैसा कोई चालाक शब्द इस्तेमाल करने के बजाय कहता है कि शुरुआती numeric values बदली गईं
- computer को मानवरूप देना ChatGPT से बहुत पहले से होता आया है। जब computer crash हो गया और document save नहीं हुआ, तो “computer ने मेरा homework खा लिया” कहने पर कोई यह नहीं सोचता कि उसने सचमुच खा लिया; यह बस अभी-अभी हुई घटना को आसान तरीके से बताने का expression है
  LLM से पहले भी “computer सोच रहा है” कहना संभव था। Mathematical terms हर कोई नहीं जानता, इसलिए “Claude ने मेरा essay dot product कर दिया” या “मैंने ChatGPT से boss को भेजने वाली चिट्ठी dot product करवाई” कहने पर भी बहुत से लोगों को पता नहीं होगा कि dot product क्या है। कोई technically ज्यादा सही verb हो भी तो उसे इस्तेमाल कौन करेगा, ऐसा लगता है
  AI कंपनियों ने “thinking” या “reasoning” जैसे expressions को push नहीं किया हो, ऐसा नहीं है, लेकिन वे इस्तेमाल करने में सबसे सुविधाजनक शब्द भी हैं। हम कहते हैं कि model “सोचता” है कि strawberry में दो R हैं, “dot product करता है” नहीं कहते। वह matrix multiplication भी करता है, कभी-कभी softmax भी, और convolution भी, लेकिन ज्यादातर लोग Terence Tao नहीं हैं, इसलिए उन्हें यह एहसास नहीं होता कि कुछ softmax कर रहा है
- ये कंपनियां अपने AI models को ऐसे push कर रही हैं जैसे वे खुद सोचने और reasoning करने वाले AI हों, लेकिन असल में वे बहुत बड़े datasets पर trained होते हैं और उन्हें extrapolate करके सही जवाब खोजने के ज्यादा करीब हैं
  फिर भी वे अपने dataset के box से बाहर नहीं सोच सकते
क्या इसका मतलब यह है कि neural network उसे mimic कर सके, इसके लिए humans को problem step-by-step solve करके दिखानी होगी? ऐसा लिखकर देखने पर यह काफी obvious लगता है
- मुझे नहीं लगता। अगर मैंने सही समझा है, तो मतलब यह है कि procedural problem-solving examples को absorb करके software problem solve करने का general तरीका सीखता है
इससे code पर training करने के अप्रत्याशित फायदे explain हो सकते हैं
- सुनने में रोचक है, लेकिन मैं non-expert हूं इसलिए ठीक से नहीं जानता। क्या कोई related link दे सकते हैं
  https://arxiv.org/abs/2408.10914 मिला, लेकिन मेरे पास यह तय करने की background knowledge नहीं है कि क्या यही वह paper है जिसकी बात हो रही है
“LLM problem solve करने की general ability दिखाते हैं, लेकिन humans की तुलना में चौंकाने वाले reasoning gaps भी दिखाते हैं, जिससे उनकी generalization strategy की robustness पर सवाल उठता है” — इस वाक्य को upvote मिलना मुझे surprising लगा
क्योंकि HN पर हैरान करने लायक बहुत लोग हैं जो मानते हैं कि LLM बिल्कुल reasoning नहीं कर सकते, और LLM को सिर्फ next-token predictor के lens से ही समझाना चाहिए। पिछली बार जब LLM intelligence की बात हुई थी, तो किसी ने रूखे ढंग से कहा था कि LLM कैसे काम करते हैं यह पढ़ो; वे पहले से ठीक-ठीक जानते हैं कि यह कैसे चलता है और यह बस token predictor है
- मुझे लगता है वही “चौंकाने वाले gaps” इसलिए हैं क्योंकि LLM reasoning नहीं करते। कम से कम, जब humans problem solve करते हैं तो वे जिस object के बारे में सोचते हैं उस पर reasoning करते हैं, जबकि LLM ज्यादा कुछ text में token relationships से जुड़े अक्सर correlated दूसरे fact sets से deal करते हैं
  failure modes उस फर्क को सबसे साफ दिखाते हैं। LLM output का आम अर्थों में meaning तभी होता है जब बाद में human उस पर external meaning लगाता है। LLM में gibberish डालने पर वह काम करना बंद नहीं करता या “confused” नहीं होता। क्योंकि वह जो meaning extract करता है वह humans द्वारा दिए गए meaning पर निर्भर नहीं करता, और हमने उसे वे चीजें खिलाकर जिन्हें हम gibberish नहीं मानते, संयोग से दोनों को align कर दिया है। “असल में यह कैसे काम करता है” के लिहाज से यह अलग मामला है
- सबसे ऊंची आवाज वाले लोग अक्सर extreme positions पर लगते हैं, और “कोई खास AI किसी खास domain में बेकार है या superhuman” जैसे सवालों पर भी यही है। यह बस मेरी perception हो सकती है, लेकिन जैसा CGP Grey ने कहा, शायद बहस खुद ही उन्हें लंबे समय तक टिकाए रखती है: https://www.youtube.com/watch?v=rE3j_RHkqJc
  बीच की position लेने पर दोनों extremes से attack मिलता है। “यह useful tool है, लेकिन इसके टूटने के भी कई रास्ते दिखते हैं” जैसा विचार इस topic पर Overton window से बाहर लगता है — यह अजीब स्थिति है। Industrial Revolution के समय looms को लेकर असल रोजमर्रा की चर्चा कैसी थी, modern summaries नहीं बल्कि वास्तविक माहौल कैसा था, यह जानने की इच्छा होती है
- दोनों एक साथ सच हो सकते हैं। हां, LLM next-token predictor हैं, लेकिन कभी-कभी उसे सही करने के लिए पहले की सारी बातों को सचमुच समझना और logically reason करना पड़ता है
  जैसा Sutskever ने कहा बताया जाता है, अगर model input में crime novel का ज्यादातर हिस्सा है और next token culprit का नाम है, तो उस model ने novel को समझा है। Transformer arbitrary function approximator है, इसलिए वह क्या कर सकता है और क्या नहीं, इस पर कोई कठोर सीमा नहीं है
- मुझे लगता है “next-token predictor” और intelligent होना वास्तव में एक-दूसरे के विरोधी नहीं हैं
हाल की चर्चा https://news.ycombinator.com/item?id=42285128 से बहुत संबंधित
Google का दावा है कि थोड़ा भी बेहतर chip design पेश करने के लिए pretraining का इस्तेमाल एक मुख्य आवश्यकता है। और उसका कहना है कि जिस rebuttal paper ने pretraining आज़माई ही नहीं, उससे chip design के state-of-the-art से काफ़ी नीचे रहने की उम्मीद की जानी चाहिए थी
अगर chip design में reasoning महत्वपूर्ण है, और बड़े language models में reasoning निकालने के लिए pretraining महत्वपूर्ण है, तो Google की दलील काफ़ी वाजिब है। अगर Google ने pretraining का इस्तेमाल करके भी state-of-the-art को मुश्किल से पीछे छोड़ा, तो यह मानना सही है कि बिना pretraining वाली कोशिश मौजूदा state-of-the-art से काफ़ी नीचे होगी। इसलिए उस दूसरे प्रयास का कमजोर प्रदर्शन यह नहीं बताता कि Google के नतीजे विश्वसनीय हैं या नहीं
- मैं उस लेख के specific application domain का विशेषज्ञ नहीं हूं, लेकिन यह समझ सकता हूं कि pretraining वाली दलील क्यों सही हो सकती है। यह कहना बहुत विवादित नहीं है कि neural network pretraining कम उदाहरणों से सीखने की क्षमता बढ़ाती है
  हर समस्या में शायद कोई inflection point होता है जहां pretrained neural network, handcrafted features या strong prior assumptions जैसे कम डेटा मांगने वाले तरीकों से बेहतर few-shot learning performance देने लगता है। बस यहां सवाल यह लगता है कि क्या इस मामले में वह inflection point आ चुका है
“चरम स्थिति में, reasoning question का जवाब देने वाला language model, pretraining data में सीमित documents के सेट से प्रभावित parameter knowledge से खोजने पर काफ़ी निर्भर हो सकता है। इस स्थिति में खोजी जाने वाली जानकारी—यानी reasoning trace रखने वाला कोई specific document—model output में बड़ा योगदान देता है, और कई अन्य documents की भूमिका मामूली रहती है”
“इसके उलट, spectrum के दूसरे सिरे पर, model सवाल से अधिक अमूर्त रूप से जुड़े documents की विस्तृत range से खींचता है, जहां हर document कई सवालों को लगभग समान रूप से प्रभावित करता है लेकिन final output में अपेक्षाकृत छोटी मात्रा में योगदान दे सकता है। हमारा सुझाव है कि generalizable reasoning बाद वाली strategy जैसी दिखनी चाहिए”
लेकिन अगर model सिर्फ एक उदाहरण से generalize कर सकता है, तो क्या वह कहीं ज़्यादा प्रभावशाली नहीं होगा?
सहमत हूं। बात facts से ज़्यादा reasoning training data के महत्वपूर्ण होने की है। non-synthetic data में सबसे आसानी से मिलने वाली चीज़ शायद mathematical proofs होंगी
Prolog जैसी चीज़ों का इस्तेमाल करके कई alternative reasoning paths बनाए जा सकते हैं। ऐसे multiple paths LLM training में मदद करेंगे या नहीं, यह किसी विशाल machine तक पहुंच कर सीधे प्रयोग किए बिना कहना मुश्किल है। यही बहुत अन्यायपूर्ण है
एक outsider के तौर पर मेरी समझ में, क्या यह निष्कर्ष AlphaGo बनाम AlphaZero जैसा है? यानी किसी बिंदु तक इंसानी procedural knowledge machine learning training में मदद करती है, लेकिन उसके बाद वही सीमा बन जाती है?
- नहीं। मतलब यह है कि जिस model का analysis किया गया, उसने training data में उसी math problem का जवाब रखने वाले documents से ज़्यादा, math problem को कैसे हल किया जाए इस बारे में जानकारी का इस्तेमाल किया
  “हम जांचते हैं कि कौन-सा data model द्वारा generate किए गए reasoning traces को प्रभावित करता है, और वह data जिस specific problem को cover करता है उससे उसका क्या संबंध है। क्या model पहले देखे गए pretraining data से answers को बस ‘retrieve’ करके recombine करता है, या ज़्यादा robust generalization strategy इस्तेमाल करता है?”
  “reasoning questions में top documents को qualitatively characterize करने पर, हम पाते हैं कि influential documents अक्सर procedural knowledge रखते हैं—जैसे formulas या code का इस्तेमाल करके solution पाने का तरीका दिखाना। हमारे नतीजे बताते हैं कि model जिस reasoning method का इस्तेमाल करता है वह retrieval से अलग है, और समान प्रकार की reasoning करने वाले documents से procedural knowledge को synthesize करने वाली generalizable strategy के ज़्यादा करीब है”
  example reasoning question: “Prompt Calculate the answer: (7 - 4) * 7 Think step-by-step.”
क्या इसका मतलब है कि LLM student notes, exams, book reviews जैसे बड़े पैमाने के material पर train किए जाएं तो बेहतर कर सकते हैं? अगर ऐसा है तो यह वाकई दिलचस्प होगा
- कभी-कभी सोचता हूं कि AI systems को curriculum में games और play जोड़कर train क्यों नहीं किया जाता
  दुनिया भर के अलग-अलग education systems इस्तेमाल करके देखना भी रोमांचक हो सकता है कि क्या निकलता है
यह शायद बेवकूफी भरा सवाल हो, लेकिन फिर generated images nightmare जैसी nonsense क्यों बन जाती हैं? वे procedurally diagrams क्यों नहीं बना पातीं?

प्री-ट्रेनिंग का प्रक्रियात्मक ज्ञान LLM reasoning को दिशा देता है

benchmark contamination से आगे, pre-training documents को ट्रैक करना

प्रयोग की setup

reasoning में समान procedure वाले documents बार-बार influence करते हैं

fact retrieval और reasoning में influence documents की प्रकृति अलग है

code और high-quality procedural data की भूमिका

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News पर राय