- मौजूदा बड़े भाषा मॉडल (LLM) में नए कार्यों या ज्ञान के अनुसार तुरंत अनुकूलित होने की क्षमता सीमित है
- नया SEAL framework LLM को अपना स्वयं का fine-tuning data और update instructions बनाने देता है, जिससे उसमें self-adapting क्षमता आती है
- इस प्रक्रिया में self-edit बनाना, instructions को execute करना, और reinforcement learning (RL) loop के माध्यम से लगातार performance सुधारना शामिल है
- SEAL ने नए ज्ञान के integration और few-shot generalization प्रयोगों में मौजूदा तरीकों की तुलना में बेहतर performance दिखाई
- यह शोध self-directed adaptation क्षमता वाले LLM को साकार करने की दिशा में एक आशाजनक कदम प्रस्तुत करता है
अवलोकन
- बड़े भाषा मॉडल (LLM) शक्तिशाली performance दिखाते हैं, लेकिन उनमें अपने weights को नए tasks, जानकारी, या उदाहरणों के अनुसार dynamically adjust करने का mechanism नहीं है
- यह शोधपत्र Self-Adapting LLM (SEAL) framework प्रस्तुत करता है, जो LLM को अपने लिए fine-tuning data बनाने और update instructions तैयार करने में सक्षम बनाता है
- SEAL नया input मिलने पर self-edit बनाता है, जिनमें मॉडल जानकारी को अलग-अलग तरीकों से restructure कर सकता है, optimization hyperparameters specify कर सकता है, या data augmentation और gradient-based updates के लिए tool calls कर सकता है
- ये self-edit supervised fine-tuning (SFT) प्रक्रिया से गुजरते हैं और मॉडल के weights में स्थायी updates तक ले जाते हैं, जिससे लगातार adaptation सुनिश्चित होती है
- प्रभावी self-edit generation के लिए reinforcement learning loop का उपयोग किया जाता है, जिसमें मॉडल update के बाद की downstream performance को reward signal के रूप में इस्तेमाल किया जाता है
मानव सीखने से समानता
- यह विचार उस तरीके से प्रेरित है जिसमें छात्र परीक्षा की तैयारी के दौरान lecture, textbook, internet आदि से मिली जानकारी को अपने ढंग से notes में दोबारा लिखते हैं
- हर व्यक्ति जानकारी को अलग तरह से पुनर्गठित करता है; कोई diagram बनाता है, कोई text, तो कोई formulas के रूप में सारांश तैयार करता है
- इससे पता चलता है कि बाहरी ज्ञान को अपने लिए आसानी से समझने योग्य रूप में reorganize या reinforce करना मानव सीखने की एक सामान्य विशेषता है
- मौजूदा LLM को जब नया task दिया जाता है, तो वे आम तौर पर दिए गए dataset पर सीधे fine-tuning या केवल in-context learning करते हैं
- लेकिन इस तरीके की सीमा यह है कि data का format या मात्रा हमेशा learning के लिए optimal नहीं होती
SEAL: self-adapting framework का प्रस्ताव
- SEAL को reinforcement learning algorithm के साथ इस तरह train किया जाता है कि LLM स्वयं training data और fine-tuning instructions को natural language में generate करे
- यहाँ self-edit डेटा और (वैकल्पिक रूप से) optimization hyperparameters को specify करने वाले command के रूप में होता है
- SEAL की विशेषता यह है that किसी अतिरिक्त module या auxiliary network के बिना, मॉडल अपनी natural language generation क्षमता से सीधे अपनी adaptation process को नियंत्रित करता है
SEAL कैसे काम करता है
- प्रत्येक reinforcement learning (RL) outer-loop iteration में मॉडल candidate self-edit (SE) generate करता है
- तैयार किए गए self-edit को लागू करके weights update किए जाते हैं
- इसके बाद downstream tasks पर मॉडल की performance का मूल्यांकन किया जाता है
- उस परिणाम से reward signal लिया जाता है
- reward signal का उपयोग self-edit generation policy को बार-बार बेहतर बनाने के लिए किया जाता है
प्रयोग और परिणाम
- knowledge integration task में SEAL ने मॉडल द्वारा सीधे बनाए गए synthetic data से fine-tuning की
- SQuAD के no-passage-in-context version में RL training से पहले 33.5% से RL training के बाद 47.0% तक question-answering performance में बड़ा सुधार हुआ
- SEAL द्वारा generated data ने GPT-4.1 द्वारा बनाए गए synthetic data से भी बेहतर performance दिखाई
- few-shot learning प्रयोगों में ARC-AGI benchmark के एक simplified version का उपयोग किया गया, जहाँ SEAL ने augmented data और optimization hyperparameters को स्वयं चुना
- learning rate, epochs, token type के अनुसार selective loss calculation जैसी कई tool combinations को अपने-आप चुना गया
- reinforcement learning के साथ SEAL का उपयोग performance improvement लाया, और यह केवल in-context learning या RL के बिना tools इस्तेमाल करने की तुलना में अधिक प्रभावी रहा
निष्कर्ष
- SEAL framework प्रयोगों के माध्यम से यह साबित करता है कि self-generated data और instructions के जरिए LLM self-adaptation कर सकते हैं
- यह approach भविष्य में data efficiency, adaptability, और generality वाले अगली पीढ़ी के language models के विकास के लिए एक महत्वपूर्ण प्रगति का संकेत देती है
1 टिप्पणियां
Hacker News राय
2010 के दशक के मध्य में जब मेरे दो गणित-प्रतिभाशाली दोस्त बहुत शुरुआती दौर में ही ML में कूदे थे, तब वे अक्सर NEAT/HyperNEAT(Neuroevolution of Augmented Topologies) नाम के algorithm के बारे में बात करते थे [NEAT Wikipedia लिंक] मैं ML विशेषज्ञ नहीं हूँ, इसलिए ठीक-ठीक नहीं जानता, लेकिन मेरी समझ यह है कि NEAT नेटवर्क की topology को evolve करता है, जबकि यह paper weights को evolve करने की बात कर रहा है। मूल रूप से, नेटवर्क संरचना बदलने का तरीका और weights बदलने का तरीका, एक ही समस्या को हल करने की दो अलग-अलग approaches लगती हैं। वे दोनों दोस्त इस बात पर काफ़ी दृढ़ थे कि AI का भविष्य RL(reinforcement learning) और evolutionary algorithms में है.
NEAT का मेरा पसंदीदा शुरुआती वीडियो है SethBling का MarI/O - Machine Learning for Video Games [YouTube लिंक]
मुझे इंसान काफ़ी अद्भुत लगते हैं। हम neurons को समझने के लिए काल्पनिक computing systems बनाते हैं, फिर समझते हैं कि वे वास्तव में वैसे काम नहीं करते, और फिर भी उन्हीं कल्पित systems से ideas लेकर क्रांतिकारी तकनीकें बना लेते हैं। और आज भी हम उन्हीं कल्पित systems से प्रेरणा लेकर आगे बढ़ रहे हैं.
हाल में मैं इस NEAT/evolution-आधारित concept में पूरी तरह डूब गया हूँ। Kokoro voice cloning project में genetic algorithm का इस्तेमाल करके कुछ हद तक सफलता मिलने के बाद, मुझे यह जिज्ञासा हुई कि क्या नेटवर्क संरचना को ही evolve करके “self-assembling intelligence” संभव हो सकती है। यह व्यावहारिक रूप से संभव बनाने के लिए क्या करना होगा, यह जानने की उत्सुकता है, लेकिन LLMs को जिस तरह उभरते देखा है, उससे लगता है कि hybrid approach शायद एक वास्तविक विकल्प हो सकती है.
मुझे लगता है कि RL का उपयोग करके model का खुद जानकारी को पुनर्गठित करना ताकि learning efficiency बढ़े, यह ‘self-edit’ approach बहुत चतुर है। मुख्य विचार यह है कि अलग-अलग तरह के ज्ञान के लिए अलग representations ज़्यादा प्रभावी होते हैं (जैसे गणित और इतिहास के नोट्स अलग तरह से लिखे जाते हैं)। इसमें दो महत्वपूर्ण observations हैं। पहला, knowledge integration result (47% vs 46.3%, GPT-4.1 data के आधार पर) सिर्फ़ ज़्यादा data डालने का नतीजा नहीं है, बल्कि यह दिखाता है कि model ने सच में बेहतर learning format खोजा। catastrophic forgetting की समस्या अभी भी हल नहीं हुई है, और data diversity वास्तव में कितनी सुधरती है यह भी स्पष्ट नहीं है। दूसरा, एक reward evaluation में 30~45 सेकंड लगते हैं, इसलिए ज़्यादातर practical use cases के लिए यह भारी पड़ता है। लेकिन जहाँ optimal information retention सच में ज़रूरी है, जैसे बहुत महत्वपूर्ण documents की processing, वहाँ यह निवेश लायक हो सकता है। एक बड़ी सीमा यह है कि यह उन tasks तक सीमित है जहाँ clear evaluation metrics मौजूद हों (reward निकालने के लिए reference Q&A या test cases चाहिए)। फिर भी technical documents या educational materials जैसे क्षेत्रों में, जहाँ evaluation automation संभव है, यह ज्ञान-प्रसंस्करण का एक बिल्कुल नया paradigm ला सकता है। यह अभी पूरी तरह self-improving agent तक नहीं पहुँचा है, लेकिन ऐसा लगता है कि model का अपने सीखने के तरीके को सुधारना एक महत्वपूर्ण प्रगति है.
कुछ दिन पहले Anthropic ने भी इसी तरह self finetuning से जुड़ा research जारी किया था [arxiv paper लिंक]
इस पर संबंधित चर्चा अभी जारी है [लिंक किया गया HN थ्रेड]
यह सच में चौंकाने वाला है। Claude 3.5 Sonnet के production-grade RM के आधार पर, unsupervised assistant policy को relative comparison में human-supervised RM से trained policy पर 60% जीत मिलती बताई गई है। अब ऐसा लगता है कि हम उस चरण में प्रवेश कर चुके हैं जहाँ models बिना मानव मार्गदर्शन के भी एक-दूसरे के ज़रिए बेहतर प्रदर्शन हासिल कर सकते हैं.
बड़े language models(LLMs) शक्तिशाली हैं, लेकिन समस्या यह है कि नए task मिलने पर उनके पास weights को adapt करने का mechanism नहीं होता। मानव बुद्धि में सीखने की प्रक्रिया और लागू करने की प्रक्रिया एक feedback loop में जुड़ी होती है, जबकि LLMs में training और inference पूरी तरह अलग हैं। जब हम थोड़ा और “सीखा हुआ” नया model deploy करते हैं, तो पुराने model को फेंक देते हैं। LLMs में inference ही learning का अंत है। मुझे लगता है कि AI के बारे में सबसे आम ग़लतफ़हमी यही है। अगर आप यह मान बैठते हैं कि LLM सीख रहे हैं, तो AGI बहुत जल्दी आने का भ्रम पालना आसान हो जाता है.
Deepseek के उदाहरण की तरह, reinforcement learning का उपयोग करके LLM की performance को refine किया जा सकता है.
अगर user की प्रतिक्रिया (positive/negative) के आधार पर LLM को फिर से train किया जा सके तो? मैं यह कल्पना कर रहा हूँ कि input और output data को feedback loop में डाला जा सकता है या नहीं.
काश कोई ऐसा विशेषज्ञ, जिसे LLMs को “field में” लगातार सिखाने की दिशा—यानी code agent को समय के साथ codebase सीखने देने—पर चल रहे research की स्थिति और सीमाएँ (cost? model collapse? कुछ और?) सच में अच्छी तरह पता हों, इसे व्यवस्थित करके समझाए। बड़े research labs यह ज़रूर आज़मा रहे होंगे, लेकिन आम user के नज़रिए से ऐसी बातें ज़्यादा सुनने को नहीं मिलतीं। अभी तो फ़ोकस RL-आधारित बेहतर training methods पर ही दिखता है, और जो training में नहीं सीखा गया उसे बाद में context में ठूँस देने का चलन ज़्यादा है। लेकिन मुझे लगता है कि अनुभव-आधारित real-time self-learning की अनुपस्थिति ही AGI से असली विभाजन रेखा है.
continual learning के लिए फिलहाल कोई चुभता हुआ समाधान मौजूद नहीं है। compute resources, model collapse, forgetting जैसी कई वजहों का ज़िक्र सही है। एकमात्र तरीका यही है: 1) model train करो 2) नया data जोड़ो 3) पूरे model को फिर से train करो 4) दोहराओ। इसी तरह करना पड़ता है। समय के लिहाज़ से भी किसी भी तरीके की पूरी गारंटी नहीं है। CL क्षेत्र में सचमुच कोई “असली” जवाब नहीं है। model के representation space को बढ़ाते हुए, पुराने representation space को जितना हो सके वैसा ही बनाए रखना पड़ता है, और दोनों काम साथ में करना लगभग असंभव है। nervous systems वाले जीव इसे बहुत आसानी से कर लेते हैं, लेकिन AI के लिए यह काम बेहद कठिन है। मेरे हिसाब से artificial intelligence को भी शायद “sleep” या “rest” जैसी किसी concept की ज़रूरत होगी.
मैं विशेषज्ञ नहीं हूँ, लेकिन मुझे लगता है privacy issues भी बड़ी भूमिका निभाते हैं। continual learning करने के लिए traffic या cost की वजह से यह user-level पर नहीं बल्कि aggregate स्तर पर करना पड़ेगा, और तब sessions के बीच information leakage का जोखिम पैदा होगा। AGI के सामने सबसे बड़ी बाधा safe continual learning का तरीका ढूँढना ही है—इस बात से मैं पूरी तरह सहमत हूँ.
reliability का मुद्दा भी बड़ा है। automated evaluation पर भरोसा कम होने की वजह से, automated continuous training version को तब तक सीधे deploy नहीं किया जाता जब तक यह पुष्टि न हो जाए कि performance सच में सुधरी है। अंत में कई updates को एक साथ जोड़कर final check (“vibe check”) के बाद ही production में लाया जाता है.
सबसे स्पष्ट समस्याओं में से एक यह है कि LLM की continual finetuning आसानी से “alignment” को बिगाड़ सकती है। नतीजतन stability और safety सुनिश्चित नहीं रहती.
मुझे लगता है सबसे साफ़ अड़चन catastrophic forgetting की समस्या है.
मेरा CPU एक neural-net processor, learning computer है। लेकिन जब Skynet मुझे अकेले भेजता है, तो switch को read-only पर कर देता है (Terminator reference) — यह याद आ गया.
code और examples के साथ आधिकारिक वेबसाइट गाइड [SEAL project page]
Villalobos et al. [75] के अनुमान के मुताबिक, 2028 तक frontier LLMs खुले तौर पर उपलब्ध सारे मानव-लिखित text पर अपनी सीमा तक पहुँच जाएंगे। दावा यह है कि यह “data wall” synthetic data augmentation की ज़रूरत को बढ़ावा देगा। जब web-scale corpus खत्म होने लगेगा, तब आगे बढ़ने के लिए models को खुद नए high-efficiency training signals generate करने में सक्षम होना पड़ेगा। निष्कर्षतः, विचार यह है कि SEAL synthetic-data generator model को meta-training के ज़रिए ताज़ा data बनाना सिखाए, जिससे future models की pretraining की जा सके और उनकी efficiency बेहतर हो। 2028 ज़्यादा दूर नहीं है, इसलिए यह काफ़ी insightful लगता है.
ऐसा लगता है कि “forgetting correctly” अब “learning correctly” से भी ज़्यादा महत्वपूर्ण समस्या बनता जा रहा है। नई facts को जल्दी सीखने में काफ़ी प्रगति हुई है, लेकिन सीमित capacity के भीतर कम महत्वपूर्ण जानकारी को कुशलता से हटाने की तकनीक अभी बहुत पीछे है। “सही तरह भूलना” मानव मस्तिष्क बहुत अच्छी तरह करता दिखता है, और मैं जानना चाहता हूँ कि यह वास्तव में कैसे काम करता है.
मैं इस बात से सहमत नहीं हूँ कि इंसान “सही तरह भूलने” में अच्छे हैं। सच कहूँ तो मुझे नहीं लगता कि इंसानों के पास कोई असाधारण system है। मेरा मानना है कि मस्तिष्क की capacity इतनी बड़ी है कि वह नई जानकारी के लिए जानबूझकर जगह खाली नहीं करता; बल्कि पुरानी, ग़लत या बाधक जानकारी नई learning में दखल देने लगे तभी उसे भुलाया जाता है.
मुझे लगता है learning और spaced-repetition का बहुत गहरा संबंध है। यह Anki जैसे learning tools से जुड़ा है, लेकिन असली दुनिया खुद spaced-repetition है—दिन-रात, मौसम, बार-बार जाने वाली जगहें, अक्सर मिलने वाले लोग आदि। मैं सोच रहा हूँ कि शायद इस concept का कोई “reverse” भी हो सकता है.
मेरे research में यह सामने आया कि LLMs आंतरिक data को “छिपाते” हैं। वे बस “भूलते” नहीं हैं; बाद की अतिरिक्त training के दौरान वह जानकारी फिर सतह पर आ सकती है। इसलिए यदि model training के समय पूरे memory state को लगातार check न किया जाए, तो आंशिक निरीक्षण की अपनी सीमाएँ हैं.
क्या यह least-recently-used जैसा कुछ हो सकता है? मैं परीक्षण के तौर पर अपने दिमाग में यही प्रयोग कर रहा हूँ। शायद इसी वजह से यह क्षेत्र इतना दिलचस्प है.
ऊपर-ऊपर से देखने पर यह LoRA adapter को finetune करके base model में merge करने वाला framework लगता है। यह HuggingFace के PeftModel में adapter को base model में integrate करने वाली “merge_and_unload” feature का उपयोग कर रहा है… मुझे समझ नहीं आ रहा कि इसमें नया क्या है.