भाषा मॉडलों को समझने योग्य घटकों में विभाजित करना

(anthropic.com)

1 पॉइंट द्वारा GN⁺ 2023-10-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Anthropic ने छोटे Transformer भाषा मॉडल में अलग-अलग न्यूरॉन की तुलना में अधिक आसानी से समझ आने वाले feature खोजने पर काम किया है, ताकि neural network के अंदरूनी हिस्सों को समझने योग्य इकाइयों में बांटा जा सके
एक अकेला न्यूरॉन academic citation, English conversation, HTTP request और Korean text जैसे असंबंधित संदर्भों में साथ-साथ सक्रिय हो सकता है, इसलिए उसे मॉडल के व्यवहार से स्थिर रूप से जोड़ना कठिन है
इस शोध में 512 न्यूरॉन वाली एक layer को 4,000 से अधिक feature में विभाजित किया गया, जिससे DNA sequence, कानूनी शैली, HTTP request, Hebrew text और nutrition facts label जैसी विशेषताएं अलग-अलग सामने आईं
blind human evaluation और LLM-आधारित स्वचालित interpretability मूल्यांकन में feature, न्यूरॉन की तुलना में अधिक समझने योग्य निकले, और किसी विशेष feature को कृत्रिम रूप से सक्रिय करने पर मॉडल का व्यवहार भी अनुमानित तरीके से बदला
अगर अलग-अलग मॉडलों में सीखे गए feature अधिकतर सार्वभौमिक हैं, तो इस approach को बड़े frontier model तक बढ़ाने की चुनौती विज्ञान से ज्यादा engineering की समस्या बन जाती है

neural network की व्याख्या कठिन क्यों है

neural network में इंसान नियमों को सीधे program नहीं करता, बल्कि वे डेटा से सीखते हैं, और training के दौरान लाखों से लेकर अरबों parameters अपडेट होते हैं
प्रशिक्षित network की गणितीय गणनाओं को ट्रैक किया जा सकता है
- हर न्यूरॉन सरल arithmetic operation करता है
- लेकिन वे operations देखे जाने वाले व्यवहार तक क्यों पहुंचते हैं, यह स्पष्ट नहीं होता
यह अपारदर्शिता failure mode का निदान, उन्हें ठीक करने का तरीका समझना, और मॉडल की safety का प्रमाणन कठिन बना देती है

अलग-अलग न्यूरॉन स्थिर व्याख्यात्मक इकाई नहीं हैं

neuroscience भी मानव व्यवहार के biological आधार को समझने की ऐसी ही समस्या से जूझती है, लेकिन artificial neural network में प्रयोग करना कहीं आसान है
- सभी न्यूरॉन की activation को एक साथ रिकॉर्ड किया जा सकता है
- न्यूरॉन को silence करना या stimulate करना संभव है
- संभावित input के लिए network की प्रतिक्रिया को test किया जा सकता है
फिर भी अलग-अलग न्यूरॉन का network के व्यवहार से एकसमान संबंध नहीं होता
- छोटे भाषा मॉडल का एकल न्यूरॉन academic citation, English conversation, HTTP request और Korean text जैसे कई असंबंधित संदर्भों में सक्रिय होता है
- पारंपरिक vision model का एकल न्यूरॉन बिल्ली के चेहरे और कार के अगले हिस्से दोनों पर प्रतिक्रिया करता है
एक ही न्यूरॉन activation संदर्भ के अनुसार अलग अर्थ रख सकती है

feature के जरिए मॉडल को विभाजित करने का approach

शोधपत्र Towards Monosemanticity: Decomposing Language Models With Dictionary Learning यह बताता है कि अलग-अलग न्यूरॉन से बेहतर विश्लेषण इकाई मौजूद हो सकती है
यह इकाई, यानी feature, न्यूरॉन activation के pattern या उनके linear combination के बराबर है
Anthropic ने छोटे Transformer मॉडल में ऐसे feature खोजने वाला एक तंत्र बनाया
यह approach जटिल neural network को समझने योग्य हिस्सों में बांटने का रास्ता है, और neuroscience, machine learning तथा statistics में high-dimensional system को समझने के पुराने काम पर आधारित है

512 न्यूरॉन को 4,000 से अधिक feature में विभाजित करना

एक Transformer भाषा मॉडल में 512 न्यूरॉन वाली layer को 4,000 से अधिक feature में विभाजित किया गया
विभाजित feature अलग-अलग गुणों को स्वतंत्र रूप से दर्शाते हैं
- DNA sequence
- कानूनी भाषा
- HTTP request
- Hebrew text
- nutrition facts label
मॉडल के ऐसे अधिकांश गुण केवल अलग-अलग न्यूरॉन activation देखने से सामने नहीं आते

व्याख्येयता की जांच

blind human evaluator ने feature और न्यूरॉन की interpretability को score दिया
- feature को न्यूरॉन की तुलना में काफी अधिक score मिला
LLM का उपयोग करके स्वचालित interpretability मूल्यांकन भी किया गया
- बड़ा भाषा मॉडल छोटे मॉडल के feature के लिए संक्षिप्त विवरण बनाता है
- दूसरा मॉडल केवल उस विवरण के आधार पर feature activation का कितना अच्छा अनुमान लगाता है, इसे score किया जाता है
- इस मूल्यांकन में भी feature को न्यूरॉन से अधिक score मिला
नतीजतन, feature activation और मॉडल व्यवहार पर उसके downstream प्रभाव को एकसमान ढंग से समझा जा सकता है, इसके समर्थन में और प्रमाण मिलते हैं

feature का उपयोग करके मॉडल steering

feature, मॉडल को लक्षित तरीके से steer करने का साधन भी देते हैं
किसी खास feature को कृत्रिम रूप से सक्रिय करने पर मॉडल का व्यवहार अनुमानित ढंग से बदलता है
इसलिए feature केवल अवलोकन की इकाई नहीं, बल्कि मॉडल के व्यवहार को प्रभावित करने वाले आंतरिक घटक के रूप में भी देखे जा सकते हैं

सार्वभौमिकता और resolution नियंत्रण

सीखे गए feature अलग-अलग मॉडलों के बीच काफी हद तक सार्वभौमिक हैं
- एक मॉडल के feature पर किया गया अध्ययन दूसरे मॉडल पर भी सामान्यीकृत हो सकता है
सीखे जाने वाले feature की संख्या समायोजित कर मॉडल को देखने की resolution बदली जा सकती है
- छोटे feature set में विभाजन करने पर समझने में आसान, मोटा दृष्टिकोण मिलता है
- बड़े feature set में विभाजन करने पर अधिक सूक्ष्म स्तर पर मॉडल के बारीक गुण दिखाई देते हैं
संबंधित विवरण resolution change प्रयोग से जुड़ता है

AI safety और अगली चुनौती

यह काम Anthropic के mechanistic interpretability शोध निवेश का परिणाम है, और AI safety के लिए दीर्घकालिक शोध दिशाओं में से एक है
अलग-अलग न्यूरॉन का व्याख्यायित न हो पाना भाषा मॉडल को यांत्रिक रूप से समझने में बड़ी बाधा था
न्यूरॉन समूहों को समझने योग्य feature में विभाजित करने से इस बाधा को पार करने की संभावना बनती है
दीर्घकाल में यह मॉडल के व्यवहार को भीतर से monitor और steer करने, तथा व्यवसायिक और सामाजिक अपनाने के लिए जरूरी safety और reliability बढ़ाने से जुड़ सकता है
अगली चुनौती छोटे मॉडल में सफल इस तरीके को बहुत बड़े और जटिल frontier model तक बढ़ाना है
- बड़े भाषा मॉडलों की व्याख्या में अगली बड़ी बाधा पहली बार विज्ञान से अधिक engineering के करीब मानी जा रही है
अधिक जानकारी Towards Monosemanticity: Decomposing Language Models With Dictionary Learning में देखी जा सकती है

1 टिप्पणियां

GN⁺ 2023-10-09

Hacker News की राय

हाल ही के एक दूसरे पेपर से तुलना करता एक उपयोगी लेख संयोग से मिला, जो कुछ मुख्य निष्कर्षों को लगभग समर्थन देता लगता है। शायद वह तुलना-लेख उसी दूसरे पेपर के लेखक ने लिखा है: https://www.lesswrong.com/posts/F4iogK5xdNd7jDNyw/comparing-...
संयोग से मैं इसे एक side project के तौर पर लगभग वैसा ही कर रहा था। यह शुद्ध जिज्ञासा से शुरू हुआ था, और बिल्कुल समान नहीं है, लेकिन मैं एक खास LLM के कई सावधानी से calibrated outputs लेकर उनके पीछे संभावित parameters के set का अनुमान लगाने वाला algorithm निखार रहा हूं
मुझे उम्मीद थी कि देखे गए जैसे parameter clusters मिलेंगे। अनौपचारिक रूप से मैं इस समस्या को “LLM back-calculation” कहता हूं, और जाहिर है इसे हल करना आसान नहीं है। फिर भी यह पूरी तरह असंभव नहीं है, और अब तक मुझे काफी अच्छे approximations मिले हैं
लिंक किए गए manuscript के आखिर में यह परिकल्पना भी दिलचस्प है कि “कुछ features दरअसल high-dimensional feature manifolds हैं, और dictionary learning शायद उनका approximation कर रही है।” जो चीज़ continuous और smooth space जैसी behave करती है, उसमें जरूरत के हिसाब से जितने चाहें manifolds define किए जा सकते हैं—इस मायने में बात सही है। सख्त औपचारिकताओं को छोड़ दें तो, असल में ऐसा ही हो रहा है और मुझे लगता है कि इस समस्या को देखने का सही framework यही है
यहां से मिलने वाली चौंकाने वाली insight यह है कि इस LLM space के भीतर अलग-अलग manifolds को जोड़ने वाले transition functions का conceptual counterpart क्या है। उसे देखकर आपका दिमाग इसलिए नहीं फटेगा कि वह जटिल है, बल्कि इसलिए कि वह असाधारण रूप से सरल है
- यहां “transition function” से आपका ठीक-ठीक क्या मतलब है, थोड़ा और समझा सकते हैं?
- यह शुरू करते समय आपने किस approach से शुरुआत की, यह जानना चाहूंगा। यह भी और सीखना चाहता हूं कि LLM कैसे काम करते हैं
- क्या आपका मतलब hierarchical से था? या मैं बात पूरी तरह miss कर रहा हूं
यह alignment research में बड़ी प्रगति जैसा दिखता है। अब तक बड़ी समस्या यह थी कि LLM समझने में मुश्किल numbers के ढेर थे, और अंदर क्या हो रहा है इसके बारे में हमें लगभग कुछ पता नहीं था
अगर यह technique बड़े scale तक extend होती है, तो Anthropic ने उस समस्या को काफी हद तक ठीक कर दिया है। अलग-अलग neuron groups असल में क्या करते हैं यह पता लगाया जा सकता है, और उसका इस्तेमाल LLM के behavior को control करने में किया जा सकता है। यह अनजाने में misaligned AI को रोकने में मदद कर सकता है
- मुझे तो यह pruning के लिए अच्छा सुराग ज्यादा लगता है
- “सीखे गए features अलग-अलग models के बीच भी काफी हद तक universal होते हैं, इसलिए एक model के features का अध्ययन कर मिली सीख दूसरे models पर भी generalize हो सकती है” वाला हिस्सा मैं और विस्तार से सुनना चाहता था
  क्या इसका मतलब है कि same training data पर train करने पर उन्हें वही feature recognizers मिले? या कुछ और? यह कुछ तो बताता है, लेकिन ठीक-ठीक क्या बताता है यह अस्पष्ट है
सोच रहा हूं कि neural network में हाथ से programmed components डालने पर क्या होगा। DNA sequence detection जैसे simple components शायद weights सीधे set करके डाले जा सकते हैं
इसी तरह neural network को math components भी दिए जा सकते हैं। Training के दौरान क्या network ऐसे pre-defined components को खोजकर इस्तेमाल करेगा, या उन्हें ignore करके DNA sequence detect करने का अपना ही तरीका नए सिरे से बनाएगा?
- अगर आप और खोजना चाहें, तो इस idea का इतिहास और उपयोग feature engineering कहलाता है
  Tokenization भी इसी का एक रूप है। क्योंकि इसमें data को पहले से transform किया जाता है ताकि model को वे patterns खुद न सीखने पड़ें जिन्हें हम महत्वपूर्ण जानते हैं
- Transformer को manually program किया जा सकता है: https://srush.github.io/raspy/
  हालांकि पता नहीं इसे model के अंदर integrate किया जा सकता है या नहीं। मुझे लगता है ऐसी चीजें ambiguous नहीं होतीं, इसलिए वे learned neurons की तुलना में कहीं ज्यादा “space” घेरती हैं, और अंततः space की कमी पड़ सकती है
- इसे किसी layer के input के हिस्से के रूप में speculative input transformations जोड़ने और फिर network को यह तय करने देने के रूप में भी देखा जा सकता है कि वह transformation इस्तेमाल करे या नहीं। यह CNN की convolution layer जैसा है, लेकिन बहुत ज्यादा domain-specific रूप में
  हालांकि इन अजीब layers पर कितना research हुआ है, यह मुझे ठीक से नहीं पता
- कुछ use cases में जहां accuracy बहुत महत्वपूर्ण है, computation के लिए hand-written code चुना जा सकता है। इससे किसी खास task को LLM पर छोड़ने के बजाय इंसान द्वारा बनाए गए method की efficiency पर भरोसा किया जा सकता है
  हालांकि यह अभी unclear है कि यह सीधे network में integrate होगा, या LLM द्वारा इस्तेमाल किया जाने वाला tool बनेगा। दिलचस्प बात यह है कि यह विकल्प कुछ वैसा ही दिखता है जैसे मानव मस्तिष्क को Neuralink जैसी चीज़ से augment करना या बस उसे calculator पकड़ा देना
उम्मीद है कि इस तरह की research बहुत छोटे और efficient, लेकिन precisely adjustable और steerable models बनाने के तरीके तक पहुंचेगी
अगर देखा जा सके कि हर हिस्सा क्या करता है, तो सिद्धांततः desired features का set ही बनाने का तरीका मिल सकता है। या redundant capacity वाले features को adjust किया जा सकता है
Features का अध्ययन करते-करते शायद हम knowledge को एक बेहद समृद्ध और बारीकी से defined knowledge graph जैसे रूप में distill करने के point तक पहुंच सकते हैं
- Anthropic शायद एक multi-dimensional tightrope पर चल रहा है। वे AI safety चाहते हैं, और शायद यह भी नहीं चाहेंगे कि कोई भी powerful model पा जाए
  लेकिन अगर उनकी research results Meta या कई Discord groups में absorb हो गए, तो आज के झबरे-से LLMs मजबूत competitors में बदल जाएंगे, और हर किसी को उस power तक access मिल जाएगा। कौन सा बेहतर है, इस पर मेरा बहुत मजबूत विश्वास नहीं है, लेकिन मैं थोड़ा open models की तरफ झुकता हूं
  आखिर हम जैसे सामान्य लोगों को भी पहले से computers, latest CPUs, internet जैसी चीजें इस्तेमाल करने की अनुमति है। Fraud जैसे बुरे काम, और उससे भी बुरी चीजें होती हैं, लेकिन मुझे लगता है यह लोगों की क्षमताओं को सीमित करने से बेहतर है
एक विशाल model मस्तिष्क के काम करने का तरीका नहीं है। यह org chart के काम करने का तरीका भी नहीं है
LLM का मौजूदा compute density पर इतनी capability दिखाना एक मजबूत संकेत है कि productive knowledge worker बनाने का task पहले ही excess potential वाले क्षेत्र में पहुंच चुका है
Missing piece LLM की progress नहीं, बल्कि LLM management है। असली बात यह है कि internally adversarial LLM org chart मुझे report करे, और उसके भीतर trust build किया जाए
- ऐसे systems के काम करने का तरीका बेहद inefficient लगता है
  हम हर बार cookbook पढ़ते समय astrophysics model को फिर से evaluate नहीं करते
सोचता हूं कि मानव मस्तिष्क का हर neuron कितना polysemantic होता है। जो चीज़ सच में चाहिए, और शायद मानव मस्तिष्क में हो भी सकती है, वह high-information monosemantic neural network जैसा लगता है—यानी feature-based, concept-based, macro-pattern-based network
अगर polysemantic neurons हों भी, तो वे शायद अपने feature के भीतर similar या same information share करते होंगे ताकि space efficiency और computational efficiency मिले। जबकि इन Transformer models में ऐसा लगता है जैसे एक ही network पर लाखों मानव मस्तिष्कों को overlay कर दिया गया हो, और training set की सारी features को किसी तरह average करके unique neurons में बदल दिया गया हो। इससे naturally बहुत बड़ा “brain” बनता है
Paper कहता है कि network के भीतर monosemantic neurons अच्छी तरह काम नहीं करते, लेकिन मेरी intuition है कि शायद वे बहुत “high-precision” हैं और feature level पर पर्याप्त information encode नहीं करते। Features low-dimensional होते हैं, और monosemantic high-dimensional neurons बहुत कम information ही encode कर सकते हैं। हालांकि यह मानव मस्तिष्क की सीमित जानकारी के आधार पर मेरी सोच है, इसलिए शायद कई similarities हों जिनके बारे में मुझे पता नहीं
यह सचमुच शानदार लगता है। ऐसा दिखता है कि सभी LLMs इन common features के आसपास converge कर रहे हैं
एक non-expert के रूप में मेरी समझ यह है कि trained model एक symbol से अगले symbol तक के transition को nodes के बीच probabilities के रूप में describe करता है। इस graph में structure होता है। अगर structure न होता, तो training संभव ही नहीं होती
लेकिन वह structure ऐसा है जैसे कागज की एक sheet पर हर node की definition अलग-अलग रंग की ink से परत-दर-परत ऊपर-ऊपर चढ़ाई गई हो। इस research और LessWrong लेख में आए parent और sibling papers उस floating-point soup के भीतर अलग-अलग रंगों वाले graph components को छांटने जैसे लगते हैं

भाषा मॉडलों को समझने योग्य घटकों में विभाजित करना

neural network की व्याख्या कठिन क्यों है

अलग-अलग न्यूरॉन स्थिर व्याख्यात्मक इकाई नहीं हैं

feature के जरिए मॉडल को विभाजित करने का approach

512 न्यूरॉन को 4,000 से अधिक feature में विभाजित करना

व्याख्येयता की जांच

feature का उपयोग करके मॉडल steering

सार्वभौमिकता और resolution नियंत्रण

AI safety और अगली चुनौती

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय