GPT-4 से अवधारणाएँ निकालना

(openai.com)

2 पॉइंट द्वारा GN⁺ 2024-06-07 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने language model के अंदरूनी हिस्सों को बेहतर समझने के लिए GPT‑4 के representations को 1.6 करोड़ features में विभाजित करने की एक scalable विधि प्रकाशित की है
मुख्य tool sparse autoencoder है, जो output को प्रभावित करने वाले कम संख्या के activation patterns को इंसानों द्वारा समझी जा सकने वाली अवधारणाओं से जोड़ने की कोशिश करता है
नई विधि ने पिछली तकनीकों की तुलना में अधिक अनुमानित scaling दिखाया, और इसका उपयोग GPT‑2 small तथा GPT‑4 activations पर कई autoencoders को train करने में किया गया
सीमाएँ भी स्पष्ट हैं: कई features अब भी समझना कठिन हैं, और sparse autoencoder से गुज़री GPT‑4 activations का प्रदर्शन लगभग 10 गुना कम training compute वाले मॉडल के स्तर तक ही पहुँचता है
प्रकाशित paper, code, और feature visualization tool आगे के शोध के लिए आधार प्रदान करते हैं, और निकट अवधि में यह जाँचने की योजना है कि वे language model के व्यवहार की monitoring और steering में कितने उपयोगी हैं

neural network के अंदरूनी हिस्सों की व्याख्या करना कठिन क्यों है

वर्तमान में language model के भीतर की neural activity को समझने का तरीका पर्याप्त रूप से स्थापित नहीं है
कार जैसे कृत्रिम उत्पादों को parts के specification के आधार पर design, evaluate, और repair किया जा सकता है, लेकिन neural networks सीधे डिज़ाइन किए गए parts नहीं बल्कि training algorithm का परिणाम होते हैं
इसी कारण neural networks को आसानी से पहचाने जा सकने वाले parts में नहीं तोड़ा जा सकता, और जैसे कार की safety का अनुमान लगाया जाता है, वैसे AI safety को संभालना कठिन है
neural network की व्याख्या करने के लिए पहले ऐसे उपयोगी building blocks खोजने होंगे जो neural computation को समझा सकें

sparse autoencoder दृष्टिकोण

language model के भीतर activations ऐसे patterns में सक्रिय होते हैं जिनका अनुमान लगाना कठिन है, और वे एक साथ कई अवधारणाओं को दर्शाते हुए दिखते हैं
activations dense रूप में दिखाई देते हैं, जहाँ हर input पर कई elements एक साथ सक्रिय हो जाते हैं
वास्तविक दुनिया की अवधारणाओं में आमतौर पर किसी विशेष context में पूरे में से केवल एक छोटा हिस्सा ही प्रासंगिक होता है, इसलिए sparsity महत्वपूर्ण है
sparse autoencoder किसी विशेष output generation के लिए महत्वपूर्ण कम संख्या के features की पहचान करने की एक विधि है
- उम्मीद यह है कि इसकी संरचना उन कुछ अवधारणाओं जैसी होगी जिन्हें इंसान किसी स्थिति को समझते समय मन में रखते हैं
- interpretability को सीधे reward न देने पर भी, features ऐसे sparse activation patterns दिखाते हैं जो इंसानों के लिए समझने योग्य अवधारणाओं से स्वाभाविक रूप से मेल खाते हैं
बड़े language models बहुत बड़ी संख्या में अवधारणाओं को व्यक्त करते हैं, इसलिए frontier model की अवधारणाओं को पर्याप्त रूप से कवर करने के लिए autoencoder भी बहुत बड़ा होना चाहिए

GPT‑4 में मिले बड़े पैमाने के features

OpenAI ने frontier AI models में sparse autoencoders को कई करोड़ features के स्तर तक scale करने की methodology विकसित की है
यह methodology मौजूदा तकनीकों की तुलना में बेहतर scaling returns दिखाती है और इसमें smooth तथा अनुमानित scaling behavior है
feature quality का मूल्यांकन करने के लिए कई नए metrics भी पेश किए गए
इस recipe के साथ GPT‑2 small और GPT‑4 activations पर विभिन्न autoencoders को train किया गया
- GPT‑4 के लिए 1.6 करोड़ features वाला autoencoder train किया गया
feature interpretability की जाँच उन documents को visualize करके की गई जहाँ कोई विशेष feature सक्रिय होता है
- उदाहरणों में मानव की कमियाँ, कीमत बढ़ना, X और Y, training logs, rhetorical questions, algebraic rings, और dopamine-संबंधित features शामिल हैं
- GPT‑4 में “वस्तुओं, विशेषकर मनुष्यों, के flawed होने की अभिव्यक्ति” से जुड़ा feature भी पाया गया
और अधिक features को feature visualization tool में देखा जा सकता है

अभी बाकी सीमाएँ

यह उम्मीद है कि interpretability मॉडल की reliability और steering क्षमता बढ़ा सकती है, लेकिन वर्तमान काम अभी शुरुआती चरण में है
पाए गए कई features अभी भी व्याख्या करना कठिन हैं
- कुछ बिना किसी स्पष्ट pattern के सक्रिय होते हैं
- कभी-कभी ऐसे false activations दिखाई देते हैं जो उस अवधारणा से संबंधित नहीं होते जिसे वे सामान्यतः encode करते हुए लगते हैं
- व्याख्या की वैधता की पुष्टि करने का अच्छा तरीका अभी उपलब्ध नहीं है
sparse autoencoder मूल मॉडल के सभी व्यवहार को capture नहीं कर पाता
- जब GPT‑4 activations को sparse autoencoder से गुज़ारा जाता है, तो प्रदर्शन लगभग 10 गुना कम training compute से train किए गए मॉडल के बराबर मिलता है
- frontier LLM की अवधारणाओं को पूरी तरह map करने के लिए शायद अरबों या खरबों features तक scale करना पड़ सकता है
- बेहतर scaling तकनीकों के बावजूद, ऐसा स्तर अब भी चुनौतीपूर्ण है
sparse autoencoder मॉडल के भीतर एक बिंदु पर features खोज सकता है, लेकिन पूरे मॉडल की व्याख्या के लिए यह केवल एक कदम है
- मॉडल उस feature की गणना कैसे करता है
- बाद के मॉडल भागों में उस feature का उपयोग कैसे होता है
- इन दोनों प्रश्नों को समझने के लिए बहुत अधिक काम की आवश्यकता है

सार्वजनिक सामग्री और अगले कदम

OpenAI ने प्रयोगों और विधियों पर आधारित paper प्रकाशित किया है
GPT‑2 small के लिए पूरा autoencoder संग्रह और उसे उपयोग करने वाला code उपलब्ध कराया है
GPT‑2 और GPT‑4 features किससे संबंधित हो सकते हैं, यह देखने के लिए feature visualization tool भी जारी किया गया है
निकट अवधि में, frontier models पर यह परीक्षण करने की योजना है कि खोजे गए features language model के व्यवहार की monitoring और steering में व्यावहारिक रूप से कितने उपयोगी हैं
दीर्घ अवधि में, लक्ष्य यह है कि interpretability मॉडल की safety और robustness का अनुमान लगाने के नए तरीके दे, और शक्तिशाली AI models के व्यवहार पर बेहतर आश्वासन देकर भरोसा काफ़ी बढ़ाए

1 टिप्पणियां

GN⁺ 2024-06-07

Hacker News टिप्पणियाँ

शुरुआती उदाहरणों में से एक GPT-4 feature: ends of phrases related to price increases है, लेकिन 5 प्रतिक्रियाओं में से 2 का कीमत बढ़ने से कोई संबंध नहीं दिखता
उदाहरण के लिए, इसमें ऐसा वाक्य शामिल है जिसमें कच्चे तेल की कीमत गिरने की बात है, या लॉन्ड्री इनवॉइस का वाक्य जिसमें contract price का ज़िक्र है
लगता है कुछ गलत समझा गया है, और जबकि संभवतः बहुत से उदाहरण रहे होंगे, यह जानने की जिज्ञासा है कि आखिर ऐसे उदाहरण ही क्यों चुने गए
- ध्यान देना चाहिए कि ज़्यादातर उदाहरणों में हरे रंग का highlight counter नहीं है
  हरे रंग का highlight small losses. KEEPING SCORE: The Dow Jones industrial average rose... जैसे वाक्यों में दिखाई देता है, और बाकी वाक्य शायद यह contrast दिखाने के लिए हैं कि यह neuron कितने specific pattern पर प्रतिक्रिया करता है
यह सचमुच शानदार है, और लगता है कि यह लंबे समय से प्रतीक्षित deep semantic search की दिशा में जा रहा है
दस्तावेज़ों को “price increases” जैसी concept से filter करना, या “rhetorical question” जैसे उच्च-स्तरीय concept से खोजना, ये उदाहरण अच्छे लगे
जिज्ञासा है कि rhetorical question के उदाहरणों पर मॉडल को train या fine-tune करके उसे दस्तावेज़ों में ढूँढने के तरीके की तुलना में यह कैसा है
input देकर जवाब generate कराने के बजाय केवल neural activation देखने का तरीका शायद ज़्यादा तेज़ या सटीक हो सकता है
- Exa इस तरह की चीज़ पर काम कर रहा है
  इस तरीके से कुछ दिलचस्प नतीजे मिले हैं, लेकिन अभी यह इतना अच्छा नहीं लगता
  https://exa.ai/search?c=all
दिलचस्प है, और इससे Anthropic द्वारा Claude 3 Sonnet के साथ किया गया मिलता-जुलता काम याद आता है
[0] https://transformer-circuits.pub/2024/scaling-monosemanticit...
- वेबपेज से ऐसा काफ़ी ज़ोरदार संकेत मिलता है मानो sparse autoencoder OpenAI ने इस प्रोजेक्ट के लिए ईजाद किया हो
  वेबपेज पर citation नहीं है और paper के भीतर source दबा दिया गया है, यह काफ़ी अजीब है
- तरीका वही है, और यह ज़्यादा OpenAI द्वारा Anthropic के शोध को अपने मॉडल पर लागू करने जैसा है
- ऐसी भी बात हुई थी कि इसे train करने में लगभग उतने ही स्तर के compute resources लगे जितने मूल मॉडल को train करने में लगे थे
Anthropic के “Mapping the Mind of a Large Language Model” के तीन हफ़्ते भी पूरे होने से पहले ऐसे नतीजे आना दिलचस्प है
ऐसे प्रयास सचमुच उत्साहजनक हैं, और अब भी अक्सर यह सुनने को मिलता है कि “हमें LLM या deep learning कैसे काम करते हैं, इसका बिल्कुल पता नहीं,” लेकिन ऐसे शोध को देखकर लगता है कि यह कुछ ज़्यादा ही सामान्यीकृत कथन है
जिज्ञासा है कि क्या यह Anthropic की घोषणा और Jan Leike के OpenAI छोड़ने के जवाब में कुछ जल्दबाज़ी में जारी किया गया था
paper का लिंक भी Arxiv पर नहीं जाता और विश्लेषण की गहराई भी काफ़ी कम लगती है, हालांकि हो सकता है इसका उससे कोई संबंध न हो
- लेख में खुद बार-बार ऐसे वाक्य दोहराए गए हैं जैसे “वर्तमान में हम नहीं जानते कि language model के अंदर neural activity की व्याख्या कैसे करें”, “अधिकांश मानव-निर्मित वस्तुओं के विपरीत, हम neural networks की internal workings को अच्छी तरह नहीं समझते”, और “network अच्छी तरह समझा नहीं गया है और इसे पहचानने योग्य हिस्सों में आसानी से विभाजित नहीं किया जा सकता”
  लोग यह क्यों कहते हैं कि मॉडल वह output क्यों देता है, यह हमें अभी नहीं पता, उसका कारण यही है कि जैसा लेख साफ़ कहता है, हमें सचमुच अभी नहीं पता
- जिन अन्य घटनाओं का ज़िक्र किया गया, उनसे अलग भी paper को इसी समय जारी करने की योजना थी
  यह कहना कि हमें अभी भी LLM कैसे काम करते हैं, इसका लगभग कुछ नहीं पता, अब भी मोटे तौर पर सही है
  sparse autoencoder शायद कभी इसे बदल दे, लेकिन वहाँ तक पहुँचने में अभी बहुत समय है
- मेरा मानना है कि इस तरह का शोध उल्टा इस बात को और मज़बूत करता है कि हमें internal behavior की समझ अभी बहुत कम है
  ब्लॉग पोस्ट भी बार-बार कहती है कि यह काम शुरुआती चरण में है और इसकी सीमाएँ बहुत हैं
- source ढूँढना झंझट का काम है, लेकिन Twitter पर किसी ने पता लगाया कि पहला commit 6 महीने पहले का है
  शायद सब लोग San Francisco के उसी माहौल में थे, और यह रुझान पहले से ही पूरे industry में फैल चुका था
- paper का शीर्षक इस तरह संकेत देता है मानो LLM के पास mind हो, और यह बात लेखकों के बारे में बहुत अच्छा संकेत नहीं देती
  “safety” पर भी लगातार अर्थहीन बातें चलती रहती हैं
  अगर वे काम को reproducible बनाने लायक विवरण दिखाएँ तो अच्छा होगा, लेकिन विज्ञापन के लिहाज़ से यह बुरा नहीं है
दूसरे उदाहरण में ऐसा लगता है कि reproduction anatomy के वैज्ञानिक विवरण वाले दस्तावेज़ को sexual content के रूप में वर्गीकृत कर दिया गया
concept link यहाँ है [content warning]: https://openaipublic.blob.core.windows.net/sparse-autoencode...
DocID: 191632
जिज्ञासा है कि यह तरीका मॉडल पर SHAP[0][1] जैसी चीज़ लागू करने की तुलना में कैसे अलग है या बेहतर है
पहली पंक्ति का “वर्तमान में हम नहीं जानते कि language model के अंदर neural activity की व्याख्या कैसे करें” वाला वाक्य तो सीधा गलत लगता है
[0] https://github.com/shap/shap
[1] https://en.wikipedia.org/wiki/Shapley_value#In_machine_learn...
- SHAP काफ़ी अलग चीज़ है
  Shapley analysis मूलतः game theory पर आधारित methodology है और model-agnostic है; यह सिर्फ़ यह देखती है कि input के अलग-अलग हिस्से किसी विशेष prediction में कितना योगदान देते हैं, लेकिन मॉडल अंदरूनी तौर पर कैसे काम करके output बनाता है, यह नहीं बताती
  अगर आपके पास सिर्फ़ callable black box हो, तब भी Shapley values या उनके approximation निकाले जा सकते हैं, लेकिन इससे यह समझ नहीं आता कि मॉडल अंदर से कैसे या क्यों काम करता है
क्या कोई इसे आसान भाषा में समझा सकता है कि यह क्यों महत्वपूर्ण है? 5 साल के बच्चे के स्तर तक नहीं, लेकिन बुनियादी शब्दों में जानना चाहता हूँ
- LLM-आधारित AI में बहुत-सी “features” होती हैं, और ये कुछ हद तक “concepts” जैसी होती हैं
  उदाहरण के लिए, don't शब्द के भीतर apostrophe की अवधारणा से लेकर, शुरुआती अमेरिकी इतिहास के संदर्भ में "George Wash" के बाद आम तौर पर "ington" आने वाले पैटर्न तक इसमें शामिल हो सकता है
  LLM neural network के भीतर ये चीजें software circuit जैसे paths पर map हो जाती हैं
  चूँकि हम यह अच्छी तरह नहीं समझते कि ऐसे features LLM के भीतर कैसे बनते हैं, output देते समय कौन-से circuits सक्रिय होते हैं, और वे वही circuit क्यों follow करते हैं, इसलिए इस हिस्से को debug करना मुश्किल है और model सुधारना भी कठिन हो जाता है
  अगर LLM/AI काफी आगे बढ़ जाए, तो हम यह पहचानना चाहेंगे कि क्या वह जानबूझकर हमें धोखा दे रहा है, लेकिन अभी हम ऐसा नहीं कर सकते
  इसलिए concepts को बनाते और output करते समय neural network के भीतर वास्तव में क्या हो रहा है, इसे समझने की कोशिश करने वाले क्षेत्र को interpretability कहा जाता है
  OpenAI, DeepMind, और Anthropic ने LLM के अंदरूनी circuits को देखने और कुछ features को उजागर करने के तरीके खोज लिए हैं
  वे model से सवाल पूछने के बाद देखते हैं कि अंदरूनी circuit का कौन-सा हिस्सा “on” होता है, और verification के लिए उस circuit को हटाकर देखते हैं कि क्या वह feature response में कम इस्तेमाल होता है
  graphs और highlighted शब्द उन concepts के visual representation हैं जिनके बारे में काफ़ी भरोसा किया जा सकता है
  उदाहरण के लिए, वाक्य के दो हिस्सों को जोड़ने वाले “AND” concept में “AND” शब्द highlighted होगा
  अगर interpretability में रुचि है, तो Neel Nanda सबसे अच्छे स्रोतों में से एक हैं
  हालांकि, उनका approach इस लेख में दी गई OpenAI methodology से अलग है: https://www.neelnanda.io/mechanistic-interpretability
- बड़े models, जैसे diffusion models या transformers के भीतर stored high-level concepts को आम तौर पर एक-दूसरे से अलग करना मुश्किल होता है, और model लगभग black box जैसा होता है
  model क्या जानता है, इसे समझने के लिए काफी research हो रही है, और यह उसी दिशा में एक और प्रगति है
  यह concepts को अधिक आसानी से अलग करने में मदद करता है
  इसके ज़रिए model के भीतर के ज्ञान का विश्लेषण करना, और असंबंधित concepts पर कम असर डालते हुए किसी खास concept को जोड़ने, हटाने या उसकी importance बदलने की संभावना बनती है
  हालांकि, इस खास technique से मिलने वाली precision हमेशा सवालों के घेरे में रहेगी, और कुछ concepts इतने पास-पास होते हैं कि उन्हें अलग करना मुश्किल है, इसलिए यह शायद पूरी तरह perfect नहीं होगा
- खुद ChatGPT के जवाब के अनुसार, यह लेख बताता है कि शोधकर्ता sparse autoencoders का इस्तेमाल करके GPT-4 जैसे जटिल language models के भीतर key features की पहचान और व्याख्या कैसे करते हैं, ताकि उनके अंदरूनी कामकाज को अधिक समझने योग्य बनाया जा सके
  ऐसे विकास model के decision-making process को अधिक सरल और इंसान द्वारा समझे जा सकने वाले हिस्सों में तोड़कर AI safety और reliability बढ़ाने में मदद करते हैं
- कुल मिलाकर, यह मूल रूप से Anthropic के किए हुए काम का अनुसरण है, इसलिए बुनियादी रूप से नया कुछ नहीं है
  यहाँ किया गया काम GPT-4 के भीतर कुछ पहचानने योग्य concepts से मेल खाने वाले patterns ढूँढना था
  लगता है यह काम OpenAI की अब काफी हद तक बिखर चुकी safety team के ज़्यादातर लोगों ने किया था, और हाल में जा चुके co-leads Ilya और Jan Leike के नाम भी इसमें हैं
  नाममात्र के तौर पर इसका उद्देश्य safety है, और इसका मकसद model के चलने के दौरान कुछ खास concepts की activation को बढ़ाने या दबाने में सक्षम होना है
  इसका एक उदाहरण Anthropic का वह demo है जिसमें model को Golden Gate Bridge पर अटका दिया गया था: https://www.anthropic.com/news/golden-gate-claude
  ऐसा काम सिर्फ safety ही नहीं, बल्कि model को खास तरीकों से control करने की functional उपयोगिता भी रखता हुआ लगता है
क्या इसका मतलब यह है कि neural network के output को समझाने के लिए, उसी neural network पर train किया गया autoencoder भी साथ में जारी करना एक अच्छा practice बन सकता है?
अगर Hugging Face के सभी public models के साथ ऐसा attachment हो, तो शायद वह उपयोगी हो सकता है
- लगता है ऐसा encoder किसी खास model पर निर्भर होगा
क्या यह neural networks के लिए fMRI जैसा है?
यानी topic के हिसाब से कौन-से क्षेत्र “on” होते हैं, यह देखा जा सकता है
यह भी दिलचस्प है कि क्या automatically सक्रिय हुए क्षेत्रों का मूल्यांकन करने के लिए कोई evaluation neural network जोड़ा जा सकता है
जैसे सिर्फ fMRI scan से AI ने मरीज जो देख रहा था उसे reconstruct किया था, वैसा यहाँ भी संभव लग सकता है
ऐसे research से उम्मीद की जाने वाली क्षमताओं में से एक है reasoning के दौरान इस्तेमाल होने वाले hotspots की पहचान करना
virtual machine की तरह इन हिस्सों को पूरी तरह या आंशिक रूप से cache करके response time कम किया जा सकता है और जरूरी computation cycles भी घटाई जा सकती हैं

GPT-4 से अवधारणाएँ निकालना

neural network के अंदरूनी हिस्सों की व्याख्या करना कठिन क्यों है

sparse autoencoder दृष्टिकोण

GPT‑4 में मिले बड़े पैमाने के features

अभी बाकी सीमाएँ

सार्वजनिक सामग्री और अगले कदम

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ