- यह लेख डेटा पर training, नियमों पर नहीं, और neural network को समझने की जटिलता पर चर्चा करता है, जिसके कारण लाखों या अरबों parameters अपडेट होते हैं.
- चुनौती यह समझने की है कि प्रत्येक neuron का गणितीय operation देखे गए व्यवहार का कारण क्यों बनता है, जिससे failure modes का निदान और सुधार करना तथा model safety को प्रमाणित करना कठिन हो जाता है.
- यह लेख artificial neural network को समझने और मानव व्यवहार की जैविक बुनियाद को समझने के बीच समानताएं दर्शाता है.
- लेखक बताते हैं कि individual neurons का network behavior के साथ कोई सुसंगत संबंध नहीं होता, और एक single neuron कई असंबंधित contexts में सक्रिय हो जाता है.
- "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" नामक शोधपत्र यह प्रस्तावित करता है कि individual neurons की तुलना में विश्लेषण की एक बेहतर इकाई मौजूद है, जिसे feature कहा जाता है, और यह neuron activations के patterns से मेल खाती है.
- लेखक 512 neurons वाली एक layer को 4000 से अधिक features में विभाजित करते हैं, जो DNA sequences, legal language, HTTP requests, Hebrew text, nutrition statements जैसी विविध चीजों का प्रतिनिधित्व करते हैं.
- पाया गया कि ये features, blind human evaluators द्वारा सत्यापित किए जाने पर, model के neurons की तुलना में कहीं अधिक interpretable हैं.
- लेखक "automatic interpretation" approach का भी उपयोग करते हैं, जिसमें एक बड़े language model से छोटे model के features के लिए छोटे descriptions बनवाए जाते हैं, और इन्हें neurons की तुलना में अधिक scores मिलते हैं.
- features, model को tune करने का एक goal-directed तरीका प्रदान करते हैं, और artificial activations से model behavior में पूर्वानुमेय बदलाव आते हैं.
- सीखे गए features अलग-अलग models के बीच काफी हद तक universal हैं, जो यह संकेत देता है कि एक model में features का अध्ययन करके मिले सबक दूसरे models पर भी सामान्यीकृत किए जा सकते हैं.
- लेखक इस काम को language models के mechanism को समझने की दिशा में एक महत्वपूर्ण कदम मानते हैं, जो भीतर से model behavior की monitoring और adjustment संभव बनाकर safety और reliability को बेहतर कर सकता है.
- अगली चुनौती इस approach को प्रदर्शित किए गए छोटे model से बड़े और अधिक जटिल models तक बढ़ाना है, और फिलहाल सबसे बड़ी बाधा science नहीं बल्कि engineering है.
अभी कोई टिप्पणी नहीं है.