7 पॉइंट द्वारा brainer 2024-06-07 | 2 टिप्पणियां | WhatsApp पर शेयर करें

• OpenAI भाषा मॉडल के भीतर neural activity को समझने के लिए एक नई scalable विधि पेश कर रहा है, जो GPT-4 के आंतरिक representations को 1.6 करोड़ समझने योग्य patterns में विभाजित करती है.

• Neural networks को सीधे डिज़ाइन नहीं किया गया है और उनमें पहचानने योग्य हिस्सों की कमी होती है, इसलिए उनकी व्याख्या करना कठिन है, जिससे AI safety के बारे में तर्क करना मुश्किल हो जाता है.

• Sparse autoencoders का उपयोग करके neural network में प्रासंगिक "features" की पहचान की जाती है, जो इंसानों के लिए आसानी से समझ आने वाले concepts का प्रतिनिधित्व करते हैं.

• रिसर्च टीम ने उन्नत methodology विकसित की, जिससे state-of-the-art AI models में sparse autoencoders को करोड़ों features तक scale किया गया और smooth तथा predictable scaling का प्रदर्शन किया गया.

• किसी विशेष feature के लिए document activations दिखाने वाले visualizations के माध्यम से features की interpretability प्रदर्शित की गई है.

• समझने योग्य features के उदाहरणों में मानव दोषों से जुड़े phrases, कीमत बढ़ने की प्रवृत्ति, "X and Y" रूप के phrases, machine learning training logs, rhetorical/उत्तेजित प्रश्न, algebraic rings, adenosine और dopamine receptors शामिल हैं.

• रिसर्च टीम interpretability की उस क्षमता को लेकर उत्साहित है, जो model reliability और controllability को बेहतर बना सकती है, लेकिन वह यह भी मानती है कि खोजे गए कई features की व्याख्या करना अभी भी कठिन है और बेहतर validation methods की आवश्यकता है.