OpenAI की नई रिसर्च उपलब्धि: GPT-4 के आंतरिक representations को समझने योग्य patterns में विभाजित करन

• OpenAI भाषा मॉडल के भीतर neural activity को समझने के लिए एक नई scalable विधि पेश कर रहा है, जो GPT-4 के आंतरिक representations को 1.6 करोड़ समझने योग्य patterns में विभाजित करती है.

• Neural networks को सीधे डिज़ाइन नहीं किया गया है और उनमें पहचानने योग्य हिस्सों की कमी होती है, इसलिए उनकी व्याख्या करना कठिन है, जिससे AI safety के बारे में तर्क करना मुश्किल हो जाता है.

• Sparse autoencoders का उपयोग करके neural network में प्रासंगिक "features" की पहचान की जाती है, जो इंसानों के लिए आसानी से समझ आने वाले concepts का प्रतिनिधित्व करते हैं.

• रिसर्च टीम ने उन्नत methodology विकसित की, जिससे state-of-the-art AI models में sparse autoencoders को करोड़ों features तक scale किया गया और smooth तथा predictable scaling का प्रदर्शन किया गया.

• किसी विशेष feature के लिए document activations दिखाने वाले visualizations के माध्यम से features की interpretability प्रदर्शित की गई है.

• समझने योग्य features के उदाहरणों में मानव दोषों से जुड़े phrases, कीमत बढ़ने की प्रवृत्ति, "X and Y" रूप के phrases, machine learning training logs, rhetorical/उत्तेजित प्रश्न, algebraic rings, adenosine और dopamine receptors शामिल हैं.

• रिसर्च टीम interpretability की उस क्षमता को लेकर उत्साहित है, जो model reliability और controllability को बेहतर बना सकती है, लेकिन वह यह भी मानती है कि खोजे गए कई features की व्याख्या करना अभी भी कठिन है और बेहतर validation methods की आवश्यकता है.

OpenAI की नई रिसर्च उपलब्धि: GPT-4 के आंतरिक representations को समझने योग्य patterns में विभाजित करना

2 टिप्पणियां

OpenAI की नई रिसर्च उपलब्धि: GPT-4 के आंतरिक representations को समझने योग्य patterns में विभाजित करना

संबंधित पढ़ाई

2 टिप्पणियां