1 टिप्पणियां

 
GN⁺ 2024-06-07
Hacker News राय
  • दिलचस्प शोध: Anthropic के "Mapping the Mind of a Large Language Model" के बाद जल्दी आया यह शोध दिलचस्प है। बहुत से लोग अब भी कहते हैं कि "हमें नहीं पता कि LLMs/deep learning कैसे काम करते हैं", लेकिन ऐसे शोध उस सामान्यीकरण का खंडन करते हैं.

  • उदाहरण के चयन पर सवाल: GPT-4 के उदाहरणों में कीमत बढ़ने से जुड़ा वाक्यांश वास्तव में कीमत घटने को दिखाता है, इसलिए इसे समझना मुश्किल है। सवाल है कि ऐसा उदाहरण क्यों चुना गया.

  • उन्नत semantic search: दस्तावेज़ में कीमत बढ़ने जैसे concepts को filter करने वाला उदाहरण पसंद आया। यह मॉडल को train करने की तुलना में तेज़ और ज़्यादा सटीक हो सकता है.

  • वर्गीकरण त्रुटि: वैज्ञानिक व्याख्या को erotic content के रूप में classify करने की गलती है। लिंक के ज़रिए इसे देखा जा सकता है.

  • मिलता-जुलता शोध: यह Anthropic के Claude 3 Sonnet शोध की याद दिलाता है.

  • मॉडल की व्याख्या: SHAP जैसे tools लागू करने की तुलना में यह शोध कैसे बेहतर हुआ, इसे लेकर जिज्ञासा है। "हम अभी language models की neural activity को नहीं समझते" वाला दावा गलत है.

  • आसान व्याख्या का अनुरोध: अनुरोध है कि इस शोध की अहमियत को आसान भाषा में समझाया जाए.

  • open model के साथ companion tool: neural network के output को समझाने वाला autoencoder सार्वजनिक करना एक अच्छी practice हो सकती है। यह Hugging Face के सभी open models के लिए उपयोगी companion tool बन सकता है.

  • neural network का fMRI: यह fMRI जैसा है, जिसमें neural network के वे हिस्से देखे जा सकते हैं जो किसी खास विषय पर activate होते हैं। जिज्ञासा है कि क्या एक evaluation neural network जोड़कर इन सक्रिय क्षेत्रों का अपने-आप आकलन किया जा सकता है.

  • sparse embedding से संबंध: यह sparse embedding (Splade आदि) से जुड़ा हो सकता है, और जिज्ञासा है कि क्या इसे hybrid search में इस्तेमाल किया जा सकता है.