1 पॉइंट द्वारा GN⁺ 2024-07-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े भाषा मॉडलों में तर्क: एक ज्यामितीय दृष्टिकोण

  • बड़े भाषा मॉडल (LLM) का विकास: बड़े भाषा मॉडलों के व्यावहारिक अनुप्रयोग के लिए तर्क क्षमता में सुधार महत्वपूर्ण है
  • ज्यामितीय समझ के माध्यम से तर्क क्षमता की खोज: यह शोध बड़े भाषा मॉडलों की ज्यामितीय समझ के जरिए उनकी तर्क क्षमता का अन्वेषण करता है
  • self-attention ग्राफ की density और expressivity का संबंध: LLM की expressivity और self-attention ग्राफ की density के बीच संबंध स्थापित किया गया है
  • intrinsic dimension और expressivity: सैद्धांतिक विश्लेषण और उदाहरणों के माध्यम से यह सिद्ध किया गया है कि इस ग्राफ की density, MLP ब्लॉक के input के लिए intrinsic dimension को परिभाषित करती है। उच्च intrinsic dimension का अर्थ अधिक expressivity है
  • अनुभवजन्य साक्ष्य प्रस्तुत: अनुभवजन्य रूप से दिखाया गया है कि यह ज्यामितीय framework, LLM की तर्क क्षमता को बेहतर बनाने के लिए हाल के तरीकों से जुड़ता है

GN⁺ का सार

  • यह शोधपत्र बड़े भाषा मॉडलों की तर्क क्षमता का ज्यामितीय दृष्टिकोण से विश्लेषण करते हुए मॉडल की expressivity और self-attention ग्राफ की density के बीच संबंध को स्पष्ट करता है
  • यह अध्ययन LLM के प्रदर्शन को बेहतर बनाने के लिए नई कार्यप्रणाली प्रस्तुत करता है और सैद्धांतिक विश्लेषण तथा अनुभवजन्य साक्ष्य के माध्यम से इसकी वैधता साबित करता है
  • ज्यामितीय framework के जरिए LLM की intrinsic dimension को समझने और उसके माध्यम से मॉडल की तर्क क्षमता को मजबूत करने की संभावना प्रस्तुत की गई है
  • यह शोधपत्र AI शोधकर्ताओं और इंजीनियरों को LLM के प्रदर्शन को optimize करने के लिए उपयोगी अंतर्दृष्टि प्रदान करता है

1 टिप्पणियां

 
GN⁺ 2024-07-09
Hacker News राय
  • AI में "bathtub curve" जैसी वैल्यू दिखती है

    • निचले स्तर पर यह autocomplete फीचर की तरह 1-3 लाइन का कोड अच्छी तरह लिख देता है
    • ऊपरी स्तर पर यह काम से जुड़े high-level concepts समझाने में उपयोगी है
    • बीच के स्तर पर यह अच्छी तरह काम नहीं करता
    • कई चरणों वाली योजना लिखते समय, उसके हिस्से आपस में ठीक से मेल नहीं खाते
  • LLM "Mad Libs" गेम जैसा है

    • यह व्याकरण की दृष्टि से सही output बनाता है, लेकिन context की कमी होती है
    • सांख्यिकीय सहसंबंधों के जरिए यह ज़्यादातर अर्थपूर्ण output पैदा करता है
    • लेकिन इसमें "reasoning" नहीं है, यह सिर्फ व्याकरणिक templates और autocomplete है
  • यह दावा भी किया जाता है कि LLM ने विशाल मात्रा के टेक्स्ट के जरिए reasoning क्षमता बनाई है

    • यह मनुष्यों द्वारा लिखे गए reasoning का प्रतिबिंब हो सकता है
    • उदाहरण के लिए, "क्या Romeo को Juliet के बाद किसी और प्रेम की तलाश करनी चाहिए?" जैसे सवालों के जवाब साहित्यिक essays में परिलक्षित होते हैं
  • "reasoning" शब्द की स्पष्ट परिभाषा नहीं है

    • computer scientists, philosophers और anthropologists सभी इसकी अलग-अलग परिभाषा देते हैं
    • अगर इसका मतलब mathematical deductive reasoning या scientific inductive reasoning है, तो LLM में ऐसी क्षमता नहीं है
    • मानव सोच की नकल करने के लिए सिर्फ language pattern matching काफ़ी नहीं है
    • अगर AI को इंसानों की तरह "सोचना" या "reasoning" करना है, तो embodied intelligence की ज़रूरत होगी
  • reasoning और geometry के संबंध पर सवाल

    • यह इस विचार से जुड़ा हो सकता है कि concepts के अपने विशिष्ट geometric shapes होते हैं
  • LLM और reasoning पर जब भी कोई शोध आता है, Yan LeCun प्रतिक्रिया देते हैं

  • पेपर का सारांश

    • आधुनिक neural networks में इस्तेमाल होने वाली multilayer perceptron (MLP) layers input को कई क्षेत्रों में विभाजित करती हैं
    • एक single MLP layer जितने क्षेत्रों में विभाजन कर सकती है, उनकी संख्या input की intrinsic dimension के अनुसार घातीय रूप से बढ़ती है
    • इससे MLP layer की approximation क्षमता में बड़ा सुधार हो सकता है
    • Transformer architecture में MLP layer का input self-attention layer होता है
    • self-attention layer की graph density, self-attention layer की intrinsic dimension से मज़बूती से सहसंबद्ध होती है
    • अधिक dense self-attention layers, MLP को बेहतर काम करने में मदद करती हैं
    • किसी दिए गए सवाल में context जोड़ने से LLM का प्रदर्शन बेहतर होता है
    • Transformer architecture में approximation error जमा हो सकती है
    • अगर high intrinsic dimension वाला input दिया जाए, तो MLP layers अधिक सटीक विभाजन दे सकती हैं
    • अगर यह नतीजा बना रहता है, तो यह LLM जैसे neural networks को optimize करने के तरीकों पर insight देता है