1 पॉइंट द्वारा GN⁺ 2024-06-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

σ-GPTs: आत्म-प्रतिगामी मॉडल के लिए एक नया दृष्टिकोण

अवलोकन

  • आत्म-प्रतिगामी मॉडल (GPT परिवार) आमतौर पर एक निश्चित क्रम (अक्सर बाएं से दाएं) में sequence जनरेट करते हैं।
  • यह शोधपत्र दिखाता है कि आउटपुट में positional encoding जोड़कर इस क्रम को हर sample के लिए dynamic रूप से नियंत्रित किया जा सकता है।
  • इसके माध्यम से मनचाहे token subsets का sampling और conditioning किया जा सकता है, और rejection strategy के अनुसार एक बार में कई tokens को dynamic रूप से sample किया जा सकता है।
  • परिणामस्वरूप, model evaluation की संख्या को sub-linear तक घटाया जा सकता है।

मुख्य बातें

  • positional encoding जोड़ना: आउटपुट में positional encoding जोड़कर sequence generation के क्रम को dynamic रूप से नियंत्रित किया जा सकता है।
  • विभिन्न domains में मूल्यांकन: language modeling, path solving, aircraft vertical speed prediction जैसे विभिन्न domains में मूल्यांकन किया गया।
  • दक्षता में वृद्धि: generation के लिए आवश्यक steps की संख्या को एक dimension तक कम करने में सफलता मिली।

GN⁺ की राय

  • तकनीकी नवाचार: मौजूदा fixed order से आगे बढ़कर dynamic order control संभव होने से मॉडल की flexibility और efficiency में बड़ा सुधार होता है।
  • व्यावहारिक अनुप्रयोग: विभिन्न domains में मूल्यांकन के परिणाम संकेत देते हैं कि इस दृष्टिकोण की practical applicability काफी अधिक है।
  • प्रदर्शन में सुधार: sub-linear model evaluation के जरिए प्रदर्शन में बड़ा सुधार संभव है।
  • भविष्य के शोध की दिशा: इस दृष्टिकोण को दूसरे प्रकार के मॉडलों या अधिक जटिल समस्याओं पर लागू करने की संभावना है।
  • आलोचनात्मक दृष्टिकोण: dynamic order control हर स्थिति में हमेशा सर्वोत्तम परिणाम की गारंटी नहीं दे सकता। अतिरिक्त शोध और validation की आवश्यकता है।

1 टिप्पणियां

 
GN⁺ 2024-06-09
Hacker News राय
  • पहली राय: लेखक इनपुट टोकनों को रैंडम तरीके से shuffle करके और दो positional encodings जोड़कर मॉडल को train करता है। इस सरल बदलाव से मॉडल क्रम से स्वतंत्र होकर parallel में टोकन predict कर सकता है।
  • दूसरी राय: यह शोध Taylorformer पेपर जैसा मिलता-जुलता approach इस्तेमाल करता है। यह time-series data जैसी continuous processes की prediction में मददगार है।
  • तीसरी राय: पहले के शोध का citation न होना खलता है। यह शोध पहले ही ICML में प्रस्तुत हो चुका है और इसके लगभग 250 citations हैं।
  • चौथी राय: यह concept image generation models की dynamics जैसा लगता है। पहले बड़ा idea उभरता है और फिर details अपने-आप भरती जाती हैं, यह तरीका उपयोगी लग सकता है।
  • पाँचवीं राय: Twitter पर टेक्स्ट generate होने का एक वीडियो है। (लिंक दिया गया है)
  • छठी राय: इस पेपर की दी हुई functionality बहुत पसंद आई। JSON generation, तय लंबाई की description generation जैसी कई तरह की experiments संभव लगते हैं।
  • सातवीं राय: यह approach computer code generation में खास तौर पर मददगार हो सकता है। बाद में लिखी जाने वाली चीज़ों के आधार पर मौजूदा output बदल सकता है।
  • आठवीं राय: लगता है vision transformer की training को language transformer पर लागू किया गया है। यह vision models के image को tiles में बाँटने और positional encoding जोड़ने के तरीके जैसा है।
  • नौवीं राय: कोड कहाँ है, यह जानने की जिज्ञासा है। dual position और shuffling को पूरी तरह समझ नहीं पाया। positional encoding में concat का इस्तेमाल दिलचस्प है।
  • दसवीं राय: BERT ने sequence में random masking का इस्तेमाल किया था, लेकिन समय क्रमिक होता है।