1 पॉइंट द्वारा GN⁺ 2023-08-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI द्वारा विकसित language model GPT-4 में देखी गई non-determinism पर एक लेख
  • GPT-4/GPT-3.5-turbo temp=0 पर भी non-deterministic हैं, जबकि dense decoder-only models में इसका मतलब पूरी determinism होना चाहिए
  • शुरुआत में non-determinism को संभावित bug या optimized floating-point calculations की non-determinism माना गया था
  • लेखक की नई परिकल्पना: GPT-4 की non-determinism का अधिकांश कारण यह है कि Sparse Mixture of Experts (MoE) architecture sequence-wise determinism लागू नहीं कर पाती
  • Sparse MoE approach fixed-size groups में tokens को route करती है और group के भीतर balance बनाए रखती है, जिससे sequence level पर non-determinism पैदा होती है
  • लेखक ने इस परिकल्पना की जांच के लिए GPT-4 से script लिखने को कहा और देखा कि GPT-4 में बहुत अधिक unique completions आती हैं, जिससे यह पुष्टि हुई कि दूसरे models की तुलना में GPT-4 के कहीं अधिक non-deterministic होने का एक अलग कारण है
  • लेखक यह भी अनुमान लगाते हैं कि GPT-3.5-turbo उसकी speed, non-determinism, और logprobs हटाए जाने की वजह से MoE model हो सकता है
  • इन निष्कर्षों के निहितार्थ महत्वपूर्ण हैं: अगर non-determinism batched inference के साथ Sparse MoE की एक अंतर्निहित विशेषता है, तो यह बात ऐसे models के साथ काम करने वाले हर व्यक्ति के लिए स्पष्ट रूप से सामने आनी चाहिए
  • निष्कर्ष में लेखक का तर्क है कि OpenAI के GPT models में non-determinism को आम तौर पर non-deterministic CUDA-optimized floating-point operations की अशुद्धि पर डाला जाता है, लेकिन मूल कारण Sparse MoE models में batched inference हो सकता है

1 टिप्पणियां

 
GN⁺ 2023-08-06
Hacker News राय
  • GPT-4 की non-determinism उसके Sparse Mixture of Experts (MoE) मॉडल की वजह से होती है.
  • AI/ML सिस्टम में floating-point अशुद्धियाँ आम तौर पर deterministic होती हैं, और अलग-अलग परिणाम state या entropy के अन्य स्रोतों की वजह से हो सकते हैं.
  • पेपर यह सुझाव देता है कि GPT-4 का efficient inference अलग-अलग inputs से tokens को mix करने पर निर्भर हो सकता है, जो non-determinism लाता है और responses की quality को प्रभावित कर सकता है.
  • responses की quality उन concurrent requests की संख्या पर भी निर्भर कर सकती है जो उसी 'expert' allocation के लिए प्रतिस्पर्धा कर रही हों.
  • यह समय के साथ महसूस होने वाली quality degradation को समझा सकता है, और अधिक concurrent usage कम reliable results दे सकता है.
  • GPT-3.5 में MoE मॉडल का उपयोग यह संकेत देता है कि कम संसाधनों से अधिक किया जा सकता है, इसलिए यह open source movement के लिए उम्मीद दे सकता है.
  • अगर batch के भीतर sequences, दूसरे sequences की routing को प्रभावित कर सकते हैं, तो side-channel attack की संभावना पैदा होती है.
  • MoE approach मॉडल के काम करने के दौरान input data के अलग-अलग हिस्सों के लिए मॉडल के अलग-अलग "experts" या भागों को चुनकर probabilistic या random behavior लाती है.
  • थोड़ा अलग context में दो बार process किया गया वही input data, थोड़ा अलग experts के set से consult कर सकता है, जिससे थोड़ा अलग output आ सकता है.
  • भारी load के तहत, experts buffer में उपलब्ध slots के लिए प्रतिस्पर्धा करने वाले tokens की वजह से results बदल सकते हैं.
  • यह expert buffer contention यह भी समझा सकता है कि ChatGPT लंबे code की मांग पर functions की जगह placeholders क्यों लिखता है.