- OpenAI द्वारा विकसित language model GPT-4 में देखी गई non-determinism पर एक लेख
- GPT-4/GPT-3.5-turbo temp=0 पर भी non-deterministic हैं, जबकि dense decoder-only models में इसका मतलब पूरी determinism होना चाहिए
- शुरुआत में non-determinism को संभावित bug या optimized floating-point calculations की non-determinism माना गया था
- लेखक की नई परिकल्पना: GPT-4 की non-determinism का अधिकांश कारण यह है कि Sparse Mixture of Experts (MoE) architecture sequence-wise determinism लागू नहीं कर पाती
- Sparse MoE approach fixed-size groups में tokens को route करती है और group के भीतर balance बनाए रखती है, जिससे sequence level पर non-determinism पैदा होती है
- लेखक ने इस परिकल्पना की जांच के लिए GPT-4 से script लिखने को कहा और देखा कि GPT-4 में बहुत अधिक unique completions आती हैं, जिससे यह पुष्टि हुई कि दूसरे models की तुलना में GPT-4 के कहीं अधिक non-deterministic होने का एक अलग कारण है
- लेखक यह भी अनुमान लगाते हैं कि GPT-3.5-turbo उसकी speed, non-determinism, और logprobs हटाए जाने की वजह से MoE model हो सकता है
- इन निष्कर्षों के निहितार्थ महत्वपूर्ण हैं: अगर non-determinism batched inference के साथ Sparse MoE की एक अंतर्निहित विशेषता है, तो यह बात ऐसे models के साथ काम करने वाले हर व्यक्ति के लिए स्पष्ट रूप से सामने आनी चाहिए
- निष्कर्ष में लेखक का तर्क है कि OpenAI के GPT models में non-determinism को आम तौर पर non-deterministic CUDA-optimized floating-point operations की अशुद्धि पर डाला जाता है, लेकिन मूल कारण Sparse MoE models में batched inference हो सकता है
1 टिप्पणियां
Hacker News राय