Andrej Karpathy का GPT-4.5 रिव्यू

xguru · 2025-02-28T10:00:02+09:00

आज OpenAI ने GPT-4.5 जारी किया GPT-4 के जारी होने के बाद करीब 2 साल तक इंतज़ार करने की वजह यह है कि यह रिलीज़ सिर्फ़ बड़ा मॉडल ट्रेन करने से मिलने वाले सुधार को मात्रात्मक रूप से मापने का अवसर देती है हर वर्ज़न का "0.5" लगभग 10 गुना अधिक pre-training compute को दर्शाता है GPT मॉडल के विकास का क्रम GPT-1 → लगभग कोई सार्थक वाक्य नहीं बना पाता था GPT-2 → एक अनगढ़ खिलौने जैसे स्तर का GPT-2.5 → व्यावहारिक रूप से छोड़ दिया गया और सीधे GPT-3 पर बढ़ गए GPT-3 → दिलचस्प प्रगति दिखाई GPT-3.5 → इतना आगे बढ़ा कि वास्तविक प्रोडक्ट के रूप में लॉन्च हुआ और ChatGPT बूम शुरू किया GPT-4 → और बेहतर था, लेकिन कोई साफ़ "wow" पॉइंट ढूँढ़ना मुश्किल था खासकर GPT-4 बनाम GPT-3.5 की तुलना करें तो: शब्द चयन अधिक रचनात्मक है और प्रॉम्प्ट की बारीकियों को बेहतर समझता है analogy थोड़ा अधिक सटीक है और humour sense थोड़ा बेहतर है दुर्लभ ज्ञान क्षेत्रों में भी समझ बेहतर हुई और hallucination की आवृत्ति थोड़ी घटी कुल मिलाकर ऐसा लगा जैसे हर चीज़ 20% बेहतर हो गई हो यह मानो पानी का स्तर बढ़ने पर सभी नावों के एक साथ ऊपर उठने जैसा सुधार था GPT-4.5 टेस्ट का अनुभव GPT-4.5 ने GPT-4 की तुलना में 10 गुना अधिक pre-training लिया है और परीक्षण करने पर वही पहले वाला 20% वाला पैटर्न फिर से दिखाई दिया हर चीज़ थोड़ी बेहतर हुई लेकिन कोई ऐसा "स्पष्ट breakthrough point" नहीं है जिसे ठीक-ठीक बताया जा सके फिर भी यह मॉडल सुधार की सामान्य दिशा की ढलान को मापने के लिए एक रोचक और महत्वपूर्ण संकेतक है GPT-4.5 अभी भी "reasoning" मॉडल नहीं है GPT-4.5 पर pre-training, supervised fine-tuning (SFT), RLHF ही लागू किए गए हैं इसलिए गणित, coding आदि जैसे तार्किक reasoning वाले सवालों में सुधार नहीं हुआ इन क्षेत्रों में reinforcement learning (RL) और systematic thinking training की ज़रूरत होती है, और अभी OpenAI का o1 मॉडल सबसे अच्छा प्रदर्शन दिखाता है संभव है कि OpenAI, GPT-4.5 के आधार पर reinforcement learning लागू करके इसे "सोचने वाले" मॉडल में विकसित करे इसके ज़रिए वह गणित, तर्क और coding क्षमता को बेहतर करने की कोशिश करेगा GPT-4.5 की ताकत: EQ तार्किक reasoning नहीं, बल्कि world knowledge, creativity, analogy, humour sense जैसी emotional intelligence (EQ) महत्वपूर्ण होने वाले कामों में सुधार हुआ है इसलिए एक interactive experiment चलाने की योजना है: "GPT-4 बनाम GPT-4.5 तुलना मतदान" humour sense को आँकने वाले 5 प्रॉम्प्ट चुने गए हर प्रॉम्प्ट के लिए GPT-4 और GPT-4.5 के जवाबों की तुलना की जाएगी X(ट्विटर) पर इमेज (प्रॉम्प्ट और जवाब) + पोल फीचर का उपयोग करके प्रयोग चलाया जाएगा 8 घंटे बाद बताया जाएगा कि कौन-सा जवाब किस मॉडल का था

(x.com)

3 पॉइंट द्वारा xguru 2025-02-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

आज OpenAI ने GPT-4.5 जारी किया
GPT-4 के जारी होने के बाद करीब 2 साल तक इंतज़ार करने की वजह यह है कि यह रिलीज़ सिर्फ़ बड़ा मॉडल ट्रेन करने से मिलने वाले सुधार को मात्रात्मक रूप से मापने का अवसर देती है
- हर वर्ज़न का "0.5" लगभग 10 गुना अधिक pre-training compute को दर्शाता है
GPT मॉडल के विकास का क्रम
- GPT-1 → लगभग कोई सार्थक वाक्य नहीं बना पाता था
- GPT-2 → एक अनगढ़ खिलौने जैसे स्तर का
- GPT-2.5 → व्यावहारिक रूप से छोड़ दिया गया और सीधे GPT-3 पर बढ़ गए
- GPT-3 → दिलचस्प प्रगति दिखाई
- GPT-3.5 → इतना आगे बढ़ा कि वास्तविक प्रोडक्ट के रूप में लॉन्च हुआ और ChatGPT बूम शुरू किया
- GPT-4 → और बेहतर था, लेकिन कोई साफ़ "wow" पॉइंट ढूँढ़ना मुश्किल था
खासकर GPT-4 बनाम GPT-3.5 की तुलना करें तो:
- शब्द चयन अधिक रचनात्मक है और प्रॉम्प्ट की बारीकियों को बेहतर समझता है
- analogy थोड़ा अधिक सटीक है और humour sense थोड़ा बेहतर है
- दुर्लभ ज्ञान क्षेत्रों में भी समझ बेहतर हुई और hallucination की आवृत्ति थोड़ी घटी
- कुल मिलाकर ऐसा लगा जैसे हर चीज़ 20% बेहतर हो गई हो
- यह मानो पानी का स्तर बढ़ने पर सभी नावों के एक साथ ऊपर उठने जैसा सुधार था

GPT-4.5 टेस्ट का अनुभव

GPT-4.5 ने GPT-4 की तुलना में 10 गुना अधिक pre-training लिया है
और परीक्षण करने पर वही पहले वाला 20% वाला पैटर्न फिर से दिखाई दिया
हर चीज़ थोड़ी बेहतर हुई
- लेकिन कोई ऐसा "स्पष्ट breakthrough point" नहीं है जिसे ठीक-ठीक बताया जा सके
- फिर भी यह मॉडल सुधार की सामान्य दिशा की ढलान को मापने के लिए एक रोचक और महत्वपूर्ण संकेतक है

GPT-4.5 अभी भी "reasoning" मॉडल नहीं है

GPT-4.5 पर pre-training, supervised fine-tuning (SFT), RLHF ही लागू किए गए हैं
इसलिए गणित, coding आदि जैसे तार्किक reasoning वाले सवालों में सुधार नहीं हुआ
इन क्षेत्रों में reinforcement learning (RL) और systematic thinking training की ज़रूरत होती है, और अभी OpenAI का o1 मॉडल सबसे अच्छा प्रदर्शन दिखाता है
संभव है कि OpenAI, GPT-4.5 के आधार पर reinforcement learning लागू करके इसे "सोचने वाले" मॉडल में विकसित करे
इसके ज़रिए वह गणित, तर्क और coding क्षमता को बेहतर करने की कोशिश करेगा

GPT-4.5 की ताकत: EQ

तार्किक reasoning नहीं, बल्कि world knowledge, creativity, analogy, humour sense जैसी emotional intelligence (EQ) महत्वपूर्ण होने वाले कामों में सुधार हुआ है

इसलिए एक interactive experiment चलाने की योजना है: "GPT-4 बनाम GPT-4.5 तुलना मतदान"

humour sense को आँकने वाले 5 प्रॉम्प्ट चुने गए
हर प्रॉम्प्ट के लिए GPT-4 और GPT-4.5 के जवाबों की तुलना की जाएगी
X(ट्विटर) पर इमेज (प्रॉम्प्ट और जवाब) + पोल फीचर का उपयोग करके प्रयोग चलाया जाएगा
8 घंटे बाद बताया जाएगा कि कौन-सा जवाब किस मॉडल का था