- GPT-4.5 के सार्वजनिक होने के साथ OpenAI ने पहले मॉडल का system card जारी किया
- शुरुआती system card में "GPT-4.5 is not a frontier model" यह वाक्य शामिल था
- बाद में आधिकारिक ब्लॉग पोस्ट और अपडेटेड system card से यह वाक्य हटा दिया गया
- लगता है OpenAI के भीतर किसी को यह वाक्य डालने की ज़रूरत महसूस हुई। लेकिन "OpenAI ने इसे रिलीज़ क्यों किया होगा?"
- यह दावा कि यह frontier model नहीं है, उसके सबसे बड़े विरोधाभासों में से एक यह है कि GPT-4.5 आम जनता द्वारा टेस्ट किया जा सकने वाला सबसे बड़ा मॉडल है
- इस स्तर के मॉडल को scale up करने से उन क्षमताओं में कोई साफ़ छलांग नहीं दिखती जिन्हें हम मापते हैं
- GPT-3.5 → GPT-4 का बदलाव ठीक-ठाक(Okay) से अच्छा(Good) था
- GPT-4o → GPT-4.5 का बदलाव बेहतरीन(Great) से बहुत बेहतरीन(Really Great) है
- नवीनतम मॉडलों के बीच अंतर समझना बहुत कठिन है, इसलिए AI में निवेश करने और प्रगति की उम्मीद रखने वाले लोग वास्तविकता से अधिक सुधार मान बैठ सकते हैं
- हम उस मोड़ पर हैं जहाँ scaling की आर्थिक सीमाएँ स्पष्ट दिखने लगी हैं, जबकि अपेक्षित स्तर का बड़ा performance jump नहीं मिला
- Anthropic भी इसी तरह की समस्या झेल रहा है, और यह पुष्टि हुई है कि Claude 3.7 के बाद वह काफी बड़ा मॉडल train करेगा
- GPT-4.5 क्रमिक प्रगति दिखाने वाला मॉडल है, यह पहले की तरह क्रांतिकारी छलांग नहीं है
- यह AI research में इस बात का संकेत है कि सिर्फ pre-training को बढ़ा देना अब पहले जैसा innovation नहीं दे रहा
- OpenAI ने संभवतः GPT-4.5 को लंबे समय से अंदरूनी तौर पर इस्तेमाल किया है, और GPT-4.5 के आधार पर दूसरे मॉडल train करने में इसका उपयोग किया होगा (cutoff date 2023 दिखने से ऐसा लगता है)
GPT-4.5 में अच्छा क्या है
- (यह GPT-4.5 और GPT-4o के parameter count के कुछ अनुमान हैं, और क्योंकि ये leaked जानकारी पर आधारित नहीं हैं, इनमें त्रुटि की गुंजाइश बहुत अधिक है)
- GPT-4.5 बहुत बड़ा मॉडल है, और संभव है कि यह Grok 3 से भी बड़ा हो
- GPT-4 को 1 trillion (1T) से अधिक कुल parameters वाले mixture-of-experts (MoE) मॉडल के रूप में माना गया था, और इसके active parameters लगभग 200B आंके गए थे
- अफ़वाह है कि GPT-4o या Gemini Pro जैसे मॉडलों के active parameters घटकर 60B तक आ गए
- यानी हाल के मॉडल active parameters घटाकर और infrastructure optimize करके speed और cost सुधारने की दिशा में आगे बढ़ रहे हैं
- अनुमान है कि GPT-4.5 को GPT-4 की तुलना में लगभग 10 गुना अधिक compute चाहिए
- 5 गुना अधिक parameters + 2 गुना बड़ा dataset = 10 गुना compute वृद्धि
- कुल parameters 5T-7T तक हो सकते हैं, और active parameters लगभग 600B होने का अनुमान है
- लेकिन, इतना scale करने पर भी performance improvement को महसूस करना मुश्किल है।
- यहीं से स्थिति काफ़ी अजीब हो जाती है। OpenAI ने इस घोषणा में दो बातों पर ज़ोर दिया
- hallucination में कमी : मॉडल द्वारा तथ्यहीन जानकारी बनाने की आवृत्ति कम करना
- emotional intelligence में सुधार : संदर्भ और भावनाओं को बेहतर समझना और व्यक्त करना
- लेकिन ये दोनों गुण वस्तुनिष्ठ रूप से मापना कठिन हैं
- benchmark performance (OpenAI के दिए डेटा के आधार पर)
- SimpleQA: दुनिया के ज्ञान का आकलन करने वाले AI benchmark में GPT-4.5 ने बड़ा सुधार दिखाया
- PersonQA: व्यक्तियों से जुड़े सवालों के मूल्यांकन में भी सर्वोत्तम प्रदर्शन
- GPQA (Google-proof QA): बिना information retrieval के logical reasoning मापने वाले benchmark में भी अच्छा प्रदर्शन
- रिलीज़ के तुरंत बाद AI विशेषज्ञों के बीच यह राय आई कि GPT-4.5 इस्तेमाल में आरामदायक है और बेहतर लिखता है
- लेकिन code और technical performance के मूल्यांकन में इसे Claude 3.7, R1 जैसे प्रतिस्पर्धी मॉडलों की तुलना में मध्यम स्तर का माना गया
- writing style comparison (Karpathy के X(Twitter) poll के नतीजे)
- GPT-4.5 vs. GPT-4o-latest: अधिकतर यूज़र्स ने GPT-4o-latest की writing style को अधिक पसंद किया
- क्यों? संभव है कि GPT-4o-latest उस नए मॉडल का distilled संस्करण हो जिसे पहले Orion1 कहा जाता था, और क्योंकि उसका आकार बहुत छोटा है, iteration speed में दिन-रात का अंतर पड़ता है, इसलिए post-training बेहतर हो सकती है
- यह सब OpenAI द्वारा ChatBotArena ranking में फिर से नंबर 1 पाने के लिए चुकाई जाने वाली कीमत है
- उम्मीद है कि GPT 4.5 यह हासिल करेगा, लेकिन नतीजा अभी तय नहीं है
- लेखक के अपने शुरुआती उपयोग अनुभव के अनुसार, धीमी speed की वजह से शुरुआत में असुविधा हुई, लेकिन reliability अधिक होने के कारण इसे इस्तेमाल करते रहना उचित है
- हालांकि अतिरिक्त पैसे देकर GPT-4.5 चुनना ज़रूरी नहीं है, क्योंकि OpenAI का o1 Pro और अन्य paid services बेहतर value दे सकते हैं
GPT-4.5 की कीमत महंगी क्यों है
- GPT-4 के लॉन्च के समय उसकी कीमत भी काफ़ी अधिक थी, और वास्तव में GPT-4.5 जैसी ही थी
- GPT-4.5 की शुरुआती कीमत इस प्रकार है:
- Input: $75.00 / 1M tokens
- Cached Input: $37.50 / 1M tokens
- Output: $150.00 / 1M tokens
- यानी इसकी शुरुआती कीमत पिछले मॉडलों की तुलना में काफी अधिक रखी गई है
- OpenAI के पुराने मॉडल भी शुरुआत में महंगे थे, लेकिन बाद में उनकी कीमतों में बड़ी कटौती हुई
- GPT-4 (मार्च 2023 में लॉन्च)
- शुरुआत में $30 per 1M input, $60 per 1M output से शुरू हुआ
- 32K context version और महंगा था: input $60, output $120
- GPT-4 Turbo (नवंबर 2023 में लॉन्च)
- कीमत बहुत कम होकर input $10, output $30 रह गई
- GPT-4o (मई 2024 में लॉन्च)
- कीमत और घटकर input $2.5, output $10 हो गई, यानी GPT-4 की तुलना में 10 गुना से अधिक सस्ती
- इस तरह OpenAI हर नए मॉडल के साथ कीमतें काफ़ी घटाने का पैटर्न दिखाता रहा है
- फिलहाल GPT-4.5 की कीमत अधिक रखे जाने का कारण संभवतः यह है कि लॉन्च के शुरुआती चरण में high margin रखा गया है
- OpenAI ने यह भी कहा कि वह यह गारंटी नहीं देता कि मॉडल API में बना रहेगा, और यूज़र प्रतिक्रिया देखकर फैसला करेगा
- कई विशेषज्ञों का अनुमान है कि Nvidia का अगली पीढ़ी का GPU Blackwell आने पर बड़े मॉडलों को अधिक कुशलता से चलाया जा सकेगा, जिससे लागत घटेगी
- जैसे GPT-4 से GPT-4 Turbo और GPT-4o तक आते-आते कीमत घटी, वैसे ही GPT-4.5 की कीमत भी आगे चलकर GPT-4.5 Turbo जैसे किसी version के साथ कम हो सकती है
scaling का भविष्य
- language model scaling अभी खत्म नहीं हुई है
- लेकिन यह पीछे मुड़कर देखना बहुत ज़रूरी है कि यह घोषणा इतनी अजीब क्यों लगी, ताकि AI की प्रगति के बीच संतुलित दृष्टि बनी रहे
- हम ऐसे दौर में प्रवेश कर चुके हैं जहाँ scaling के अलग-अलग प्रकारों के अपने फायदे और नुकसान हैं
- संक्षेप में कहें तो, "GPT-4.5 अजीब है, लेकिन समय से आगे है"
- GPT-4.5 सिर्फ मॉडल को बड़ा करने की कहानी नहीं है, बल्कि यह संकेत है कि scaling के नए तरीके चाहिए
- इसका मतलब है कि AI की प्रगति केवल model size बढ़ाने (Scaling Up) से पर्याप्त नहीं होगी और दूसरे रास्ते अपनाने होंगे, हालांकि reasoning models की तेज़ प्रगति देखकर हम यह पहले से जानते थे
- GPT-4.5 का असली प्रभाव तब दिखेगा जब इसे कई विकास-रेखाओं की तेज़ प्रगति और उनके integration के साथ जोड़ा जाएगा
- DeepSeek के R1 paper और उसके बाद के RL research से यह निष्कर्ष निकला कि जितना बड़ा मॉडल, उतनी अधिक प्रभावी RL training
- OpenAI का o4 model भी संभवतः GPT-4.5-आधारित reasoning model का उपयोग करके train किया जाएगा
- OpenAI के मौजूदा मॉडल GPT-4.5 के बिना इतने अच्छे नहीं होते
- संभव है कि एक साल के भीतर ज़्यादातर मॉडल GPT-4.5 के scale तक पहुँच जाएँ, और speed भी बहुत तेज़ हो जाए
- इस तरह के balanced improvements अधिक applications को और मज़बूत बनाने में मदद करेंगे
- OpenAI और अन्य AI labs के शोधकर्ता मॉडलों को मौजूदा infrastructure limits से आगे तक scale करने की कोशिश कर रहे हैं
- अगर frontier labs scaling की हर दिशा की सीमा को आगे नहीं धकेलते, तो वे पर्याप्त जोखिम नहीं ले रहे
- मॉडल को सार्वजनिक करना ज़रूरी नहीं, लेकिन यह सोचना उचित है कि OpenAI ने वास्तव में ऐसा क्यों किया
- चूँकि अभी GPT-4.5 के अन्य internal systems में और जल्द ही अन्य external products में इस्तेमाल होने की संभावना है, इसलिए इस मॉडल का रिलीज़ कोई bypass नहीं बल्कि अगले चरण की ओर बढ़ने की स्वाभाविक प्रक्रिया है
- GPT-4.5 frontier model तो है, लेकिन उसका रिलीज़ रोमांचक नहीं है
- AI की प्रगति मुफ़्त में नहीं आती और इसके लिए बहुत मेहनत चाहिए
- GPT-4.5 अपने आप में सबसे महत्वपूर्ण नहीं है; असली मूल्य तब सामने आएगा जब यह मॉडल दूसरी तकनीकों के साथ जुड़ जाएगा
2 टिप्पणियां
जब कई benchmarks पहले से ही saturation की स्थिति में हैं, तो usability या hallucination जैसी चीज़ों पर ध्यान देना एक स्वाभाविक रुझान लगता है.
Hacker News राय
GPT 4.5 का knowledge cutoff भी अक्टूबर 2023 तक है
हो सकता है OpenAI के reasoning models उम्मीद जितने शक्तिशाली न हों
कीमत कुछ हद तक रहस्यमय है
GPT-4o से 4.5 तक की छलांग कोई बहुत बड़ी छलांग नहीं है
GPT-4.5 जटिल और सूक्ष्म विचारों को बहुत तेज़ी से प्रोसेस कर सकता है
GPT-4.5 अजीब दिशाओं में नहीं भटकता और reality पर आधारित रहता है
लंबे समय में infrastructure को monetize करना मुश्किल हो सकता है
GPT-4.5 "creative writing" में थोड़ा बेहतर है
ऐसा लगता है कि तकनीक अपनी सीमाओं तक पहुँच रही है
एक राय यह है कि क्या ये दो वाक्य एक-दूसरे के विरोधाभासी नहीं हैं
संदेह है कि benchmark के आख़िरी कुछ प्रतिशत को वास्तव में कोई देखता भी है या नहीं
Azure के सभी GPT4o models मई में बंद किए जाने वाले हैं