GPT-4.5: क्या यह "frontier model" नहीं है?

(interconnects.ai)

2 पॉइंट द्वारा GN⁺ 2025-03-03 | 2 टिप्पणियां | WhatsApp पर शेयर करें

GPT-4.5 के सार्वजनिक होने के साथ OpenAI ने पहले मॉडल का system card जारी किया
शुरुआती system card में "GPT-4.5 is not a frontier model" यह वाक्य शामिल था
- बाद में आधिकारिक ब्लॉग पोस्ट और अपडेटेड system card से यह वाक्य हटा दिया गया
लगता है OpenAI के भीतर किसी को यह वाक्य डालने की ज़रूरत महसूस हुई। लेकिन "OpenAI ने इसे रिलीज़ क्यों किया होगा?"
यह दावा कि यह frontier model नहीं है, उसके सबसे बड़े विरोधाभासों में से एक यह है कि GPT-4.5 आम जनता द्वारा टेस्ट किया जा सकने वाला सबसे बड़ा मॉडल है
- इस स्तर के मॉडल को scale up करने से उन क्षमताओं में कोई साफ़ छलांग नहीं दिखती जिन्हें हम मापते हैं
- GPT-3.5 → GPT-4 का बदलाव ठीक-ठाक(Okay) से अच्छा(Good) था
- GPT-4o → GPT-4.5 का बदलाव बेहतरीन(Great) से बहुत बेहतरीन(Really Great) है
नवीनतम मॉडलों के बीच अंतर समझना बहुत कठिन है, इसलिए AI में निवेश करने और प्रगति की उम्मीद रखने वाले लोग वास्तविकता से अधिक सुधार मान बैठ सकते हैं
हम उस मोड़ पर हैं जहाँ scaling की आर्थिक सीमाएँ स्पष्ट दिखने लगी हैं, जबकि अपेक्षित स्तर का बड़ा performance jump नहीं मिला
- Anthropic भी इसी तरह की समस्या झेल रहा है, और यह पुष्टि हुई है कि Claude 3.7 के बाद वह काफी बड़ा मॉडल train करेगा
GPT-4.5 क्रमिक प्रगति दिखाने वाला मॉडल है, यह पहले की तरह क्रांतिकारी छलांग नहीं है
- यह AI research में इस बात का संकेत है कि सिर्फ pre-training को बढ़ा देना अब पहले जैसा innovation नहीं दे रहा
- OpenAI ने संभवतः GPT-4.5 को लंबे समय से अंदरूनी तौर पर इस्तेमाल किया है, और GPT-4.5 के आधार पर दूसरे मॉडल train करने में इसका उपयोग किया होगा (cutoff date 2023 दिखने से ऐसा लगता है)

GPT-4.5 में अच्छा क्या है

(यह GPT-4.5 और GPT-4o के parameter count के कुछ अनुमान हैं, और क्योंकि ये leaked जानकारी पर आधारित नहीं हैं, इनमें त्रुटि की गुंजाइश बहुत अधिक है)
GPT-4.5 बहुत बड़ा मॉडल है, और संभव है कि यह Grok 3 से भी बड़ा हो
- GPT-4 को 1 trillion (1T) से अधिक कुल parameters वाले mixture-of-experts (MoE) मॉडल के रूप में माना गया था, और इसके active parameters लगभग 200B आंके गए थे
- अफ़वाह है कि GPT-4o या Gemini Pro जैसे मॉडलों के active parameters घटकर 60B तक आ गए
- यानी हाल के मॉडल active parameters घटाकर और infrastructure optimize करके speed और cost सुधारने की दिशा में आगे बढ़ रहे हैं
अनुमान है कि GPT-4.5 को GPT-4 की तुलना में लगभग 10 गुना अधिक compute चाहिए
- 5 गुना अधिक parameters + 2 गुना बड़ा dataset = 10 गुना compute वृद्धि
- कुल parameters 5T-7T तक हो सकते हैं, और active parameters लगभग 600B होने का अनुमान है
लेकिन, इतना scale करने पर भी performance improvement को महसूस करना मुश्किल है।
यहीं से स्थिति काफ़ी अजीब हो जाती है। OpenAI ने इस घोषणा में दो बातों पर ज़ोर दिया
- hallucination में कमी : मॉडल द्वारा तथ्यहीन जानकारी बनाने की आवृत्ति कम करना
- emotional intelligence में सुधार : संदर्भ और भावनाओं को बेहतर समझना और व्यक्त करना
- लेकिन ये दोनों गुण वस्तुनिष्ठ रूप से मापना कठिन हैं
benchmark performance (OpenAI के दिए डेटा के आधार पर)
- SimpleQA: दुनिया के ज्ञान का आकलन करने वाले AI benchmark में GPT-4.5 ने बड़ा सुधार दिखाया
- PersonQA: व्यक्तियों से जुड़े सवालों के मूल्यांकन में भी सर्वोत्तम प्रदर्शन
- GPQA (Google-proof QA): बिना information retrieval के logical reasoning मापने वाले benchmark में भी अच्छा प्रदर्शन
रिलीज़ के तुरंत बाद AI विशेषज्ञों के बीच यह राय आई कि GPT-4.5 इस्तेमाल में आरामदायक है और बेहतर लिखता है
- लेकिन code और technical performance के मूल्यांकन में इसे Claude 3.7, R1 जैसे प्रतिस्पर्धी मॉडलों की तुलना में मध्यम स्तर का माना गया
writing style comparison (Karpathy के X(Twitter) poll के नतीजे)
- GPT-4.5 vs. GPT-4o-latest: अधिकतर यूज़र्स ने GPT-4o-latest की writing style को अधिक पसंद किया
- क्यों? संभव है कि GPT-4o-latest उस नए मॉडल का distilled संस्करण हो जिसे पहले Orion1 कहा जाता था, और क्योंकि उसका आकार बहुत छोटा है, iteration speed में दिन-रात का अंतर पड़ता है, इसलिए post-training बेहतर हो सकती है
यह सब OpenAI द्वारा ChatBotArena ranking में फिर से नंबर 1 पाने के लिए चुकाई जाने वाली कीमत है
- उम्मीद है कि GPT 4.5 यह हासिल करेगा, लेकिन नतीजा अभी तय नहीं है
लेखक के अपने शुरुआती उपयोग अनुभव के अनुसार, धीमी speed की वजह से शुरुआत में असुविधा हुई, लेकिन reliability अधिक होने के कारण इसे इस्तेमाल करते रहना उचित है
- हालांकि अतिरिक्त पैसे देकर GPT-4.5 चुनना ज़रूरी नहीं है, क्योंकि OpenAI का o1 Pro और अन्य paid services बेहतर value दे सकते हैं

GPT-4.5 की कीमत महंगी क्यों है

GPT-4 के लॉन्च के समय उसकी कीमत भी काफ़ी अधिक थी, और वास्तव में GPT-4.5 जैसी ही थी
GPT-4.5 की शुरुआती कीमत इस प्रकार है:
- Input: $75.00 / 1M tokens
- Cached Input: $37.50 / 1M tokens
- Output: $150.00 / 1M tokens
- यानी इसकी शुरुआती कीमत पिछले मॉडलों की तुलना में काफी अधिक रखी गई है
OpenAI के पुराने मॉडल भी शुरुआत में महंगे थे, लेकिन बाद में उनकी कीमतों में बड़ी कटौती हुई
- GPT-4 (मार्च 2023 में लॉन्च)
  - शुरुआत में $30 per 1M input, $60 per 1M output से शुरू हुआ
  - 32K context version और महंगा था: input $60, output $120
- GPT-4 Turbo (नवंबर 2023 में लॉन्च)
  - कीमत बहुत कम होकर input $10, output $30 रह गई
- GPT-4o (मई 2024 में लॉन्च)
  - कीमत और घटकर input $2.5, output $10 हो गई, यानी GPT-4 की तुलना में 10 गुना से अधिक सस्ती
- इस तरह OpenAI हर नए मॉडल के साथ कीमतें काफ़ी घटाने का पैटर्न दिखाता रहा है
फिलहाल GPT-4.5 की कीमत अधिक रखे जाने का कारण संभवतः यह है कि लॉन्च के शुरुआती चरण में high margin रखा गया है
- OpenAI ने यह भी कहा कि वह यह गारंटी नहीं देता कि मॉडल API में बना रहेगा, और यूज़र प्रतिक्रिया देखकर फैसला करेगा
कई विशेषज्ञों का अनुमान है कि Nvidia का अगली पीढ़ी का GPU Blackwell आने पर बड़े मॉडलों को अधिक कुशलता से चलाया जा सकेगा, जिससे लागत घटेगी
जैसे GPT-4 से GPT-4 Turbo और GPT-4o तक आते-आते कीमत घटी, वैसे ही GPT-4.5 की कीमत भी आगे चलकर GPT-4.5 Turbo जैसे किसी version के साथ कम हो सकती है

scaling का भविष्य

language model scaling अभी खत्म नहीं हुई है
- लेकिन यह पीछे मुड़कर देखना बहुत ज़रूरी है कि यह घोषणा इतनी अजीब क्यों लगी, ताकि AI की प्रगति के बीच संतुलित दृष्टि बनी रहे
- हम ऐसे दौर में प्रवेश कर चुके हैं जहाँ scaling के अलग-अलग प्रकारों के अपने फायदे और नुकसान हैं
संक्षेप में कहें तो, "GPT-4.5 अजीब है, लेकिन समय से आगे है"
- GPT-4.5 सिर्फ मॉडल को बड़ा करने की कहानी नहीं है, बल्कि यह संकेत है कि scaling के नए तरीके चाहिए
- इसका मतलब है कि AI की प्रगति केवल model size बढ़ाने (Scaling Up) से पर्याप्त नहीं होगी और दूसरे रास्ते अपनाने होंगे, हालांकि reasoning models की तेज़ प्रगति देखकर हम यह पहले से जानते थे
- GPT-4.5 का असली प्रभाव तब दिखेगा जब इसे कई विकास-रेखाओं की तेज़ प्रगति और उनके integration के साथ जोड़ा जाएगा
DeepSeek के R1 paper और उसके बाद के RL research से यह निष्कर्ष निकला कि जितना बड़ा मॉडल, उतनी अधिक प्रभावी RL training
- OpenAI का o4 model भी संभवतः GPT-4.5-आधारित reasoning model का उपयोग करके train किया जाएगा
- OpenAI के मौजूदा मॉडल GPT-4.5 के बिना इतने अच्छे नहीं होते
संभव है कि एक साल के भीतर ज़्यादातर मॉडल GPT-4.5 के scale तक पहुँच जाएँ, और speed भी बहुत तेज़ हो जाए
- इस तरह के balanced improvements अधिक applications को और मज़बूत बनाने में मदद करेंगे
- OpenAI और अन्य AI labs के शोधकर्ता मॉडलों को मौजूदा infrastructure limits से आगे तक scale करने की कोशिश कर रहे हैं
अगर frontier labs scaling की हर दिशा की सीमा को आगे नहीं धकेलते, तो वे पर्याप्त जोखिम नहीं ले रहे
- मॉडल को सार्वजनिक करना ज़रूरी नहीं, लेकिन यह सोचना उचित है कि OpenAI ने वास्तव में ऐसा क्यों किया
- चूँकि अभी GPT-4.5 के अन्य internal systems में और जल्द ही अन्य external products में इस्तेमाल होने की संभावना है, इसलिए इस मॉडल का रिलीज़ कोई bypass नहीं बल्कि अगले चरण की ओर बढ़ने की स्वाभाविक प्रक्रिया है
GPT-4.5 frontier model तो है, लेकिन उसका रिलीज़ रोमांचक नहीं है
- AI की प्रगति मुफ़्त में नहीं आती और इसके लिए बहुत मेहनत चाहिए
- GPT-4.5 अपने आप में सबसे महत्वपूर्ण नहीं है; असली मूल्य तब सामने आएगा जब यह मॉडल दूसरी तकनीकों के साथ जुड़ जाएगा

2 टिप्पणियां

doolayer 2025-03-03

जब कई benchmarks पहले से ही saturation की स्थिति में हैं, तो usability या hallucination जैसी चीज़ों पर ध्यान देना एक स्वाभाविक रुझान लगता है.

GN⁺ 2025-03-03

Hacker News राय

GPT 4.5 का knowledge cutoff भी अक्टूबर 2023 तक है
- संभव है कि इस मॉडल का pre-training कम से कम 1 साल पहले पूरा हो गया हो
- हो सकता है OpenAI ने Q-star/strawberry जैसे दूसरे प्रोजेक्ट्स पर ध्यान केंद्रित किया हो
हो सकता है OpenAI के reasoning models उम्मीद जितने शक्तिशाली न हों
- Gemini 2.0 Flash, Grok 3, Sonnet 3.7 जैसे शक्तिशाली non-reasoning models सामने आए हैं
- संभव है OpenAI ने बाहरी तौर पर कुछ रिलीज़ करने की ज़रूरत महसूस की हो
कीमत कुछ हद तक रहस्यमय है
- यह ऐसे पुराने मॉडल को दर्शा सकती है जिसमें नवीनतम efficiency tricks नहीं हैं
- GPT-4.5 शायद यह पता लगाने का OpenAI का तरीका हो कि लोग कितना भुगतान करेंगे
GPT-4o से 4.5 तक की छलांग कोई बहुत बड़ी छलांग नहीं है
- इसकी कीमत एक luxury product की तरह रखी गई है, लेकिन luxury जैसा reward नहीं है
GPT-4.5 जटिल और सूक्ष्म विचारों को बहुत तेज़ी से प्रोसेस कर सकता है
- यह दूसरे AI की तुलना में कहीं बेहतर है
GPT-4.5 अजीब दिशाओं में नहीं भटकता और reality पर आधारित रहता है
- यह tone preference पर अच्छी प्रतिक्रिया देता है और सूक्ष्म अंतर अच्छी तरह समझता है
लंबे समय में infrastructure को monetize करना मुश्किल हो सकता है
- coding API में Claude 3.5/3.7 के ज़्यादा इस्तेमाल होने की संभावना है
- non-coding API में Gemini 2.0 Flash सस्ता भी है और performance भी बेहतर देता है
- subscription app में ChatGPT अब भी सबसे आगे है, लेकिन Grok प्रतिस्पर्धा कर रहा है
GPT-4.5 "creative writing" में थोड़ा बेहतर है
- Anthropic ने ऐसे नए models जारी किए हैं जो अधिक व्यावहारिक समस्याएँ हल करते हैं
ऐसा लगता है कि तकनीक अपनी सीमाओं तक पहुँच रही है
एक राय यह है कि क्या ये दो वाक्य एक-दूसरे के विरोधाभासी नहीं हैं
- model size बढ़ाने पर भी क्षमता में कोई स्पष्ट सुधार नहीं हुआ
- GPT-4o से GPT-4.5 तक की छलांग मॉडल को शानदार बनाती है
संदेह है कि benchmark के आख़िरी कुछ प्रतिशत को वास्तव में कोई देखता भी है या नहीं
- यह मान लेना कि benchmark 100% सटीक हैं, एक गलती हो सकती है
Azure के सभी GPT4o models मई में बंद किए जाने वाले हैं
- Anthropic पर जाना चाहिए या नहीं, इस पर विचार चल रहा है
- नए "o" model के रिलीज़ timing की जानकारी चाहिए