DevDay में OpenAI ने जो कुछ भी घोषित किया

xguru · 2024-10-03T10:20:02+09:00

प्रमुख घोषणाएँ Realtime API, जो डेवलपर्स को अपने ऐप्स में ChatGPT के Advanced Voice Mode जैसी सुविधाएँ लागू करने देता है o1 मॉडल की Rate Limit को GPT-4o के बराबर बढ़ाया गया (प्रति मिनट 10,000) ऑटोमैटिक prompt caching के ज़रिए GPT-4o API की कीमत में कटौती। दोहराए गए कॉल्स पर बिना अतिरिक्त डेवलपमेंट के 50% सस्ता मल्टीमोडल fine-tuning API पिछले साल से इस साल तक OpenAI प्लेटफ़ॉर्म पर सक्रिय ऐप्स की संख्या 3 गुना बढ़ी, और सक्रिय डेवलपर्स की संख्या 30 लाख तक पहुँच गई o1 मॉडल का अवलोकन OpenAI ने नया reasoning मॉडल o1 लॉन्च किया o1 को मौजूदा GPT-4o से अलग एक नई मॉडल फैमिली के रूप में वर्गीकृत किया गया है OpenAI का मानना है कि भविष्य में अलग-अलग use cases के लिए कई मॉडल विकसित करना सही दिशा होगी o1 chain-of-thought शैली में सोचने की क्षमता में बेहतर है, इसलिए यह programming कार्यों के लिए उपयुक्त है, लेकिन यह धीमा है और महँगा भी अधिकांश prompts को o1 की advanced reasoning क्षमता की ज़रूरत नहीं होती, इसलिए o1 डिफ़ॉल्ट मॉडल नहीं बनेगा OpenAI के Head of Developer Relations, Romain Huet ने o1 का उपयोग करके एक ही prompt से 30 सेकंड में शुरू से अंत तक एक iPhone ऐप बनाने का डेमो दिखाया उन्होंने मंच पर drone भी लाया और एक web app बनाकर दर्शकों के सामने drone को नियंत्रित करने का डेमो भी दिखाया ये डेमो पहले के GPT मॉडलों से भी संभव होते, लेकिन o1 के साथ इन्हें कहीं ज़्यादा तेज़ी से बनाया जा सकता है o1 उस भविष्य की झलक दिखाता है जहाँ आइडिया से ऐप तक 1~2 मिनट में पहुँचा जा सकता है वॉइस-कन्वर्सेशनल रियलटाइम API OpenAI द्वारा लॉन्च की गई सबसे प्रभावशाली सुविधा Realtime API है, जो डेवलपर्स को अपने ऐप्स में ChatGPT के Advanced Voice Mode जैसी सुविधाएँ लागू करने देती है डेवलपर्स रिकॉर्ड किया गया ऑडियो OpenAI सर्वर पर भेज सकते हैं और रियल-टाइम में रिकॉर्ड किया गया जवाब, ट्रांसक्रिप्ट और function calls प्राप्त कर सकते हैं Realtime API आज से public beta में उपलब्ध है, और आगे चलकर video जैसे और भी modalities को सपोर्ट करेगी Realtime API की कीमत audio input के लिए $0.06 प्रति मिनट और audio output के लिए $0.24 प्रति मिनट है, यानी कुल $0.15 प्रति मिनट (यह मानकर कि audio input और output समान हैं) यह ElevenLabs की लगभग $0.11 प्रति मिनट वाली speech-to-speech सेवा से महँगी है, लेकिन वहाँ usage के आधार पर भुगतान नहीं होता, बल्कि हर महीने एक निश्चित मात्रा का समय खरीदना पड़ता है रियल-टाइम वॉइस बेहतर reading assistant, अधिक immersive language tutoring जैसी कई नई use cases खोलती है fine-tuning टूल्स OpenAI इस विचार को गंभीरता से ले रहा है कि कई मॉडलों का उपयोग करना एक बड़े मॉडल के उपयोग से बेहतर है यह कंपनियों को अपने use case के अनुसार GPT-4o का कस्टम वर्ज़न बनाने में समर्थन देता है OpenAI ऐसे भविष्य की कल्पना कर रहा है जहाँ हर कंपनी के पास अपनी data access के साथ एक fine-tuned मॉडल हो इमेज fine-tuning API कोई भी अपने इमेज डेटा का उपयोग करके GPT-4o को fine-tune कर सकता है उदाहरण के लिए, अगर आप healthcare क्षेत्र में काम करते हैं और चाहते हैं कि GPT-4o MRI को पढ़ने और label करने की क्षमता में fine-tune हो, तो आप इस API का उपयोग कर सकते हैं मॉडल distillation टूल्स OpenAI ने मॉडल distillation को बेहतर बनाने के लिए दो टूल्स लॉन्च किए। मॉडल distillation वह प्रक्रिया है जिसमें किसी खास use case के लिए foundation model का छोटा, तेज़ और सस्ता वर्ज़न बनाया जाता है डेवलपर playground में पिछले API interactions को रिकॉर्ड करने और उन्हें fine-tuning के डेटा के रूप में इस्तेमाल करने की सुविधा जोड़कर distillation को आसान बनाया गया है साथ ही डेवलपर्स के लिए fine-tuned मॉडल के प्रदर्शन का मूल्यांकन करने हेतु playground में Evals टूल भी जोड़ा गया है prompt caching से दोहराए गए API कॉल्स की लागत में 50% कमी OpenAI ने नया prompt caching फीचर लॉन्च किया है, जो दोहराए जाने वाले API calls का पता लगाकर पहले से जनरेट किए गए responses लौटाता है यह फीचर आज से अपने-आप काम करता है और डेवलपर्स बिना किसी अतिरिक्त काम के कई API calls की लागत 50% तक घटा सकते हैं यह फीचर उस रुझान का विस्तार है जिसमें OpenAI API उपयोग की लागत को लगातार और सस्ता बनाने के लिए प्रतिस्पर्धा कर रहा है यह डेवलपर्स के लिए अच्छी खबर है, लेकिन OpenAI के सबसे बड़े पार्टनर Microsoft के साथ एक दिलचस्प dynamics भी बनाता है Microsoft बड़े एंटरप्राइज़ ग्राहकों पर दबाव डालता रहा है कि वे capacity सुनिश्चित करने के लिए GPT-4 API calls का एक निश्चित न्यूनतम मूल्य पहले से खरीदें यह देखने वाली बात होगी कि जिन Microsoft ग्राहकों ने पहले से purchase commitments कर रखी हैं, वे इस price cut को कैसे देखते हैं OpenAI की रणनीति 1. अलग-अलग use cases के लिए कई मॉडल विकसित करने पर फोकस OpenAI का विश्वास है कि एक ही मॉडल से सब कुछ संभालने के बजाय कई मॉडलों का साथ में उपयोग सबसे प्रभावी applications बनाएगा डेवलपर्स o1 जैसे reasoning-strong मॉडल और GPT-4o जैसे long context या image prompt handling में मजबूत मॉडल को साथ में इस्तेमाल करके यूज़र्स को एक consistent अनुभव दे सकते हैं 2. o1 स्वायत्त रूप से काम करने वाले agents की दिशा में एक महत्वपूर्ण कदम है agents लंबे समय से सबसे आकर्षक AI applications में से एक रहे हैं, लेकिन पहले के GPT मॉडल अक्सर तब ठीक से काम नहीं करते थे जब वे खुद से कार्य हल करने की कोशिश करते थे o1 से उम्मीद है कि यह अपनी सोच की प्रक्रिया पर विचार करने और अगले कदम की योजना बनाने की क्षमता के कारण सचमुच autonomous agents बनाने में अहम भूमिका निभाएगा 3. डेवलपर्स के पास यूज़र्स के लिए शानदार अनुभव बनाने वाली तकनीकों की अब बहुत बड़ी रेंज है यह भूलना आसान है कि कुछ ही साल पहले आज दिखाए गए इन डेमोज़ में से कोई भी संभव नहीं था या लोगों की रुचि से बाहर था आज अपने खाली समय में ऐप बनाने वाला एक अकेला डेवलपर भी वह काम कर सकता है जो पहले पूरी डेवलपमेंट टीम भी नहीं कर पाती थी

(every.to)

12 पॉइंट द्वारा xguru 2024-10-03 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

प्रमुख घोषणाएँ

Realtime API, जो डेवलपर्स को अपने ऐप्स में ChatGPT के Advanced Voice Mode जैसी सुविधाएँ लागू करने देता है
o1 मॉडल की Rate Limit को GPT-4o के बराबर बढ़ाया गया (प्रति मिनट 10,000)
ऑटोमैटिक prompt caching के ज़रिए GPT-4o API की कीमत में कटौती। दोहराए गए कॉल्स पर बिना अतिरिक्त डेवलपमेंट के 50% सस्ता
मल्टीमोडल fine-tuning API
पिछले साल से इस साल तक OpenAI प्लेटफ़ॉर्म पर सक्रिय ऐप्स की संख्या 3 गुना बढ़ी, और सक्रिय डेवलपर्स की संख्या 30 लाख तक पहुँच गई

o1 मॉडल का अवलोकन

OpenAI ने नया reasoning मॉडल o1 लॉन्च किया
o1 को मौजूदा GPT-4o से अलग एक नई मॉडल फैमिली के रूप में वर्गीकृत किया गया है
OpenAI का मानना है कि भविष्य में अलग-अलग use cases के लिए कई मॉडल विकसित करना सही दिशा होगी
o1 chain-of-thought शैली में सोचने की क्षमता में बेहतर है, इसलिए यह programming कार्यों के लिए उपयुक्त है, लेकिन यह धीमा है और महँगा भी
अधिकांश prompts को o1 की advanced reasoning क्षमता की ज़रूरत नहीं होती, इसलिए o1 डिफ़ॉल्ट मॉडल नहीं बनेगा
OpenAI के Head of Developer Relations, Romain Huet ने o1 का उपयोग करके एक ही prompt से 30 सेकंड में शुरू से अंत तक एक iPhone ऐप बनाने का डेमो दिखाया
उन्होंने मंच पर drone भी लाया और एक web app बनाकर दर्शकों के सामने drone को नियंत्रित करने का डेमो भी दिखाया
ये डेमो पहले के GPT मॉडलों से भी संभव होते, लेकिन o1 के साथ इन्हें कहीं ज़्यादा तेज़ी से बनाया जा सकता है
o1 उस भविष्य की झलक दिखाता है जहाँ आइडिया से ऐप तक 1~2 मिनट में पहुँचा जा सकता है

वॉइस-कन्वर्सेशनल रियलटाइम API

OpenAI द्वारा लॉन्च की गई सबसे प्रभावशाली सुविधा Realtime API है, जो डेवलपर्स को अपने ऐप्स में ChatGPT के Advanced Voice Mode जैसी सुविधाएँ लागू करने देती है
डेवलपर्स रिकॉर्ड किया गया ऑडियो OpenAI सर्वर पर भेज सकते हैं और रियल-टाइम में रिकॉर्ड किया गया जवाब, ट्रांसक्रिप्ट और function calls प्राप्त कर सकते हैं
Realtime API आज से public beta में उपलब्ध है, और आगे चलकर video जैसे और भी modalities को सपोर्ट करेगी
Realtime API की कीमत audio input के लिए $0.06 प्रति मिनट और audio output के लिए $0.24 प्रति मिनट है, यानी कुल $0.15 प्रति मिनट (यह मानकर कि audio input और output समान हैं)
यह ElevenLabs की लगभग $0.11 प्रति मिनट वाली speech-to-speech सेवा से महँगी है, लेकिन वहाँ usage के आधार पर भुगतान नहीं होता, बल्कि हर महीने एक निश्चित मात्रा का समय खरीदना पड़ता है
रियल-टाइम वॉइस बेहतर reading assistant, अधिक immersive language tutoring जैसी कई नई use cases खोलती है

fine-tuning टूल्स

OpenAI इस विचार को गंभीरता से ले रहा है कि कई मॉडलों का उपयोग करना एक बड़े मॉडल के उपयोग से बेहतर है
यह कंपनियों को अपने use case के अनुसार GPT-4o का कस्टम वर्ज़न बनाने में समर्थन देता है
OpenAI ऐसे भविष्य की कल्पना कर रहा है जहाँ हर कंपनी के पास अपनी data access के साथ एक fine-tuned मॉडल हो

इमेज fine-tuning API

कोई भी अपने इमेज डेटा का उपयोग करके GPT-4o को fine-tune कर सकता है
उदाहरण के लिए, अगर आप healthcare क्षेत्र में काम करते हैं और चाहते हैं कि GPT-4o MRI को पढ़ने और label करने की क्षमता में fine-tune हो, तो आप इस API का उपयोग कर सकते हैं

मॉडल distillation टूल्स

OpenAI ने मॉडल distillation को बेहतर बनाने के लिए दो टूल्स लॉन्च किए। मॉडल distillation वह प्रक्रिया है जिसमें किसी खास use case के लिए foundation model का छोटा, तेज़ और सस्ता वर्ज़न बनाया जाता है
डेवलपर playground में पिछले API interactions को रिकॉर्ड करने और उन्हें fine-tuning के डेटा के रूप में इस्तेमाल करने की सुविधा जोड़कर distillation को आसान बनाया गया है
साथ ही डेवलपर्स के लिए fine-tuned मॉडल के प्रदर्शन का मूल्यांकन करने हेतु playground में Evals टूल भी जोड़ा गया है

prompt caching से दोहराए गए API कॉल्स की लागत में 50% कमी

OpenAI ने नया prompt caching फीचर लॉन्च किया है, जो दोहराए जाने वाले API calls का पता लगाकर पहले से जनरेट किए गए responses लौटाता है
यह फीचर आज से अपने-आप काम करता है और डेवलपर्स बिना किसी अतिरिक्त काम के कई API calls की लागत 50% तक घटा सकते हैं
यह फीचर उस रुझान का विस्तार है जिसमें OpenAI API उपयोग की लागत को लगातार और सस्ता बनाने के लिए प्रतिस्पर्धा कर रहा है
यह डेवलपर्स के लिए अच्छी खबर है, लेकिन OpenAI के सबसे बड़े पार्टनर Microsoft के साथ एक दिलचस्प dynamics भी बनाता है
Microsoft बड़े एंटरप्राइज़ ग्राहकों पर दबाव डालता रहा है कि वे capacity सुनिश्चित करने के लिए GPT-4 API calls का एक निश्चित न्यूनतम मूल्य पहले से खरीदें
यह देखने वाली बात होगी कि जिन Microsoft ग्राहकों ने पहले से purchase commitments कर रखी हैं, वे इस price cut को कैसे देखते हैं

OpenAI की रणनीति

1. अलग-अलग use cases के लिए कई मॉडल विकसित करने पर फोकस

OpenAI का विश्वास है कि एक ही मॉडल से सब कुछ संभालने के बजाय कई मॉडलों का साथ में उपयोग सबसे प्रभावी applications बनाएगा
डेवलपर्स o1 जैसे reasoning-strong मॉडल और GPT-4o जैसे long context या image prompt handling में मजबूत मॉडल को साथ में इस्तेमाल करके यूज़र्स को एक consistent अनुभव दे सकते हैं

2. o1 स्वायत्त रूप से काम करने वाले agents की दिशा में एक महत्वपूर्ण कदम है

agents लंबे समय से सबसे आकर्षक AI applications में से एक रहे हैं, लेकिन पहले के GPT मॉडल अक्सर तब ठीक से काम नहीं करते थे जब वे खुद से कार्य हल करने की कोशिश करते थे
o1 से उम्मीद है कि यह अपनी सोच की प्रक्रिया पर विचार करने और अगले कदम की योजना बनाने की क्षमता के कारण सचमुच autonomous agents बनाने में अहम भूमिका निभाएगा

3. डेवलपर्स के पास यूज़र्स के लिए शानदार अनुभव बनाने वाली तकनीकों की अब बहुत बड़ी रेंज है

यह भूलना आसान है कि कुछ ही साल पहले आज दिखाए गए इन डेमोज़ में से कोई भी संभव नहीं था या लोगों की रुचि से बाहर था
आज अपने खाली समय में ऐप बनाने वाला एक अकेला डेवलपर भी वह काम कर सकता है जो पहले पूरी डेवलपमेंट टीम भी नहीं कर पाती थी