- reinforcement learning के ज़रिए जटिल reasoning करने के लिए प्रशिक्षित नया large language model OpenAI o1 घोषित
- o1 उपयोगकर्ता को जवाब देने से पहले एक लंबी internal chain of thought बना सकता है
- o1 ने competitive programming समस्याओं (Codeforces) में 89वाँ percentile, American Invitational Mathematics Examination (AIME) में अमेरिका के शीर्ष 500 छात्रों के स्तर का प्रदर्शन, और physics, biology, chemistry प्रश्नों के GPQA benchmark में मानव PhD-स्तर की accuracy को पार किया
- अभी इसे मौजूदा मॉडलों की तरह आसानी से उपयोग करने योग्य बनाने का काम जारी है, लेकिन इस मॉडल का शुरुआती संस्करण OpenAI o1-preview ChatGPT और भरोसेमंद API उपयोगकर्ताओं के लिए तुरंत उपलब्ध कराया गया है
मूल्यांकन
- GPT-4o की तुलना में o1 ने अधिकांश reasoning-केंद्रित कार्यों में काफ़ी बेहतर प्रदर्शन दिखाया
- 2024 AIME परीक्षा में GPT-4o ने औसतन केवल 12% (1.8/15) प्रश्न हल किए, जबकि o1 ने single sample पर औसतन 74% (11.1/15), 64 samples के consensus से 83% (12.5/15), और 1000 samples को प्रशिक्षित scoring function से rerank करके 93% (13.9/15) हासिल किए
- GPQA Diamond में o1 ने chemistry, physics और biology विशेषज्ञता को जाँचने वाले मानव विशेषज्ञों के प्रदर्शन को पार किया, और ऐसा करने वाला इस benchmark का पहला मॉडल बना
- visual perception क्षमता सक्रिय होने पर o1 ने MMMU में 78.2% स्कोर किया, और मानव विशेषज्ञों से प्रतिस्पर्धा करने वाला पहला मॉडल बना
- MMLU की 57 subcategories में से 54 में इसने GPT-4o से बेहतर प्रदर्शन किया
chain of thought
- जैसे इंसान कठिन सवाल का जवाब देने से पहले लंबे समय तक सोच सकता है, वैसे ही o1 समस्या हल करने की कोशिश करते समय chain of thought का उपयोग करता है
- reinforcement learning के माध्यम से o1 ने अपनी chain of thought को निखारना और उसे उपयोग करने की रणनीतियों में सुधार करना सीखा
- इसने अपनी गलतियों को पहचानना और सुधारना सीखा
- इसने कठिन चरणों को आसान चरणों में बाँटना सीखा
- इसने यह भी सीखा कि जब मौजूदा approach काम न करे तो दूसरी approach आज़मानी चाहिए
कोडिंग
- programming कौशल को और बेहतर बनाने के लिए इसे इस तरह प्रशिक्षित किया गया कि इसने 2024 International Olympiad in Informatics (IOI) में 213 अंक हासिल किए और 49वें percentile पर रैंक किया
- इस मॉडल ने 2024 IOI में मानव प्रतिभागियों जैसी ही शर्तों पर भाग लिया
- 6 चुनौतीपूर्ण algorithmic समस्याएँ हल करने के लिए 10 घंटे दिए गए, और प्रति समस्या 50 submissions की अनुमति थी
- 10,000 submissions की अनुमति मिलने पर मॉडल का प्रदर्शन काफ़ी बढ़ गया
- test-time selection strategy के बिना भी इसने 362.14 अंक हासिल किए, जो gold medal threshold से ऊपर था
- Codeforces द्वारा आयोजित competitive programming contests का simulation करके इस मॉडल की coding क्षमता साबित की गई
- GPT-4o ने 808 की ELO rating हासिल की, जो मानव प्रतियोगियों के 11वें percentile के बराबर है
- इस मॉडल ने GPT-4o और o1 दोनों को काफ़ी पीछे छोड़ते हुए 1807 की ELO rating हासिल की और 93% प्रतियोगियों से बेहतर प्रदर्शन दिखाया
सुरक्षा
- chain of thought reasoning alignment और safety के लिए नए अवसर प्रदान करता है
- यह पाया गया कि मॉडल के व्यवहार से जुड़ी नीतियों को reasoning model की chain of thought में एकीकृत करना, मानव मूल्यों और सिद्धांतों को मज़बूती से सिखाने का प्रभावी तरीका है
- मॉडल को safety rules और संदर्भ के अनुसार reasoning करना सिखाकर यह प्रमाण मिला कि reasoning क्षमता सीधे मॉडल की robustness में मदद करती है
- उनका मानना है कि chain of thought का उपयोग safety और alignment में महत्वपूर्ण प्रगति देता है, क्योंकि इससे मॉडल के वैध तरीके से सोचने का अवलोकन किया जा सकता है और safety rules पर मॉडल का reasoning out-of-distribution scenarios में अधिक मज़बूत होता है
- deployment से पहले safety testing और red teaming की गई, जिससे सुधारों को रेखांकित किया गया
- यह दिखा कि chain of thought reasoning ने सभी evaluations में क्षमता सुधारने में योगदान दिया
निष्कर्ष
- o1 ने AI reasoning में state-of-the-art को काफ़ी आगे बढ़ाया
- इसे दोहरावदार सुधारों के साथ आगे भी बेहतर संस्करणों में जारी करने की योजना है
- उम्मीद है कि o1 और इसके बाद आने वाले मॉडल science, coding, mathematics और संबंधित क्षेत्रों में AI के कई नए use cases खोलेंगे
- उम्मीद है कि उपयोगकर्ता और API developers यह खोजेंगे कि o1 उनके रोज़मर्रा के काम को कैसे बेहतर बना सकता है
GN⁺ की राय
- OpenAI o1 जटिल problem solving और reasoning क्षमता वाला बेहद प्रभावशाली मॉडल है, जो मानव स्तर से आगे का प्रदर्शन दिखा रहा है। खासकर mathematics, science और programming में इसकी विशेषज्ञ-स्तरीय क्षमता संबंधित शोध और अनुप्रयोगों में बहुत मददगार हो सकती है
- chain of thought तरीके का उपयोग करके मॉडल की सोचने की प्रक्रिया को देखने और समझने योग्य बनाना प्रभावित करता है। इससे मॉडल के व्यवहार को समझने और नियंत्रित करने में बड़ी मदद मिल सकती है। हालांकि, उत्पन्न thought process को उपयोगकर्ताओं के सामने सीधे प्रकट न करने का निर्णय विवाद का विषय हो सकता है
- मॉडल की safety बढ़ाने के लिए policy rules को reasoning process में एकीकृत करना भी ध्यान देने योग्य है। हालांकि यह अभी पूर्ण नहीं लगता, इसलिए लगातार monitoring और सुधार की ज़रूरत दिखती है
- o1 बहुत शक्तिशाली मॉडल है, लेकिन यह त्रुटिरहित नहीं है। bias या ethical issues जैसी सीमाएँ, जो AI मॉडलों में व्यापक रूप से मौजूद हैं, यहाँ भी बनी हुई हैं। तकनीकी प्रगति के साथ-साथ इन सीमाओं को दूर करने के लिए लगातार प्रयास ज़रूरी होंगे
1 टिप्पणियां
Hacker News राय
पहली राय
दूसरी राय
तीसरी राय
चौथी राय
पाँचवीं राय
छठी राय
सातवीं राय
आठवीं राय
नौवीं राय
दसवीं राय