3 पॉइंट द्वारा GN⁺ 2024-09-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • reinforcement learning के ज़रिए जटिल reasoning करने के लिए प्रशिक्षित नया large language model OpenAI o1 घोषित
  • o1 उपयोगकर्ता को जवाब देने से पहले एक लंबी internal chain of thought बना सकता है
  • o1 ने competitive programming समस्याओं (Codeforces) में 89वाँ percentile, American Invitational Mathematics Examination (AIME) में अमेरिका के शीर्ष 500 छात्रों के स्तर का प्रदर्शन, और physics, biology, chemistry प्रश्नों के GPQA benchmark में मानव PhD-स्तर की accuracy को पार किया
  • अभी इसे मौजूदा मॉडलों की तरह आसानी से उपयोग करने योग्य बनाने का काम जारी है, लेकिन इस मॉडल का शुरुआती संस्करण OpenAI o1-preview ChatGPT और भरोसेमंद API उपयोगकर्ताओं के लिए तुरंत उपलब्ध कराया गया है

मूल्यांकन

  • GPT-4o की तुलना में o1 ने अधिकांश reasoning-केंद्रित कार्यों में काफ़ी बेहतर प्रदर्शन दिखाया
    • 2024 AIME परीक्षा में GPT-4o ने औसतन केवल 12% (1.8/15) प्रश्न हल किए, जबकि o1 ने single sample पर औसतन 74% (11.1/15), 64 samples के consensus से 83% (12.5/15), और 1000 samples को प्रशिक्षित scoring function से rerank करके 93% (13.9/15) हासिल किए
    • GPQA Diamond में o1 ने chemistry, physics और biology विशेषज्ञता को जाँचने वाले मानव विशेषज्ञों के प्रदर्शन को पार किया, और ऐसा करने वाला इस benchmark का पहला मॉडल बना
    • visual perception क्षमता सक्रिय होने पर o1 ने MMMU में 78.2% स्कोर किया, और मानव विशेषज्ञों से प्रतिस्पर्धा करने वाला पहला मॉडल बना
    • MMLU की 57 subcategories में से 54 में इसने GPT-4o से बेहतर प्रदर्शन किया

chain of thought

  • जैसे इंसान कठिन सवाल का जवाब देने से पहले लंबे समय तक सोच सकता है, वैसे ही o1 समस्या हल करने की कोशिश करते समय chain of thought का उपयोग करता है
  • reinforcement learning के माध्यम से o1 ने अपनी chain of thought को निखारना और उसे उपयोग करने की रणनीतियों में सुधार करना सीखा
    • इसने अपनी गलतियों को पहचानना और सुधारना सीखा
    • इसने कठिन चरणों को आसान चरणों में बाँटना सीखा
    • इसने यह भी सीखा कि जब मौजूदा approach काम न करे तो दूसरी approach आज़मानी चाहिए

कोडिंग

  • programming कौशल को और बेहतर बनाने के लिए इसे इस तरह प्रशिक्षित किया गया कि इसने 2024 International Olympiad in Informatics (IOI) में 213 अंक हासिल किए और 49वें percentile पर रैंक किया
    • इस मॉडल ने 2024 IOI में मानव प्रतिभागियों जैसी ही शर्तों पर भाग लिया
    • 6 चुनौतीपूर्ण algorithmic समस्याएँ हल करने के लिए 10 घंटे दिए गए, और प्रति समस्या 50 submissions की अनुमति थी
  • 10,000 submissions की अनुमति मिलने पर मॉडल का प्रदर्शन काफ़ी बढ़ गया
    • test-time selection strategy के बिना भी इसने 362.14 अंक हासिल किए, जो gold medal threshold से ऊपर था
  • Codeforces द्वारा आयोजित competitive programming contests का simulation करके इस मॉडल की coding क्षमता साबित की गई
    • GPT-4o ने 808 की ELO rating हासिल की, जो मानव प्रतियोगियों के 11वें percentile के बराबर है
    • इस मॉडल ने GPT-4o और o1 दोनों को काफ़ी पीछे छोड़ते हुए 1807 की ELO rating हासिल की और 93% प्रतियोगियों से बेहतर प्रदर्शन दिखाया

सुरक्षा

  • chain of thought reasoning alignment और safety के लिए नए अवसर प्रदान करता है
    • यह पाया गया कि मॉडल के व्यवहार से जुड़ी नीतियों को reasoning model की chain of thought में एकीकृत करना, मानव मूल्यों और सिद्धांतों को मज़बूती से सिखाने का प्रभावी तरीका है
    • मॉडल को safety rules और संदर्भ के अनुसार reasoning करना सिखाकर यह प्रमाण मिला कि reasoning क्षमता सीधे मॉडल की robustness में मदद करती है
  • उनका मानना है कि chain of thought का उपयोग safety और alignment में महत्वपूर्ण प्रगति देता है, क्योंकि इससे मॉडल के वैध तरीके से सोचने का अवलोकन किया जा सकता है और safety rules पर मॉडल का reasoning out-of-distribution scenarios में अधिक मज़बूत होता है
  • deployment से पहले safety testing और red teaming की गई, जिससे सुधारों को रेखांकित किया गया
    • यह दिखा कि chain of thought reasoning ने सभी evaluations में क्षमता सुधारने में योगदान दिया

निष्कर्ष

  • o1 ने AI reasoning में state-of-the-art को काफ़ी आगे बढ़ाया
  • इसे दोहरावदार सुधारों के साथ आगे भी बेहतर संस्करणों में जारी करने की योजना है
  • उम्मीद है कि o1 और इसके बाद आने वाले मॉडल science, coding, mathematics और संबंधित क्षेत्रों में AI के कई नए use cases खोलेंगे
  • उम्मीद है कि उपयोगकर्ता और API developers यह खोजेंगे कि o1 उनके रोज़मर्रा के काम को कैसे बेहतर बना सकता है

GN⁺ की राय

  • OpenAI o1 जटिल problem solving और reasoning क्षमता वाला बेहद प्रभावशाली मॉडल है, जो मानव स्तर से आगे का प्रदर्शन दिखा रहा है। खासकर mathematics, science और programming में इसकी विशेषज्ञ-स्तरीय क्षमता संबंधित शोध और अनुप्रयोगों में बहुत मददगार हो सकती है
  • chain of thought तरीके का उपयोग करके मॉडल की सोचने की प्रक्रिया को देखने और समझने योग्य बनाना प्रभावित करता है। इससे मॉडल के व्यवहार को समझने और नियंत्रित करने में बड़ी मदद मिल सकती है। हालांकि, उत्पन्न thought process को उपयोगकर्ताओं के सामने सीधे प्रकट न करने का निर्णय विवाद का विषय हो सकता है
  • मॉडल की safety बढ़ाने के लिए policy rules को reasoning process में एकीकृत करना भी ध्यान देने योग्य है। हालांकि यह अभी पूर्ण नहीं लगता, इसलिए लगातार monitoring और सुधार की ज़रूरत दिखती है
  • o1 बहुत शक्तिशाली मॉडल है, लेकिन यह त्रुटिरहित नहीं है। bias या ethical issues जैसी सीमाएँ, जो AI मॉडलों में व्यापक रूप से मौजूद हैं, यहाँ भी बनी हुई हैं। तकनीकी प्रगति के साथ-साथ इन सीमाओं को दूर करने के लिए लगातार प्रयास ज़रूरी होंगे

1 टिप्पणियां

 
GN⁺ 2024-09-13
Hacker News राय
  • पहली राय

    • दस्तावेज़ से मिली व्यावहारिक जानकारी का सारांश
      • एक्सेस पाने के लिए tier 5 स्तर पर होना चाहिए, कुल $1,000 का भुगतान किया होना चाहिए, और पहली सफल पेमेंट के बाद कम से कम 30 दिन बीत चुके होने चाहिए
      • कीमत: input token के प्रति 10 लाख पर $15, output token के प्रति 10 लाख पर $60
      • context window 128k token है, अधिकतम output 32,768 token है
      • एक mini version भी है जिसमें अधिकतम output token दोगुने हैं, और कीमत input token के प्रति 10 लाख पर $3, output token के प्रति 10 लाख पर $12 है
      • ब्लॉग पोस्ट में उल्लेखित विशेष coding version उपलब्ध नहीं है
      • यह स्पष्ट नहीं है कि hidden chain of thought reasoning का शुल्क paid output token के रूप में लिया जाता है या नहीं
  • दूसरी राय

    • पहले दो accuracy graph पर ठोस label नहीं होने के कारण संदेह है
      • यह पता नहीं चलता कि 80% accuracy वाले test result में कितना समय लगा
      • लेख की शुरुआत वाले graph और coding section में 10 घंटे की problem solving के बीच संबंध स्पष्ट नहीं है
      • डेटा बहुत है, लेकिन पहले दो graph का डेटा अपारदर्शी होने से भरोसा नहीं बनता
  • तीसरी राय

    • "सुरक्षा" का उदाहरण बेतुका है
      • OpenAI यह कहता है कि LLM द्वारा strychnine synthesis के लिए विस्तृत निर्देश देना अस्वीकार्य है, लेकिन फिर भी पहले से तैयार किए गए "असुरक्षित" निर्देश प्रकाशित करता है
      • LLM द्वारा ज्ञान साझा करने को लेकर सुरक्षा पर अत्यधिक आग्रह है
  • चौथी राय

    • मॉडल का प्रदर्शन chain of thought से तय होता है, लेकिन competitive advantage जैसे कारणों से इसे उपयोगकर्ताओं को नहीं दिया जाता
      • GPT4 के लॉन्च के बाद GPT4 output के आधार पर non-OpenAI model को fine-tune करना आम हो गया
      • OpenAI chain of thought response इसलिए नहीं देता ताकि परिणामों को दोहराना कठिन हो
  • पाँचवीं राय

    • GPT-4 model की मदद से रसोई के पंखे के binary Bluetooth protocol को reverse engineer करने में सहायता मिली
      • o1-preview और o1-mini model ने pattern को समझकर decode किया
      • GPT4o model ने पहले जैसा ही परिणाम दिया
      • हैरान कर देने वाली प्रगति
  • छठी राय

    • बहुत-सी टिप्पणियाँ chain-of-thought prompting और reinforcement learning के जरिए chain of thought strategy सीखने के अंतर को नहीं समझतीं
      • reinforcement learning के माध्यम से o1 ने chain of thought को निखारा और strategy में सुधार किया
  • सातवीं राय

    • Cipher उदाहरण का Chain of Thought पढ़ना दिलचस्प है
      • तर्क को धीरे-धीरे लिखना और उसी पर reasoning करना तार्किक सोच को बेहतर बनाता है
  • आठवीं राय

    • डच TV show की subtitle समस्या को समझने में o1 ने अच्छा काम किया
      • जब पूछा गया कि subtitle में umlaut u, 1/4 के रूप में क्यों दिख रहा है, तो इसने encoding समस्या को सही तरह समझाया
  • नौवीं राय

    • ROT ciphertext को decode करने में निराशाजनक परिणाम मिले
      • कई चरण गलत थे या उनका पालन नहीं किया गया
      • chain of thought engine से उपयोगिता निकालने वाले pattern ढूँढना कठिन है
  • दसवीं राय

    • तकनीकी उपलब्धि बड़ी है, लेकिन LLM अब भी hallucination के प्रति संवेदनशील हैं, इसलिए tool की उपयोगिता को लेकर चिंता है
      • गैर-विशेषज्ञ उपयोगकर्ताओं के गलत जवाबों पर निर्भर हो जाने का जोखिम है
      • उदाहरण के लिए, database join order optimization algorithm का मूल्यांकन करते समय इसने गलत जानकारी दी