OpenAI के o1: chain-of-thought मॉडल पर नोट्स
(simonwillison.net)- OpenAI ने नए preview मॉडल
o1-previewऔरo1-mini(minipreview नहीं है) लॉन्च किए, जिनका पिछला codename 'strawberry' था
Chain-of-Thought तरीके से प्रशिक्षित
- OpenAI बताता है कि इन मॉडलों को इस तरह डिज़ाइन किया गया है कि वे जवाब देने से पहले अधिक समय तक "सोचें"
- इन नए मॉडलों को "step-by-step thinking" prompting pattern के एक specialized extension के रूप में देखा जा सकता है
- OpenAI के "Learning to Reason with LLMs" लेख में बताया गया है कि नए मॉडल reinforcement learning के माध्यम से chain-of-thought को बेहतर बनाना और strategies को refine करना सीखते हैं
- इसका मतलब है कि मॉडल backtracking और अगले token की भविष्यवाणी से आगे जाकर "सोच" की आवश्यकता वाले जटिल prompts को बेहतर ढंग से संभाल सकता है
API दस्तावेज़ के लो-लेवल विवरण
- image input, function calling, और लगातार तेज़ response time की ज़रूरत वाली applications के लिए GPT-4o और GPT-4o mini मॉडल अब भी उपयुक्त विकल्प रहेंगे
- अगर आप ऐसी applications विकसित कर रहे हैं जिन्हें गहरी reasoning चाहिए और जो लंबे response time स्वीकार कर सकती हैं, तो o1 मॉडल एक शानदार विकल्प हो सकता है
- नए
o1-previewऔरo1-miniमॉडल के लिए API access फिलहाल tier 5 accounts तक सीमित है - system prompt support नहीं है - मॉडल मौजूदा chat completions API का उपयोग करते हैं, लेकिन आप केवल
userऔरassistantmessages भेज सकते हैं - streaming support, tool use, batch calling, और image input भी नहीं है
- समस्या हल करने के लिए आवश्यक reasoning की मात्रा के आधार पर requests को प्रोसेस होने में कुछ सेकंड से लेकर कुछ मिनट तक लग सकते हैं
छिपे हुए reasoning tokens
- API response में दिखाई न देने वाले, लेकिन फिर भी bill किए जाने वाले और output tokens में गिने जाने वाले "reasoning tokens" पेश किए गए हैं
- नए मॉडलों के लिए उपयोगी prompts के मामले में OpenAI इन tokens के लिए लगभग 25,000 का budget रखने का सुझाव देता है
- output token allowance काफी बढ़ा दी गई है:
o1-previewके लिए 32,768 औरo1-miniके लिए 65,536 - API दस्तावेज़ की आख़िरी tip: retrieval-augmented generation (RAG) में अतिरिक्त context देते समय केवल सबसे प्रासंगिक जानकारी शामिल करें, ताकि मॉडल जवाब को अनावश्यक रूप से जटिल न बना दे
छिपे हुए reasoning tokens
- reasoning tokens API में दिखाई नहीं देते - उनका bill होता है, लेकिन आप वास्तव में नहीं देख सकते कि वे क्या हैं
- OpenAI इसके लिए दो मुख्य कारण बताता है:
- सुरक्षा और policy compliance - ऐसी स्थिति से बचने के लिए जिसमें intermediate steps में policy का उल्लंघन करने वाली जानकारी शामिल हो सकती है
- प्रतिस्पर्धात्मक बढ़त - ताकि दूसरे मॉडल OpenAI द्वारा किए गए reasoning कार्य से सीख न सकें
- इस policy निर्णय को लेकर असंतोष है - interpretability और transparency महत्वपूर्ण हैं, इसलिए prompt evaluation के प्रमुख विवरणों का छिपाया जाना एक पीछे हटने जैसा लगता है
उदाहरण
- OpenAI ने शुरुआती उदाहरणों के रूप में Bash script generation, crossword puzzle solving, और chemical solution के pH की गणना जैसी चीज़ें दी हैं
- ये उदाहरण दिखाते हैं कि ChatGPT UI version का मॉडल chain-of-thought के बारे में कुछ विवरण दिखाता है, लेकिन raw reasoning tokens नहीं दिखाता
- OpenAI के पास दो नए cookbook भी हैं जो दिखाते हैं कि data validation और routine generation में reasoning का उपयोग कैसे किया जाए
- Twitter पर पूछा गया कि क्या ऐसे prompt examples हैं जो GPT-4o में fail हुए लेकिन
o1-previewमें काम करते हैं-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- OpenAI researcher Jason Wei ने कहा कि AIME और GPQA पर परिणाम बहुत अच्छे हैं, लेकिन यह ज़रूरी नहीं कि वे सीधे उपयोगकर्ता द्वारा महसूस किए जाने वाले अनुभव में बदलें
इसमें नया क्या है
- समुदाय को यह तय करने में समय लगेगा कि इन मॉडलों को कब और कहाँ लागू करना चाहिए, और इसके best practices क्या हैं
- मुझे लगता है कि मैं आगे भी मुख्य रूप से GPT-4o (और Claude 3.5 Sonnet) का उपयोग करता रहूँगा, लेकिन इस नए तरह के मॉडल के ज़रिए LLM से किस प्रकार के काम हल किए जा सकते हैं, इस बारे में हमारी सामूहिक समझ का विस्तार होते देखना बेहद दिलचस्प होगा
- उम्मीद है कि दूसरे AI labs भी इस style की Chain-of-Thought reasoning को लागू करने के लिए विशेष रूप से प्रशिक्षित मॉडलों के अपने versions के साथ इनमें से कुछ परिणामों को दोहराना शुरू करेंगे
GN⁺ की राय
- chain-of-thought तरीके से प्रशिक्षित मॉडल जटिल समस्याओं को हल करते समय मौजूदा मॉडलों की सीमाओं को पार करने में मदद कर सकते हैं। खासकर उन कामों में, जहाँ step-by-step reasoning और backtracking की ज़रूरत होती है, performance में सुधार की उम्मीद है
- लेकिन API में reasoning tokens को छिपाना मॉडल की interpretability और transparency के लिहाज़ से चिंता का विषय है। उपयोगकर्ता के दृष्टिकोण से मॉडल की reasoning प्रक्रिया को समझना और verify करना कठिन हो सकता है
- अभी यह स्पष्ट नहीं है कि ये मॉडल किन कामों के लिए सबसे उपयुक्त हैं, और मौजूदा मॉडलों की तुलना में इनके फायदे और सीमाएँ क्या हैं। ऐसा लगता है कि समुदाय को विभिन्न use cases और best practices खोजने की प्रक्रिया से गुजरना होगा
- Anthropic के Claude या Cohere के मॉडलों जैसे अन्य AI कंपनियाँ भी इसी तरह के chain-of-thought training तरीकों को अपना सकती हैं। reasoning model बाज़ार में प्रतिस्पर्धा और तेज़ होने की संभावना है
- कुल मिलाकर, OpenAI की यह घोषणा LLM की reasoning क्षमता को बेहतर बनाने के लिए एक नया approach पेश करती है। हालांकि, hidden reasoning tokens जैसी कुछ चिंताजनक बातें भी हैं, इसलिए आगे और सुधार व परिष्कार की ज़रूरत दिखती है
2 टिप्पणियां
टाइपो है :)
"Chai-of-Thought तरीके से प्रशिक्षित" → "Chain-of-Thought तरीके से प्रशिक्षित"
Hacker News राय
o1-preview मॉडल की समस्याएँ
OpenAI शोधकर्ता Jason Wei का उद्धरण
Rust code refactoring का प्रयास
दो मुख्य तत्व
जटिल prompt मूल्यांकन की कठिनाई
o1 की quality और cost की समस्या
GPT-4o और o1-preview की तुलना
बुनियादी गणित के सवाल हल करने में कठिनाई
कानूनी प्रश्न test
Markdown content processing की समस्या