OpenAI के o1: chain-of-thought मॉडल पर नोट्स

(simonwillison.net)

6 पॉइंट द्वारा GN⁺ 2024-09-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने नए preview मॉडल o1-preview और o1-mini (mini preview नहीं है) लॉन्च किए, जिनका पिछला codename 'strawberry' था

Chain-of-Thought तरीके से प्रशिक्षित

OpenAI बताता है कि इन मॉडलों को इस तरह डिज़ाइन किया गया है कि वे जवाब देने से पहले अधिक समय तक "सोचें"
इन नए मॉडलों को "step-by-step thinking" prompting pattern के एक specialized extension के रूप में देखा जा सकता है
OpenAI के "Learning to Reason with LLMs" लेख में बताया गया है कि नए मॉडल reinforcement learning के माध्यम से chain-of-thought को बेहतर बनाना और strategies को refine करना सीखते हैं
इसका मतलब है कि मॉडल backtracking और अगले token की भविष्यवाणी से आगे जाकर "सोच" की आवश्यकता वाले जटिल prompts को बेहतर ढंग से संभाल सकता है

API दस्तावेज़ के लो-लेवल विवरण

image input, function calling, और लगातार तेज़ response time की ज़रूरत वाली applications के लिए GPT-4o और GPT-4o mini मॉडल अब भी उपयुक्त विकल्प रहेंगे
अगर आप ऐसी applications विकसित कर रहे हैं जिन्हें गहरी reasoning चाहिए और जो लंबे response time स्वीकार कर सकती हैं, तो o1 मॉडल एक शानदार विकल्प हो सकता है
नए o1-preview और o1-mini मॉडल के लिए API access फिलहाल tier 5 accounts तक सीमित है
system prompt support नहीं है - मॉडल मौजूदा chat completions API का उपयोग करते हैं, लेकिन आप केवल user और assistant messages भेज सकते हैं
streaming support, tool use, batch calling, और image input भी नहीं है
समस्या हल करने के लिए आवश्यक reasoning की मात्रा के आधार पर requests को प्रोसेस होने में कुछ सेकंड से लेकर कुछ मिनट तक लग सकते हैं

छिपे हुए reasoning tokens

API response में दिखाई न देने वाले, लेकिन फिर भी bill किए जाने वाले और output tokens में गिने जाने वाले "reasoning tokens" पेश किए गए हैं
नए मॉडलों के लिए उपयोगी prompts के मामले में OpenAI इन tokens के लिए लगभग 25,000 का budget रखने का सुझाव देता है
output token allowance काफी बढ़ा दी गई है: o1-preview के लिए 32,768 और o1-mini के लिए 65,536
API दस्तावेज़ की आख़िरी tip: retrieval-augmented generation (RAG) में अतिरिक्त context देते समय केवल सबसे प्रासंगिक जानकारी शामिल करें, ताकि मॉडल जवाब को अनावश्यक रूप से जटिल न बना दे

छिपे हुए reasoning tokens

reasoning tokens API में दिखाई नहीं देते - उनका bill होता है, लेकिन आप वास्तव में नहीं देख सकते कि वे क्या हैं
OpenAI इसके लिए दो मुख्य कारण बताता है:
1. सुरक्षा और policy compliance - ऐसी स्थिति से बचने के लिए जिसमें intermediate steps में policy का उल्लंघन करने वाली जानकारी शामिल हो सकती है
2. प्रतिस्पर्धात्मक बढ़त - ताकि दूसरे मॉडल OpenAI द्वारा किए गए reasoning कार्य से सीख न सकें
इस policy निर्णय को लेकर असंतोष है - interpretability और transparency महत्वपूर्ण हैं, इसलिए prompt evaluation के प्रमुख विवरणों का छिपाया जाना एक पीछे हटने जैसा लगता है

उदाहरण

OpenAI ने शुरुआती उदाहरणों के रूप में Bash script generation, crossword puzzle solving, और chemical solution के pH की गणना जैसी चीज़ें दी हैं
ये उदाहरण दिखाते हैं कि ChatGPT UI version का मॉडल chain-of-thought के बारे में कुछ विवरण दिखाता है, लेकिन raw reasoning tokens नहीं दिखाता
OpenAI के पास दो नए cookbook भी हैं जो दिखाते हैं कि data validation और routine generation में reasoning का उपयोग कैसे किया जाए
Twitter पर पूछा गया कि क्या ऐसे prompt examples हैं जो GPT-4o में fail हुए लेकिन o1-preview में काम करते हैं
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
OpenAI researcher Jason Wei ने कहा कि AIME और GPQA पर परिणाम बहुत अच्छे हैं, लेकिन यह ज़रूरी नहीं कि वे सीधे उपयोगकर्ता द्वारा महसूस किए जाने वाले अनुभव में बदलें

इसमें नया क्या है

समुदाय को यह तय करने में समय लगेगा कि इन मॉडलों को कब और कहाँ लागू करना चाहिए, और इसके best practices क्या हैं
मुझे लगता है कि मैं आगे भी मुख्य रूप से GPT-4o (और Claude 3.5 Sonnet) का उपयोग करता रहूँगा, लेकिन इस नए तरह के मॉडल के ज़रिए LLM से किस प्रकार के काम हल किए जा सकते हैं, इस बारे में हमारी सामूहिक समझ का विस्तार होते देखना बेहद दिलचस्प होगा
उम्मीद है कि दूसरे AI labs भी इस style की Chain-of-Thought reasoning को लागू करने के लिए विशेष रूप से प्रशिक्षित मॉडलों के अपने versions के साथ इनमें से कुछ परिणामों को दोहराना शुरू करेंगे

GN⁺ की राय

chain-of-thought तरीके से प्रशिक्षित मॉडल जटिल समस्याओं को हल करते समय मौजूदा मॉडलों की सीमाओं को पार करने में मदद कर सकते हैं। खासकर उन कामों में, जहाँ step-by-step reasoning और backtracking की ज़रूरत होती है, performance में सुधार की उम्मीद है
लेकिन API में reasoning tokens को छिपाना मॉडल की interpretability और transparency के लिहाज़ से चिंता का विषय है। उपयोगकर्ता के दृष्टिकोण से मॉडल की reasoning प्रक्रिया को समझना और verify करना कठिन हो सकता है
अभी यह स्पष्ट नहीं है कि ये मॉडल किन कामों के लिए सबसे उपयुक्त हैं, और मौजूदा मॉडलों की तुलना में इनके फायदे और सीमाएँ क्या हैं। ऐसा लगता है कि समुदाय को विभिन्न use cases और best practices खोजने की प्रक्रिया से गुजरना होगा
Anthropic के Claude या Cohere के मॉडलों जैसे अन्य AI कंपनियाँ भी इसी तरह के chain-of-thought training तरीकों को अपना सकती हैं। reasoning model बाज़ार में प्रतिस्पर्धा और तेज़ होने की संभावना है
कुल मिलाकर, OpenAI की यह घोषणा LLM की reasoning क्षमता को बेहतर बनाने के लिए एक नया approach पेश करती है। हालांकि, hidden reasoning tokens जैसी कुछ चिंताजनक बातें भी हैं, इसलिए आगे और सुधार व परिष्कार की ज़रूरत दिखती है

2 टिप्पणियां

naneg93 2024-09-14

टाइपो है :)

"Chai-of-Thought तरीके से प्रशिक्षित" → "Chain-of-Thought तरीके से प्रशिक्षित"

GN⁺ 2024-09-14

Hacker News राय

o1-preview मॉडल की समस्याएँ
- मौजूद न होने वाली लाइब्रेरी और functions की hallucination करता है
- वे तथ्य जो web पर आसानी से नहीं मिलते, उनके बारे में गलत जानकारी देता है
- मॉडल द्वारा बनाई गई जानकारी की तथ्यात्मकता का मूल्यांकन करने का कोई तरीका नहीं है
OpenAI शोधकर्ता Jason Wei का उद्धरण
- AIME और GPQA में मजबूत प्रदर्शन दिखाया, लेकिन users को इसका खास अनुभव नहीं होता
- इस राय पर सवाल उठाते हैं कि बस और कठिन prompts खोजने चाहिए
Rust code refactoring का प्रयास
- o1-mini error-free code देने में सफल नहीं होता
- o1-preview ऐसा code देता है जो compile होता है और अधिकांश tests पास कर जाता है
- Rust लाइब्रेरी में enum हटाकर केवल U8 data type इस्तेमाल करने के लिए बदलने का प्रयास
दो मुख्य तत्व
- अच्छा chain-of-thought prompt पढ़ने और बनाने के लिए trained LLM
- मॉडल को बार-बार re-prompt करने वाला runtime code
- OpenAI इस अंतर को स्पष्ट रूप से नहीं समझाता
जटिल prompt मूल्यांकन की कठिनाई
- prompt evaluation process छिपी हुई है, इसलिए debugging कठिन है
- user के लिए सिर्फ result मायने रखता है, process नहीं
o1 की quality और cost की समस्या
- quality में कोई बड़ा सुधार नहीं है, लेकिन cost और latency पर बड़ा नकारात्मक प्रभाव है
GPT-4o और o1-preview की तुलना
- GPT-4o optimal tic-tac-toe strategy नहीं दे पाता
- o1-preview optimal strategy देता है, लेकिन non-standard grid पर विफल हो जाता है
बुनियादी गणित के सवाल हल करने में कठिनाई
- तीन संख्याओं को जोड़कर और भाग देकर वही परिणाम पाने की समस्या हल करने का प्रयास
- मौजूदा मॉडल के लिए बुनियादी school-level problems भी हल करना कठिन है
कानूनी प्रश्न test
- GPT-4o तुरंत सही जवाब देता है
- o1-preview गलत जवाब देता है और कई follow-up questions की जरूरत पड़ती है
Markdown content processing की समस्या
- जब Markdown content में symbolic logic expressions और proof examples शामिल किए गए, तो उसे service terms का उल्लंघन माना गया

OpenAI के o1: chain-of-thought मॉडल पर नोट्स

Chain-of-Thought तरीके से प्रशिक्षित

API दस्तावेज़ के लो-लेवल विवरण

छिपे हुए reasoning tokens

छिपे हुए reasoning tokens

उदाहरण

इसमें नया क्या है

GN⁺ की राय

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News राय