S1 : $6 का R1 प्रतिद्वंद्वी?

(timkellogg.me)

14 पॉइंट द्वारा GN⁺ 2025-02-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें

3 फ़रवरी को जारी नया पेपर "s1: Simple test-time scaling" AI क्षेत्र में चर्चा का विषय बना हुआ है
असली महत्वपूर्ण बात मॉडल खुद नहीं, बल्कि यह संकेत है कि AI क्षेत्र में बड़ी प्रगति हो सकती है
यह मॉडल नवीनतम state of the art (SOTA) तक नहीं पहुँचता, लेकिन इतना छोटा है कि लैपटॉप पर भी चल सकता है
अहम बात यह है कि यह बिना जटिलता के समझने में मदद करता है कि यह तकनीक कैसे काम करती है

inference scaling: "रुको" मेरे लिए!

OpenAI ने यह दावा करते हुए एक ग्राफ दिखाया कि "जितना inference time लंबा होगा, LLM का प्रदर्शन उतना बेहतर होगा"
मूल रूप से, अगर LLM को ज़्यादा देर तक "सोचने" दिया जाए तो वह बेहतर प्रदर्शन कर सकता है
समस्या यह थी कि मॉडल को जवाब देने से पहले लंबे समय तक ‘सोचने’ के लिए कैसे नियंत्रित किया जाए, और इसे कैसे किया जा सकता है इस पर पर्याप्त व्याख्या नहीं थी
s1 पेपर इस हिस्से को विस्तार से समझाता है, और यह दिलचस्प है
> जब LLM reasoning के दौरान "सोचता" है, तो वह <think> और </think> टैग के भीतर अपनी आंतरिक सोच प्रक्रिया रखता है, और </think> आने पर अंतिम उत्तर के लिए अपनी शैली को आत्मविश्वासी और अधिकारपूर्ण स्वर में बदलने के लिए प्रशिक्षित किया जाता है
s1 पेपर एक सरल तकनीक बताता है जिसमें "</think>" को ज़बरदस्ती "Wait" से बदल दिया जाता है ताकि मॉडल अधिक देर तक ‘विचार’ करता रहे
- "</think>" को हटाकर या बदलकर मॉडल को लगातार सोचते रहने के लिए प्रेरित किया जाता है
- अचानक "</think>" डालकर reasoning को छोटा काटना भी संभव है
अनुमान है कि इस तरीके से o3-mini-low और o3-mini-high जैसे मॉडल अलग-अलग औसत reasoning time के साथ प्रशिक्षित किए गए होंगे
- संभवतः उन्होंने 3 मॉडल प्रशिक्षित किए, और हर एक का औसत thinking time अलग था, जिसे training के दौरान मापा गया होगा
- अंततः training process उस व्यवहार को model weights में encode करना शुरू कर देती है

Entropix से संबंध

s1 पेपर में बताया गया "Wait" तरीका Entropix के लक्ष्य से बहुत अलग नहीं है
Entropix एक ऐसी तकनीक है जो logits और attention की entropy, साथ ही varentropy को देखते हुए token selection का तरीका बदलती है
- ऐसा लगता है कि "Wait" जैसे token के ज़रिए मॉडल को अपने जवाब पर फिर से विचार करने के लिए प्रेरित करने की कोशिश की गई
उम्मीद है कि इस तरह का तरीका inference time और training time दोनों पर लागू किया जा सकता है

चरम data frugality

s1 मॉडल को सिर्फ 6 डॉलर में विकसित किए जाने का दावा इसलिए है क्योंकि इसे छोटे मॉडल और कम मात्रा के डेटा से प्रशिक्षित किया गया
56K उदाहरण डेटा में से केवल सबसे मूल्यवान 1K चुनकर इस्तेमाल किया गया
- निष्कर्ष यह था कि अतिरिक्त डेटा ने मॉडल के प्रदर्शन में कोई सुधार नहीं किया
32B आकार का मॉडल होने के कारण यह लैपटॉप पर भी चल सकता है
16 NVIDIA H100 का लगभग 26 मिनट तक उपयोग किया गया, जिसकी लागत लगभग 6 डॉलर आँकी गई
कम लागत की वजह से कई experiments (ablations) आज़माए जा सके, और वास्तव में अलग-अलग variables को थोड़ा-थोड़ा बदलकर बार-बार full retraining किया गया
- उदाहरण: "Wait" और "Hmm" में से कौन-सा token अधिक प्रभावी है, इसे सीधे मापा गया
- यह भी परखा गया कि मुख्य example data का कौन-सा हिस्सा सबसे सार्थक signal देता है

भू-राजनीतिक निहितार्थ

एक दृष्टिकोण यह है कि AI राष्ट्रीय सुरक्षा से गहराई से जुड़ा हुआ है
OpenAI और Anthropic जैसी कंपनियाँ भारी बजट क्यों लगा रही हैं, इसका कारण यही है
s1 जैसी cost-cutting innovation आई है, लेकिन यह भी महत्वपूर्ण है कि बड़े पूंजी संसाधनों के साथ उतने ही अधिक प्रयोग एक साथ चलाए जा सकते हैं
यह तर्क भी सामने आ रहा है कि AI विकास की गति और बढ़ाने के लिए और बड़े निवेश की ज़रूरत है

Distealing (मॉडल का अनधिकृत distillation)

s1 dataset मूल रूप से दूसरे मॉडल (Qwen2.5) के thought trace का उपयोग कर बनाए गए distillation का परिणाम है
OpenAI को संदेह है कि DeepSeek ने उसके o1 मॉडल का अनधिकृत distillation करके V3 मॉडल बनाया
लेकिन वास्तव में distillation को रोकना लगातार कठिन होता जा रहा है
- लगभग 1,000 उदाहरण तो कोई व्यक्ति भी पर्याप्त रूप से इकट्ठा कर सकता है
ऐसा लगता है कि OpenAI ने हाल में o3 मॉडल को सीधे जारी करने के बजाय agent के रूप में उपलब्ध कराया, ताकि इस तरह के अनधिकृत distillation को रोका जा सके

निष्कर्ष

s1 का उभरना इस बात का अच्छा उदाहरण है कि खुले क्षेत्र में AI कितनी तेजी से विकसित हो रहा है
OpenAI और Anthropic जैसी कंपनियाँ कहीं अधिक computing resources का उपयोग करके और तेज़ प्रगति हासिल कर सकती हैं
s1 ने R1 या o1 की सीधी नकल नहीं की, बल्कि यह संकेत दिया कि RL के बिना केवल SFT(Supervised Fine Tuning) से भी समान संभावनाएँ खोली जा सकती हैं
यह अनुमान है कि 2025 में और बड़े innovations देखने को मिल सकते हैं

2 टिप्पणियां

hoonix 2025-02-06

Distillation को Distealing कहकर शब्दों का जो मज़ेदार ट्विस्ट दिया है, वह काफ़ी दिलचस्प है!

GN⁺ 2025-02-06

Hacker News राय

'Wait' हैकिंग के ज़रिए inference को बढ़ाना दिलचस्प है। यह तथ्य कि एक सरल तरीका performance को प्रभावित कर सकता है, computer science की प्रगति को मानो कोई मंत्र पढ़ने जैसा महसूस कराता है। सोचता हूँ कि ऐसी सोच की शुरुआत कैसे की जा सकती है
अगर thought process मॉडल को अस्थायी 'layer' देता है जो text को process करने के लिए buffer की तरह काम करता है, तो क्या इस buffer को अलग FNN और attention mechanism वाले अलग context में बदलना समझदारी होगी? इसे natural language में समझाने वाले microprocess के साथ जोड़कर अधिक सघन 'thought' representation दी जा सकती है
CoT एक अच्छी तरह ज्ञात तकनीक है, लेकिन DeepSeek ने computing constraints के कारण memory, bandwidth और parallelism optimization खोजने पर ध्यान दिया। उनके infrastructure और software-level optimization उल्लेखनीय हैं
मुझे लगता है कि मौजूदा benchmark पर्याप्त मजबूत नहीं हैं, और अमेरिकी LLM labs संभवतः infrastructure और hardware optimization की कमी को पहचान रहे होंगे। RL स्तर और parent training अधिक महत्वपूर्ण हो जाएंगे
यह दिलचस्प है कि AI hacking के ज़रिए जिन तरीकों पर प्रयोग हुआ, वही labs में भी इस्तेमाल हो रहे हैं। R1 को लगातार सोचते रहने के लिए 'Okay' से replace करने वाला तरीका इस्तेमाल किया गया
मैंने Tim के ब्लॉग को bookmark कर लिया। AI और neural network क्षेत्र में हो रही प्रगति चौंकाने वाली है। व्यक्तिगत रूप से मैं कमजोर on-device model के साथ LLM-आधारित agent बनाने में कठिनाई झेल रहा हूँ
10,000 H100 होना मतलब S1 की तुलना में 625 गुना अधिक experiments करने की क्षमता होना है। बड़ी कंपनियों में computing resources बर्बाद करने की प्रवृत्ति होती है
reasoning model की output length को नियंत्रित करने का तरीका दिलचस्प है। 'Wait' से replace करके CoT inject करना और jailbreak को आसान बनाना पाया गया
S1 के मूल paper का लिंक दिया गया है
बड़े संगठनों में बहुत अधिक experiments करना संभव नहीं होता, और कर्मचारी जल्दी नतीजे देने पर ध्यान केंद्रित करते हैं। अल्पकालिक लाभ के लिए काम जल्दबाज़ी में आगे बढ़ाया जाता है
LLM के output को आकार देना किसी मूर्ति को तराशने जैसा है। मॉडल को game loop में डालकर हर tick पर उससे interact करना पड़ता है ताकि इच्छित परिणाम मिले। computing resources की भूख बनी रहेगी