O1 Preview मॉडल को 450 डॉलर से कम में खुद ट्रेन करना

(sky.cs.berkeley.edu)

1 पॉइंट द्वारा GN⁺ 2025-02-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

UC Berkeley NovaSky टीम का Sky-T1 एक ऐसा प्रोजेक्ट है जो दावा करता है कि 450 डॉलर से कम लागत में O1 Preview-स्तर के reasoning model को खुद ट्रेन किया जा सकता है
o1 और Gemini 2.0 Flash Thinking लंबे internal chain of thought का उपयोग करके जटिल कार्यों में मजबूत reasoning performance दिखाते हैं
ऐसे models की technical details और weights सार्वजनिक नहीं हैं, इसलिए academia और open source community के लिए उन्हें reproduce और extend करना मुश्किल है
Still-2 और Journey जैसे open-weight reasoning model बनाने के प्रयास हुए हैं, लेकिन वे मुख्य रूप से math domain पर केंद्रित थे
NovaSky टीम Sky-T1 की अलग पहचान इस बात को बताती है कि इसी model में math और coding दोनों में competitive reasoning performance हासिल की गई

Sky-T1 जिस समस्या को लक्षित करता है

Sky-T1, UC Berkeley Sky Computing Lab की NovaSky टीम द्वारा जारी किया गया प्रोजेक्ट है, जो O1 Preview मॉडल को 450 डॉलर से कम में खुद ट्रेन करने को प्रमुखता से सामने रखता है
o1 और Gemini 2.0 Flash Thinking जैसे reasoning-specialized models जटिल कार्य हल करते समय लंबी internal chain of thought generate करने की क्षमता दिखाते हैं
लेकिन इस श्रेणी के models की technical details और model weights उपलब्ध नहीं हैं, जिससे academia और open source community के लिए सीधे भाग लेना कठिन बना हुआ है

Open-weight reasoning models की धारा और अलग पहचान

Open-weight reasoning model training के प्रयासों के रूप में Still-2 और Journey सामने आए, और ये math domain पर केंद्रित थे
NovaSky टीम base model और instruct-tuned model की reasoning capability बेहतर करने की techniques की पड़ताल करती है
Sky-T1 का काम इस बात पर जोर देता है कि math के साथ-साथ coding में भी उसी model से competitive reasoning performance हासिल की गई

1 टिप्पणियां

GN⁺ 2025-02-22

Hacker News की राय

अगर रुचि हो, तो मैंने मुफ्त GPU वाला एक Colab notebook बना रखा है
यह DeepSeek द्वारा इस्तेमाल किए गए algorithm GRPO से reasoning model को शून्य से train करने वाला notebook है, और Berkeley टीम द्वारा इस्तेमाल किया गया सामान्य finetuning notebook भी है
GRPO notebook for Llama 3.1 8B: https://colab.research.google.com/github/unslothai/notebooks...
General finetuning notebook: https://colab.research.google.com/github/unslothai/notebooks...
Berkeley टीम का 17K dataset: https://huggingface.co/datasets/NovaSky-AI/Sky-T1_data_17k Hugging Face ने भी 220K dataset जारी किया है: https://huggingface.co/datasets/open-r1/OpenR1-Math-220k
- मुफ्त tier T4 पर इसमें कितना समय लगेगा, यह जानने की उत्सुकता है
  मुझे लगा था कि आम programmers के लिए इस तरह “अंदर तक जाकर छेड़छाड़” करने वाला काम करना काफी मुश्किल होगा, लेकिन यह खुद आज़माने लायक स्तर का लगता है
नाम में O1 preview डालना clickbait जैसा लग रहा है, इसलिए अजीब है
मैंने कुछ ऐसा उम्मीद किया था जैसे सचमुच o1 preview को दोबारा train करके download करने का तरीका
और सिर्फ 7 benchmarks देखकर इसे O1 preview कहना भी सही नहीं है। कुछ use cases में O1 preview इस model से बेहतर कर सकता है
फिर भी cost कम होना अच्छी बात है
- यह किसी खास language model का भी नहीं, बल्कि उस model के beta version को सीधे संदर्भित करने वाला नाम है, इसलिए मुझे यह ईमानदार नहीं लगता। आखिर ऐसा क्यों है, समझ नहीं आता
- सहमत हूं। O1 preview नाम थोड़ा भ्रम पैदा करता है
  इससे कुछ खास benchmarks से आगे की व्यापक performance की उम्मीद बनती है। cost saving अच्छी है, लेकिन marketing को इसके scope को ज्यादा पारदर्शी तरीके से दिखाना चाहिए
Competition वाकई अच्छी चीज है
सिर्फ इसलिए कि किसी ने architecture सार्वजनिक किया, पिछले कुछ हफ्तों में progress की बाढ़ आ गई है
अगर training dataset भी सार्वजनिक हो जाएं और copyright कानूनों से बंधे न हों, तो हम कहां तक जा सकते हैं—सोचने पर मजबूर करता है। मैं illegal काम करने की बात नहीं कर रहा
बस सपना देखने के अलावा कुछ कर नहीं सकते
- “progress की बाढ़” कहना बिल्कुल सही है। खासकर Meta ने अपने model को किससे train किया था, यह सामने आने के बाद तो और भी :)
- ऐसे training datasets लगभग सारे copyright में फंसे होते हैं, इसलिए वे कभी पूरी तरह स्वतंत्र नहीं हो सकते
- वैसा रुझान पहले से चल रहा था, और DeepSeek उसी का एक उदाहरण लगता है
  हालांकि उसने उस progress पर ध्यान खींचा, और उसके चलते ज्यादा लोग योगदान देने और ज्यादा niche use cases खोजने लगे
- आजकल माहौल ऐसा नहीं है क्या कि अगर आपके पास सबसे hot startup है, तो बस कानून तोड़ो और सरकारी अफसरों को रिश्वत दे दो? /s
  /s में जोड़ूं तो, एक समय मैं विदेश में रहता था और उस दौर का सबसे popular bitcoin casino चलाता था, और संभावित अमेरिकी खिलाड़ियों को रोकने में बहुत पैसा और ऊर्जा खर्च की। इसलिए बहुत बड़ा पैसा नहीं कमा पाया
  मैंने हिसाब लगाया था कि कानून तोड़कर हमेशा छिपे रहने के लिए कितना कमाना पड़ेगा, और सालाना 10–15 million dollar कमा सकता था, लेकिन छिपने के लिए वह काफी नहीं लगा। लगता है मैंने गड़बड़ कर दी
  दुनिया के सबसे अमीर आदमी ने शुरुआत में gambling transactions को broker करके ही ज्यादातर पैसा बनाया, और अब हर federal agency में दखल दे रहा है। लगता है अनुमति मांगने से बेहतर माफी मांगने की हिम्मत होनी चाहिए थी
असली AI deployment में inference-time compute अभी भी बहुत कम इस्तेमाल हो रहा है
बहुत से लोग ऐसे foundation models बना रहे हैं जिन्हें बड़े problem space पर reasoning करनी होती है, लेकिन वही techniques task-specific performance सुधारने में पर्याप्त लोग नहीं लगा रहे
R1 जैसे बड़े models की reasoning को किसी खास task के लिए आसानी से distill किया जा सकता है। इससे आगे, किसी खास sub-problem के लिए custom thought instructions मिलाने पर finetuned model task-specific reasoning और custom logic दोनों सीख लेता है
यह मुश्किल नहीं है और prompt की बार-बार tuning से आसानी से बेहतर साबित होता है। bug मिले तो उसे ठीक भी किया जा सकता है
thought model distillation और custom thought process inference-time finetuning के लिए मैंने GitHub project बनाया है: https://docs.getkiln.ai/docs/guide-train-a-reasoning-model
- किसी isolated task के बजाय किसी खास problem area के भीतर flexible query range के लिए finetuning data कैसे बनाया जाए, यह जानना चाहूंगा
  यह general instruction tuning जैसा है, लेकिन कहीं ज्यादा focused case है
  उदाहरण के लिए मान लें कि कोई app बनाया जा रहा है जिसमें doctor research literature खोजकर diagnosis में मदद लेते हैं और hypotheses verify करते हैं; जाहिर है domain experts और real users की मदद से देखना होगा कि कैसी queries बनाई जाएं
  लेकिन उसके बाद संभावित queries, instructions, writing style और cognitive style, format, conversation flow आदि के distribution को पर्याप्त रूप से represent करने वाले balanced dataset तक पहुंचने की प्रक्रिया—उसका approach समझना मुश्किल लगता है। गलती से overfit हो जाने वाली dimensions अनंत जैसी दिखती हैं
Blog post थोड़ा unclear था, इसलिए मैंने इसे इस तरह समझा
QwQ से training data बनाया गया, और कुछ cleanup GPT-4o-mini से की गई। उस training data से non-reasoning model Qwen2.5-32B-Instruct को finetune किया गया
नतीजतन Sky-T1 reasoning tasks में QwQ से थोड़ा कमजोर है, लेकिन Qwen2.5 से काफी बेहतर है
यहां कुछ लोग इसे कमतर बता रहे हैं, लेकिन base model को finetune करके reasoning में बेहतर बनाया जा सकता है—यह दिखाने के लिहाज से मुझे यह काफी दिलचस्प लगता है
- qwen2.5 के r1 distillation models से भी तुलना होती तो अच्छा होता
यह शुरू से training नहीं, बल्कि finetuning है, इसलिए यह कहीं ज्यादा reasonable proposition लगता है
फिर भी, इस field में गहराई से नहीं हूं लेकिन finetuning की details को लेकर उत्सुक था, तो dataset और code दोनों मिलना अच्छी बात है
बेहतर URL: https://novasky-ai.github.io/posts/sky-t1/
- पिछली चर्चा यहां है: https://news.ycombinator.com/item?id=42681417
QwQ के reasoning traces से train किया गया, और evaluation में आम तौर पर QwQ से थोड़ा कमजोर है
इसे कोई बहुत बड़ी उपलब्धि कहना मुश्किल है
“Model training 8 H100s पर DeepSpeed Zero-3 offloading के साथ 19 घंटे में पूरी हो जाती है, और Lambda Cloud pricing के हिसाब से करीब 450 dollar” वाला हिस्सा मुख्य लगता है

O1 Preview मॉडल को 450 डॉलर से कम में खुद ट्रेन करना

Sky-T1 जिस समस्या को लक्षित करता है

Open-weight reasoning models की धारा और अलग पहचान

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय