रियो डी जेनेरियो का “इन-हाउस विकसित” LLM मौजूदा मॉडलों के मर्ज जैसा दिखता है
(github.com/nex-agi)- GitHub स्टेटस Open है, और a778c1ec4e21180ee55c3ea016a348e549e75f09 README के अनुसार मॉडल
Nex-N2-ProऔरQwen3.5-397B-A17Bके मर्ज से बनाया गया था, इसके बाद एक अधिक मजबूत मॉडल की On-Policy Distillation की गई, और पिछले वर्जन में अंतिम distilled model की जगह base merged version गलती से अपलोड हो गया था - मुख्य आरोप यह है कि
prefeitura-rio/Rio-3.5-Open-397Bको IplanRIO द्वारा प्रशिक्षित original 397B model के रूप में पेश किया गया, लेकिन इसके weights Nex और Qwen का लगभग 0.6/0.4 direct element-wise merge हैं और self-training का कोई सबूत नहीं है - हार्डकोडेड “You are Rio” सिस्टम प्रॉम्प्ट हटाकर
rio-397bको 120 identity सवाल भेजे गए, जिनमेंNexजवाब 79.2%(95/120),Nex-AGIजवाब 73.3%(88/120), औरRioजवाब 0.0%(0/120)रहा - प्रॉम्प्ट हटाने के बाद के जवाबों में “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” और “Shanghai Innovation Institute” जैसे वाक्य शामिल थे, और कहा गया कि ये Nex identity data में मौजूद संगठन विवरण को लगभग ज्यों का त्यों दोहराते हैं
- weights विश्लेषण में
(Rio − Qwen) = α × (Nex − Qwen)संबंध को tensor-दर-tensor मापा गया, और collinearity की तुलनाcos_fitके उस मानक से की गई जिसमें स्वतंत्र मॉडल के लिए≈ 0और मर्ज के लिए≈ 1माना गया - मापे गए मान routed experts में
α = 0.571 ± 0.0016,cos_fit = 0.993,lm_headमेंα = 0.574,cos_fit = 0.991, attention मेंα ≈ 0.585,cos_fit ≈ 0.986, और linear-attention projections मेंα ≈ 0.586,cos_fit ≈ 0.984थे - README संशोधन साझा होने के बाद 00INDEX ने पूछा कि क्या यह credit एक घंटे पहले अपडेट किया गया था, और yhcc ने कहा कि देखते हैं अगले दिन मॉडल अपलोड होता है या नहीं
- public funding का मुद्दा अलग विवाद बन गया; एक कमेंट ने “No public funds were used” लिखी X लिंक साझा की, दूसरे ने मेयर के बयान वाली X लिंक दी, और बाद में उद्धृत इमेज में “no public money was spent on this model training” वाक्य शामिल था
1 टिप्पणियां
Hacker News की राय
मेरी किसी पक्ष से संबद्धता नहीं है, लेकिन मामला कुछ ऐसा दिखता है: 1) आधिकारिक मॉडल ने Qwen 397B आधारित होने का दावा किया, और चूँकि Nex भी उसी base model पर है, संभव है कि उन्होंने Nex Pro को जानबूझकर सार्वजनिक नहीं किया 2) सुधार शायद weight merge में on-policy distillation जोड़कर आया होगा, लेकिन अपलोड किए गए मॉडल में distillation का कोई निशान नहीं था, इसलिए भ्रम पैदा हुआ
3) इस मॉडल का Reddit पर दो दिन पहले पोस्ट किए जाने के अलावा कोई खास प्रचार नहीं हुआ, और यह ब्राज़ील के वर्ल्ड कप के पहले मैच वाले वीकेंड से टकरा गया, इसलिए यह स्वाभाविक रूप से फैल गया। Rio के मेयर ने free exposure का फ़ायदा ज़रूर उठाया, लेकिन यह रिसर्च टीम के साथ मिलकर किया गया काम नहीं था
4) अगर उन्होंने सिर्फ़ दो मॉडल merge किए थे, तो Qwen 397B आधारित बताकर और SwiReasoning पेपर तक का ज़िक्र करके सिर्फ़ Nex को छिपाने की कोई वजह नहीं दिखती
5) खैर, सही मॉडल अपलोड कर दिया जाए तो इस दावे की आसानी से जाँच हो सकती है
अगर सच में वे बेहतर प्रदर्शन वाला मॉडल “गलती से” अपलोड नहीं कर पाए, तो अब तक सही फ़ाइल डाल चुके होते
अगर Rio के contractor ने अपने दावे के मुताबिक खुद post-training किया था, तो फिर यह कैसे संभव है, इस पर सवाल है: https://x.com/tenobrus/status/2066243352211996728/photo/1
“Rio के सभी weight tensors Nex और Qwen के 0.6/0.4 मिश्रण से हज़ारों standard deviations के स्तर तक मेल खाते हैं, और यह 60 layers तथा नेटवर्क के हर घटक पर लागू होता है। किसी दूसरी fine-tuning से इसे interpolation के रूप में समझाया नहीं जा सकता” — यह हिस्सा देखकर आजकल के deep learning models की robustness हैरान करती है
यानी सभी weights का साधारण linear combination करने पर भी performance खराब नहीं हुई, बल्कि बेहतर हो गई
आख़िर में यह knobs घुमाते रहने का खेल है, और जब किसी benchmark पर थोड़ा सुधार दिख जाए तो रिलीज़ कर दिया जाता है। HuggingFace पर ऐसे fine-tuned models और chimera models बहुत हैं जो किसी खास टेस्ट में बेहतर दिखते हैं, लेकिन दूसरे उपयोगों में आमतौर पर और खराब हो जाते हैं
censorship हटाने के लिए बदले गए models में भी यह अक्सर होता है। वे पहले censored रहने वाले outputs तो निकाल देते हैं, लेकिन overall output quality गिर जाती है
अलग-अलग pretraining वाले दो LLMs पर यह तरीका शायद काम नहीं करेगा। और अगर करे भी, तो internal activation shapes, dimensions, experts की संख्या, और token vocabulary बिल्कुल समान होनी चाहिए, इसलिए व्यवहार में यह fine-tuning या अकादमिक प्रयोगों के बाहर शायद ही संभव हो
यह इतना अच्छा काम करता है कि कई मामलों में training process का स्पष्ट हिस्सा बन जाता है। कई training branches बनाकर उन्हें merge करना और फिर training जारी रखना, इसी तरह
यह इतना अच्छा क्यों काम करता है, यह अभी भी समझ में नहीं आया है
फिर भी इतना सरल तरीका काम करता है, यह अब भी चौंकाने वाला है
Rio de Janeiro की नगर सरकार ने IT कंपनी IplanRIO के ज़रिए Rio-3.5-Open-397B जारी किया, और इसे Qwen3.5 का internally developed fine-tuned model बताया जो benchmarks में समान public models को हराता है
linked issue का कहना है कि यह वास्तव में लगभग एक हफ़्ता पहले जारी हुए Nex-N2 सहित करीब 60% Nex-N2 Pro + करीब 40% Qwen3.5-397B-A17B का weighted merge है
यह टैक्स की बर्बादी लगती है
कोई किसी और के काम से बिना सही attribution दिए फ़ायदा उठा रहा है? अरे, ऐसा भी होता है क्या!
विवाद का असली मुद्दा यह है कि उन्होंने इसे इस दावे के साथ जारी किया कि इसमें results को बेहतर बनाने वाली post-training की गई है। बाद में सामने आया कि जारी किया गया मॉडल दावे के मुताबिक post-trained model था ही नहीं
अब HuggingFace पेज पर model merge लिखा है, लेकिन पहले नहीं था। उनका कहना है कि गलती से HuggingFace पर गलत मॉडल चढ़ गया और वे जल्द असली मॉडल अपलोड करेंगे
संक्षेप में, उन्होंने सोचा कि दो open-weight models को जोड़कर यह दावा किया जा सकता है कि टीम ने कमाल की post-training उपलब्धि हासिल की, लेकिन यह नहीं सोचा कि दूसरे शोधकर्ता इतने समझदार होंगे कि पता लगा लें कि कोई post-training हुई ही नहीं
अगर मतलब यह है कि असली प्रोडक्ट में गए कुल काम का 0.00001% उन्होंने किया, तो ठीक है
यह ज़्यादा वैसा है जैसे किसी Linux distribution को fork करके उसमें कुछ themes और fonts जोड़ दिए जाएँ, फिर कोई और उस distribution को दोबारा fork करके एक और theme जोड़ दे और उसी पर शिकायत करने लगे
मर्ज किए गए मॉडल को सार्वजनिक किए बिना उसे “इन-हाउस डेवलप्ड” कहकर रीब्रांड करना चिंताजनक पैटर्न है
यह open-source AI डेवलपमेंट पर भरोसा कमजोर करता है, इसलिए मॉडल रिलीज़ में बेहतर source tracing और transparency standards की ज़रूरत है
अच्छा होता अगर मॉडल merging कैसे हुई, इस पर कोई विवरण या सामग्री का लिंक होता
जिज्ञासा है कि क्या वास्तव में weights को गणितीय रूप से मर्ज किया गया, या यह distillation जैसी कोई विधि थी। अगर लेख के अनुसार बिल्कुल training नहीं हुई, तो शायद यह distillation नहीं होगा
आम तौर पर merging का मतलब अलग-अलग मॉडलों के weights को सीधे गणितीय रूप से मिलाने की तकनीक होता है। लगभग 2 साल पहले यह बहुत लोकप्रिय हुई थी, और leaderboard पर तथाकथित Frankenmodel काफी दिखते थे
मेरी नज़र में merging, “abliteration” जैसी चीज़ों की ही श्रेणी में आती है। ये पारंपरिक training/tuning loop के बिना मॉडल weights को सर्जिकल तरीके से संशोधित करने की तकनीकें हैं। अगर इस क्षेत्र में रुचि हो, तो Maxime Labonne को फॉलो करना उपयोगी रहेगा
Model A: A_1, …, A_n
Model B: B_1, …, B_n
C_i = A_i * p + B_i * (1 - p)
यानी बस अलग-अलग मॉडलों के weights का position-wise linear combination किया जाता है
हैरानी की बात तो यह है कि उन्होंने शुरू में मॉडल बनाने की कोशिश तक की
फिर भी, नगर प्रशासन की IT टीम में ऐसा करने की हिम्मत थी, इसे सकारात्मक संकेत माना जा सकता है
“खैर, Steve(Jobs), मुझे लगता है स्थिति ज़्यादा ऐसी है कि हम दोनों का एक अमीर पड़ोसी था जिसका नाम Xerox था, और मैं उसके घर में TV चुराने घुसा तो पता चला कि तुम उसे पहले ही चुरा चुके थे।”
— Bill Gates
अंत और भी दिलचस्प है: “Apple ने 1988 में Microsoft पर बड़ा copyright मुकदमा दायर किया, लेकिन आखिरकार तकनीकी कारणों से हार गया। जज ने माना कि Apple ने नवंबर 1985 में Mac user interface के लिए Microsoft को लापरवाही से perpetual license दे दिया था।”
यानी Microsoft ने Apple का GUI नहीं चुराया; Apple ने खुद ही उसे सौंप दिया