1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GitHub स्टेटस Open है, और a778c1ec4e21180ee55c3ea016a348e549e75f09 README के अनुसार मॉडल Nex-N2-Pro और Qwen3.5-397B-A17B के मर्ज से बनाया गया था, इसके बाद एक अधिक मजबूत मॉडल की On-Policy Distillation की गई, और पिछले वर्जन में अंतिम distilled model की जगह base merged version गलती से अपलोड हो गया था
  • मुख्य आरोप यह है कि prefeitura-rio/Rio-3.5-Open-397B को IplanRIO द्वारा प्रशिक्षित original 397B model के रूप में पेश किया गया, लेकिन इसके weights Nex और Qwen का लगभग 0.6/0.4 direct element-wise merge हैं और self-training का कोई सबूत नहीं है
  • हार्डकोडेड “You are Rio” सिस्टम प्रॉम्प्ट हटाकर rio-397b को 120 identity सवाल भेजे गए, जिनमें Nex जवाब 79.2% (95/120), Nex-AGI जवाब 73.3% (88/120), और Rio जवाब 0.0% (0/120) रहा
  • प्रॉम्प्ट हटाने के बाद के जवाबों में “I am Nex, from Nex-AGI”, “Nex-AGI is a large-model ecosystem alliance” और “Shanghai Innovation Institute” जैसे वाक्य शामिल थे, और कहा गया कि ये Nex identity data में मौजूद संगठन विवरण को लगभग ज्यों का त्यों दोहराते हैं
  • weights विश्लेषण में (Rio − Qwen) = α × (Nex − Qwen) संबंध को tensor-दर-tensor मापा गया, और collinearity की तुलना cos_fit के उस मानक से की गई जिसमें स्वतंत्र मॉडल के लिए ≈ 0 और मर्ज के लिए ≈ 1 माना गया
  • मापे गए मान routed experts में α = 0.571 ± 0.0016, cos_fit = 0.993, lm_head में α = 0.574, cos_fit = 0.991, attention में α ≈ 0.585, cos_fit ≈ 0.986, और linear-attention projections में α ≈ 0.586, cos_fit ≈ 0.984 थे
  • README संशोधन साझा होने के बाद 00INDEX ने पूछा कि क्या यह credit एक घंटे पहले अपडेट किया गया था, और yhcc ने कहा कि देखते हैं अगले दिन मॉडल अपलोड होता है या नहीं
  • public funding का मुद्दा अलग विवाद बन गया; एक कमेंट ने “No public funds were used” लिखी X लिंक साझा की, दूसरे ने मेयर के बयान वाली X लिंक दी, और बाद में उद्धृत इमेज में “no public money was spent on this model training” वाक्य शामिल था

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News की राय
  • मेरी किसी पक्ष से संबद्धता नहीं है, लेकिन मामला कुछ ऐसा दिखता है: 1) आधिकारिक मॉडल ने Qwen 397B आधारित होने का दावा किया, और चूँकि Nex भी उसी base model पर है, संभव है कि उन्होंने Nex Pro को जानबूझकर सार्वजनिक नहीं किया 2) सुधार शायद weight merge में on-policy distillation जोड़कर आया होगा, लेकिन अपलोड किए गए मॉडल में distillation का कोई निशान नहीं था, इसलिए भ्रम पैदा हुआ
    3) इस मॉडल का Reddit पर दो दिन पहले पोस्ट किए जाने के अलावा कोई खास प्रचार नहीं हुआ, और यह ब्राज़ील के वर्ल्ड कप के पहले मैच वाले वीकेंड से टकरा गया, इसलिए यह स्वाभाविक रूप से फैल गया। Rio के मेयर ने free exposure का फ़ायदा ज़रूर उठाया, लेकिन यह रिसर्च टीम के साथ मिलकर किया गया काम नहीं था
    4) अगर उन्होंने सिर्फ़ दो मॉडल merge किए थे, तो Qwen 397B आधारित बताकर और SwiReasoning पेपर तक का ज़िक्र करके सिर्फ़ Nex को छिपाने की कोई वजह नहीं दिखती
    5) खैर, सही मॉडल अपलोड कर दिया जाए तो इस दावे की आसानी से जाँच हो सकती है

    • बिंदु 2 के बारे में यह है: https://news.ycombinator.com/item?id=48529544
    • मैंने कभी नहीं सोचा था कि HN पर Rio de Janeiro का अपना LLM जैसा शीर्षक देखूँगा, इसलिए यह सब होना ही हैरान करने वाला है
    • अगर base model को किसी दूसरी लैब के fine-tuned model के साथ merge किया गया था, तो सुधार उस दूसरी मॉडल के fine-tuned weights के कुछ हिस्सों से आया हो सकता है
      अगर सच में वे बेहतर प्रदर्शन वाला मॉडल “गलती से” अपलोड नहीं कर पाए, तो अब तक सही फ़ाइल डाल चुके होते
    • “वर्ल्ड कप डेब्यू” से क्या मतलब है, समझ नहीं आया। ब्राज़ील तो पहले ही 5 बार जीत चुका है, है न?
    • मेरी समझ से कोई distillation हुई ही नहीं, और सभी weights Qwen और Nex का 60/40 element-wise average हैं
      अगर Rio के contractor ने अपने दावे के मुताबिक खुद post-training किया था, तो फिर यह कैसे संभव है, इस पर सवाल है: https://x.com/tenobrus/status/2066243352211996728/photo/1
  • “Rio के सभी weight tensors Nex और Qwen के 0.6/0.4 मिश्रण से हज़ारों standard deviations के स्तर तक मेल खाते हैं, और यह 60 layers तथा नेटवर्क के हर घटक पर लागू होता है। किसी दूसरी fine-tuning से इसे interpolation के रूप में समझाया नहीं जा सकता” — यह हिस्सा देखकर आजकल के deep learning models की robustness हैरान करती है
    यानी सभी weights का साधारण linear combination करने पर भी performance खराब नहीं हुई, बल्कि बेहतर हो गई

    • कुछ benchmarks में इसे बेहतर कहा जा सकता है
      आख़िर में यह knobs घुमाते रहने का खेल है, और जब किसी benchmark पर थोड़ा सुधार दिख जाए तो रिलीज़ कर दिया जाता है। HuggingFace पर ऐसे fine-tuned models और chimera models बहुत हैं जो किसी खास टेस्ट में बेहतर दिखते हैं, लेकिन दूसरे उपयोगों में आमतौर पर और खराब हो जाते हैं
      censorship हटाने के लिए बदले गए models में भी यह अक्सर होता है। वे पहले censored रहने वाले outputs तो निकाल देते हैं, लेकिन overall output quality गिर जाती है
    • यह इसलिए संभव है क्योंकि Nex खुद Qwen3.5 का fine-tuned version है: https://huggingface.co/nex-agi/Nex-N2-Pro
      अलग-अलग pretraining वाले दो LLMs पर यह तरीका शायद काम नहीं करेगा। और अगर करे भी, तो internal activation shapes, dimensions, experts की संख्या, और token vocabulary बिल्कुल समान होनी चाहिए, इसलिए व्यवहार में यह fine-tuning या अकादमिक प्रयोगों के बाहर शायद ही संभव हो
    • इसे linear mode connectivity कहा जाता है, और लगता है कि यह लगभग सभी बड़े models में काम करता है
      यह इतना अच्छा काम करता है कि कई मामलों में training process का स्पष्ट हिस्सा बन जाता है। कई training branches बनाकर उन्हें merge करना और फिर training जारी रखना, इसी तरह
      यह इतना अच्छा क्यों काम करता है, यह अभी भी समझ में नहीं आया है
    • यह काफ़ी जानी-पहचानी धारणा है: https://arxiv.org/abs/2203.05482
      फिर भी इतना सरल तरीका काम करता है, यह अब भी चौंकाने वाला है
    • यह विचार दिलचस्प है कि शायद ऐसे weights या छोटे models पर लगाने के लिए कोई “गुप्त” adjustment set हो सकता है, जिससे Fable जैसी चीज़ों से कहीं बेहतर intelligence simulation बनाई जा सके
  • Rio de Janeiro की नगर सरकार ने IT कंपनी IplanRIO के ज़रिए Rio-3.5-Open-397B जारी किया, और इसे Qwen3.5 का internally developed fine-tuned model बताया जो benchmarks में समान public models को हराता है
    linked issue का कहना है कि यह वास्तव में लगभग एक हफ़्ता पहले जारी हुए Nex-N2 सहित करीब 60% Nex-N2 Pro + करीब 40% Qwen3.5-397B-A17B का weighted merge है

    • मुझे नहीं पता था कि इस तरह का model merge संभव है। शुद्ध software दृष्टिकोण से यह स्वाभाविक लगता है, लेकिन इसका प्रभावी होना आश्चर्यजनक है
    • तो समस्या यह नहीं कि Qwen का attribution नहीं दिया गया, बल्कि यह है कि Nex-N2 Pro का ज़िक्र नहीं किया गया, सही?
    • अगर Rio LLM पर समय खर्च कर रहा है, तो उसके पास पहले से ही दुनिया-स्तरीय IT infrastructure और software होना चाहिए
      यह टैक्स की बर्बादी लगती है
  • कोई किसी और के काम से बिना सही attribution दिए फ़ायदा उठा रहा है? अरे, ऐसा भी होता है क्या!

    • यह दूसरे open-weight models पर आधारित एक open-weight model है
      विवाद का असली मुद्दा यह है कि उन्होंने इसे इस दावे के साथ जारी किया कि इसमें results को बेहतर बनाने वाली post-training की गई है। बाद में सामने आया कि जारी किया गया मॉडल दावे के मुताबिक post-trained model था ही नहीं
      अब HuggingFace पेज पर model merge लिखा है, लेकिन पहले नहीं था। उनका कहना है कि गलती से HuggingFace पर गलत मॉडल चढ़ गया और वे जल्द असली मॉडल अपलोड करेंगे
      संक्षेप में, उन्होंने सोचा कि दो open-weight models को जोड़कर यह दावा किया जा सकता है कि टीम ने कमाल की post-training उपलब्धि हासिल की, लेकिन यह नहीं सोचा कि दूसरे शोधकर्ता इतने समझदार होंगे कि पता लगा लें कि कोई post-training हुई ही नहीं
    • अहम बात attribution नहीं, बल्कि रिसर्च लैब की क्षमता के बारे में झूठ बोलना है
    • दिलचस्प है कि लोग इस बारे में क्या सोचते हैं कि सरकार या सरकारी contractor असल में कुछ किए बिना बहुत काम करने का दावा करे
    • यह तो टैक्स के पैसे से किया गया सीधा धोखा है। इससे और उम्मीद भी क्या की जाए
    • “उनका काम” कहना भी अजीब है, क्योंकि पहले मूल कंटेंट बनाने वालों ने 99.99% काम किया, फिर अमेरिकी कंपनियों ने उसे जोड़कर state-of-the-art LLM बनाया, और “उन्होंने” उस अमेरिकी मॉडल के ऊपर अपना मॉडल बनाने का “काम” किया
      अगर मतलब यह है कि असली प्रोडक्ट में गए कुल काम का 0.00001% उन्होंने किया, तो ठीक है
      यह ज़्यादा वैसा है जैसे किसी Linux distribution को fork करके उसमें कुछ themes और fonts जोड़ दिए जाएँ, फिर कोई और उस distribution को दोबारा fork करके एक और theme जोड़ दे और उसी पर शिकायत करने लगे
  • मर्ज किए गए मॉडल को सार्वजनिक किए बिना उसे “इन-हाउस डेवलप्ड” कहकर रीब्रांड करना चिंताजनक पैटर्न है
    यह open-source AI डेवलपमेंट पर भरोसा कमजोर करता है, इसलिए मॉडल रिलीज़ में बेहतर source tracing और transparency standards की ज़रूरत है

  • अच्छा होता अगर मॉडल merging कैसे हुई, इस पर कोई विवरण या सामग्री का लिंक होता
    जिज्ञासा है कि क्या वास्तव में weights को गणितीय रूप से मर्ज किया गया, या यह distillation जैसी कोई विधि थी। अगर लेख के अनुसार बिल्कुल training नहीं हुई, तो शायद यह distillation नहीं होगा

    • शुरुआत के लिए यह दस्तावेज़ अच्छा है: https://huggingface.co/docs/peft/developer_guides/model_merg...
      आम तौर पर merging का मतलब अलग-अलग मॉडलों के weights को सीधे गणितीय रूप से मिलाने की तकनीक होता है। लगभग 2 साल पहले यह बहुत लोकप्रिय हुई थी, और leaderboard पर तथाकथित Frankenmodel काफी दिखते थे
      मेरी नज़र में merging, “abliteration” जैसी चीज़ों की ही श्रेणी में आती है। ये पारंपरिक training/tuning loop के बिना मॉडल weights को सर्जिकल तरीके से संशोधित करने की तकनीकें हैं। अगर इस क्षेत्र में रुचि हो, तो Maxime Labonne को फॉलो करना उपयोगी रहेगा
    • पढ़ने लायक बहुत कुछ भी नहीं है
      Model A: A_1, …, A_n
      Model B: B_1, …, B_n
      C_i = A_i * p + B_i * (1 - p)
      यानी बस अलग-अलग मॉडलों के weights का position-wise linear combination किया जाता है
  • हैरानी की बात तो यह है कि उन्होंने शुरू में मॉडल बनाने की कोशिश तक की
    फिर भी, नगर प्रशासन की IT टीम में ऐसा करने की हिम्मत थी, इसे सकारात्मक संकेत माना जा सकता है

    • merging और fine-tuning उस स्तर की चीज़ें हैं जो थोड़ा पैसा खर्च कर सकने वाला कोई व्यक्ति भी कर सकता है, इसलिए स्थानीय सरकार भी यह आसानी से कर सकती है
    • जैसा कि हटाए गए कमेंट की परिकल्पना कहती है, ज़्यादा संभव यह लगता है कि सरकार को विशाल LLM training budget का प्रस्ताव दिया गया, अधिकांश पैसा हड़प लिया गया, और फिर गबन को जायज़ ठहराने के लिए सस्ता merged model जारी कर दिया गया
  • “खैर, Steve(Jobs), मुझे लगता है स्थिति ज़्यादा ऐसी है कि हम दोनों का एक अमीर पड़ोसी था जिसका नाम Xerox था, और मैं उसके घर में TV चुराने घुसा तो पता चला कि तुम उसे पहले ही चुरा चुके थे।”
    — Bill Gates

    • उस उद्धरण का शुरुआती हिस्सा और भी मज़ेदार है: “Bill Gates न जाने कैसे अकेले आए, और Apple के 10 कर्मचारियों ने उन्हें घेर रखा था. … Steve ने Bill पर चिल्लाना शुरू कर दिया कि उसने समझौता क्यों तोड़ा।”
      अंत और भी दिलचस्प है: “Apple ने 1988 में Microsoft पर बड़ा copyright मुकदमा दायर किया, लेकिन आखिरकार तकनीकी कारणों से हार गया। जज ने माना कि Apple ने नवंबर 1985 में Mac user interface के लिए Microsoft को लापरवाही से perpetual license दे दिया था।”
      यानी Microsoft ने Apple का GUI नहीं चुराया; Apple ने खुद ही उसे सौंप दिया
    • काश यह सचमुच का उद्धरण हो। वाकई दमदार है