अगर आप मॉडल को पुनरुत्पादित नहीं कर सकते, तो वह open source नहीं है

xguru · 2024-01-22T10:27:01+09:00

open source AI क्रांति अभी तक नहीं हुई है बेशक प्रभावशाली open weights models मौजूद हैं, और weights सार्वजनिक करने वालों का धन्यवाद, लेकिन अगर आप मॉडल को पुनरुत्पादित नहीं कर सकते, तो वह वास्तविक open source नहीं है कल्पना कीजिए कि Linux में codebase के बिना केवल binaries जारी किए जाएँ। या यह कि codebase तो जारी किया जाए, लेकिन binaries बनाने में इस्तेमाल हुआ compiler न दिया जाए। आज की स्थिति ठीक ऐसी ही है इसके कई नुकसान हैं आप project में वापस योगदान नहीं कर सकते project को OSS feedback loop का लाभ नहीं मिलता यह सत्यापित करना कठिन है कि model में कोई backdoor (जैसे latent agent) नहीं है यह जाँचना संभव नहीं कि data और content filters company policies के अनुरूप हैं या नहीं model को refresh करने के लिए आपको company पर निर्भर रहना पड़ता है codebase से लेकर data pipeline तक सब कुछ सार्वजनिक रखने वाले वास्तविक open source LLM projects बहुत मूल्य और रचनात्मकता पैदा कर सकते हैं और security में सुधार कर सकते हैं लेकिन weights को पुनरुत्पादित करना code को compile करने जितना आसान नहीं है, इसलिए यह सरल नहीं है। इसके लिए compute capacity और know-how चाहिए और contributions की समीक्षा करना भी कठिन है, क्योंकि अगली training चलाने तक यह पता नहीं चलता कि उनका performance पर क्या असर होगा लेकिन पर्याप्त प्रेरित व्यक्ति या समूह इन बारीकियों को समझ सकते हैं, और भले ही यह मौजूदा OSS से काफी अलग दिखे, यही नई चुनौतियाँ इस क्षेत्र को दिलचस्प बनाती हैं

(twitter.com/amasad)

15 पॉइंट द्वारा xguru 2024-01-22 | 3 टिप्पणियां | WhatsApp पर शेयर करें

open source AI क्रांति अभी तक नहीं हुई है
बेशक प्रभावशाली open weights models मौजूद हैं, और weights सार्वजनिक करने वालों का धन्यवाद, लेकिन अगर आप मॉडल को पुनरुत्पादित नहीं कर सकते, तो वह वास्तविक open source नहीं है
कल्पना कीजिए कि Linux में codebase के बिना केवल binaries जारी किए जाएँ। या यह कि codebase तो जारी किया जाए, लेकिन binaries बनाने में इस्तेमाल हुआ compiler न दिया जाए। आज की स्थिति ठीक ऐसी ही है
इसके कई नुकसान हैं
- आप project में वापस योगदान नहीं कर सकते
- project को OSS feedback loop का लाभ नहीं मिलता
- यह सत्यापित करना कठिन है कि model में कोई backdoor (जैसे latent agent) नहीं है
- यह जाँचना संभव नहीं कि data और content filters company policies के अनुरूप हैं या नहीं
- model को refresh करने के लिए आपको company पर निर्भर रहना पड़ता है
codebase से लेकर data pipeline तक सब कुछ सार्वजनिक रखने वाले वास्तविक open source LLM projects बहुत मूल्य और रचनात्मकता पैदा कर सकते हैं और security में सुधार कर सकते हैं
- लेकिन weights को पुनरुत्पादित करना code को compile करने जितना आसान नहीं है, इसलिए यह सरल नहीं है। इसके लिए compute capacity और know-how चाहिए
- और contributions की समीक्षा करना भी कठिन है, क्योंकि अगली training चलाने तक यह पता नहीं चलता कि उनका performance पर क्या असर होगा
लेकिन पर्याप्त प्रेरित व्यक्ति या समूह इन बारीकियों को समझ सकते हैं, और भले ही यह मौजूदा OSS से काफी अलग दिखे, यही नई चुनौतियाँ इस क्षेत्र को दिलचस्प बनाती हैं

3 टिप्पणियां

coyai 2024-02-07

बिलकुल सही बात,

GitHub या Hugging Face अब open source repository नहीं रहे; उन्हें marketing platform में बदले हुए काफी समय हो चुका है।
कुछ models तो काम करने लायक binary भी उपलब्ध नहीं कराते हैं (https://github.com/AIGCDesignGroup/ReplaceAnything)
सिर्फ online demo देकर, अपनी तकनीक के लिए marketing demo दिखाने में इस्तेमाल होने वाली चीज़ को भला किस अर्थ में Open source platform कहा जाए?
GitHub और Hugging Face भी आखिरकार पहले के SNS की तरह fake और घटिया चीज़ों से भरी हुई एक trash site बनते जा रहे हैं.

इसलिए open source अब एक Myth या Urban Legend बनता जा रहा है। वास्तव में देखें तो इन साइटों पर सच्चे अर्थों में पूरी तरह reproducible open source model लगभग नहीं के बराबर हैं। ज़्यादातर सिर्फ marketing stunt हैं.

cosine20 2024-01-29

बात समझ में आती है, लेकिन... आजकल जो मॉडल आ रहे हैं, उनमें model training के लिए जरूरी computing power और समय ऐसा हो गया है कि किसी आम व्यक्ति के लिए उन्हें reproduce करना मुश्किल है, इसलिए इसे लेकर क्या कहना चाहिए, यह साफ़ नहीं है.
हालाँकि dataset public करने के मामले में मुझसे भी कुछ हद तक सहमति है.

xguru 2024-01-22

Hacker News राय

कल्पना करें कि Linux बिना codebase के सिर्फ binary, या compiler के बिना सिर्फ codebase जारी करे। अभी हम ठीक ऐसी ही स्थिति में हैं।
- यह मौजूदा "open source model" की समस्या को बहुत अच्छी तरह समझाने वाली उपमा है। इस उपमा से open source model की दिक्कत साफ़ दिखती है।
CERN का उदाहरण लें: वे CC0 लाइसेंस के तहत तरह-तरह का experimental data जारी करते हैं। यह कोई छोटा dataset नहीं, बल्कि LHCb के पूरे पहले run के data जितना बड़े पैमाने का है।
- CERN सिर्फ data जारी करके छोड़ नहीं देता, बल्कि analysis guide और ज़रूरी tools (जिनमें ज़्यादातर open source हैं, जैसे ROOT) भी देता है। इससे कोई भी नई खोज कर सकता है या मौजूदा experiment analysis को आगे बढ़ा सकता है। ऐसा खुला data और tools reproducibility के लिए ज़रूरी शर्तें पूरी करते हैं, लेकिन data को सीधे दोबारा generate करना ज़रूरी नहीं होता। सैद्धांतिक रूप से LHC को फिर से बनाया जा सकता है, लेकिन इसके लिए बहुत लोग, पैसा और समय चाहिए। open source model के उलट, मॉडल को दोबारा train करके weights पाए जा सकते हैं, लेकिन data जुटाने और weights को reproduce करने की लागत आम तौर पर बहुत ज़्यादा होती है। यह भी याद रखना चाहिए कि CERN raw data (जो अधिकतर noise होता है) नहीं, बल्कि उसका अधिक refined version जारी करता है। बड़े पैमाने के raw data को डाउनलोड करना मुश्किल काम है, लेकिन large language model (LLM) जैसी चीज़ को train करने के लिए पूरा dataset चाहिए हो सकता है, और इसके साथ अक्सर copyright जैसी अपनी समस्याएँ भी जुड़ी होती हैं।
dataset को जारी करना सबसे बड़ी समस्या है। फिर लोग और कंपनियाँ copyright उल्लंघन का मुकदमा कर देंगी।
- अगर dataset में copyright वाला content शामिल है, तो copyright holder मुकदमा कर सकते हैं। अगर मॉडल में Z-Library या Google Books dataset का बड़ा हिस्सा शामिल रहा हो, तो मुझे हैरानी नहीं होगी।
Open Source Initiative ने पिछले एक साल में AI open source है या नहीं, इस पर अलग-अलग stakeholders की राय इकट्ठा करने वाली एक series चलाई है।
- मैंने All Things Open में इस विषय पर दोपहर भर चली session series में हिस्सा लिया था। इस मुद्दे पर पहले से चल रही चर्चा ज़रूर देखनी चाहिए। यह उतना सीधा मामला नहीं है जितना किसी tweet में समा सके।
AI model पर "open source" शब्द लागू करना, software पर इसे लागू करने की तुलना में ज़्यादा जटिल है। बहुत से लोग reproducibility को open source मानने की कसौटी समझते हैं।
- AI model के मामले में अक्सर model खुद, dataset, और training recipe (जैसे process, hyperparameter) भी source code की तरह जारी किए जाते हैं। इससे अगर आपके पास पर्याप्त compute हो, तो आप मॉडल को train करके weights हासिल कर सकते हैं।
open core भी ऐसा ही है - अगर आप उसे अपनी infra पर host नहीं कर सकते, तो वह असली open source software नहीं है।
- अगर आप उसे अपनी infra पर host नहीं कर सकते, तो उसे वास्तविक open source software नहीं माना जाएगा।
"project को OSS feedback loop का फायदा नहीं मिलता" क्योंकि bug fix की तरह किसी खास समस्या को सुलझाने वाले training data के लिए PR submit नहीं किया जा सकता, इसलिए मुझे नहीं लगता कि feedback loop बहुत देखने को मिलेगा।
- "यह verify करना मुश्किल है कि मॉडल में backdoor नहीं है" dataset के आकार और training process की अपारदर्शिता को देखते हुए, बहुत कम लोग जान पाएँगे कि training data में backdoor है या नहीं।
- "data और content filters को verify करना और यह देखना मुश्किल है कि वे company policy से मेल खाते हैं" training data तक पहुँच के बिना भी model output पर company policy लागू की जा सकती है। सवाल यह है कि क्या हर company को input data filter करके अपना model खुद train करना चाहिए।
- "model को refresh करने के लिए आप company पर निर्भर हो जाते हैं" मौजूदा लागत को देखते हुए, यह बात अभी भी ज़्यादातर लोगों के लिए पहले से सच है।
- "codebase से लेकर data pipeline तक सब कुछ खुला रखने वाला वास्तविक open source LLM project बहुत मूल्य और रचनात्मकता खोल सकता है और security बेहतर कर सकता है" LLM के मामले में मैं कुल मिलाकर इस दावे को लेकर संशय में हूँ। उलटे, इससे malicious actors के लिए हमला करने की surface और बड़ी हो सकती है।
"किसी काम में बदलाव करने के लिए उस काम का पसंदीदा रूप 'source code' होता है।"
- GPLv3 से उद्धरण
- दिलचस्प बात यह है कि इस AI/ML model में weights training set से निकले होते हैं, लेकिन इसे modify करते समय मूल training set तक पहुँच की ज़रूरत नहीं होती। मूल training set के बिना fine-tune करने के तरीकों पर बहुत से tutorial मौजूद हैं।
मैं सहमत नहीं हूँ, और यह उपमा ठीक नहीं है। उसने जो चीज़ें गिनाई हैं, वे trained model के साथ की जा सकती हैं। data का होना व्यवहार में उतना अहम मुद्दा नहीं है। open/free software का मतलब स्वतंत्रताओं का उपयोग कर पाना है, और अगर आपके पास model weights और code है, तो आप सारी स्वतंत्रताओं का उपयोग कर सकते हैं।
क्या कोई ऐसा वास्तविक open source LLM model है जिसमें सारा training data सार्वजनिक रूप से उपलब्ध हो (compatible license के साथ), और training software bit-identical model को reproduce कर सके?
- क्या training non-deterministic है? मुझे पता है कि LLM output जानबूझकर non-deterministic होता है।

अगर आप मॉडल को पुनरुत्पादित नहीं कर सकते, तो वह open source नहीं है

संबंधित पढ़ाई

3 टिप्पणियां

Hacker News राय