- पहले LLM मुख्य रूप से इंटरनेट डेटा पर ट्रेन होते थे, और आज भी अधिकांशतः ऐसा ही है, लेकिन यह बात अब धीरे-धीरे कम सच होती जा रही है
- "इंटरनेट सिम्युलेटर" की अवधारणा GPT-5 और उससे आगे के व्यवहार की भविष्यवाणी करने में उपयोगी नहीं है
- नए मॉडल पहले ही इस परिभाषा से आगे निकल चुके हैं, और यह बदलाव अभी बस शुरू ही हुआ है
डेटा वॉल(Data Wall)
- 2020 के OpenAI GPT-3 पेपर में ट्रेनिंग डेटासेट का विस्तार से वर्णन था, लेकिन अब वह अतीत की बात हो चुकी है
- 2022 के बाद से LLM ट्रेनिंग में user-tailored feedback का इस्तेमाल शुरू हुआ, और OpenAI जैसी कंपनियाँ अपने ट्रेनिंग डेटा के बारे में कम बोल रही हैं
- GPT-4, Sora, या GPT-5 किस डेटा पर ट्रेन हुए हैं यह पता नहीं, लेकिन वे सिर्फ इंटरनेट डेटा पर ट्रेन नहीं हुए हैं
- हाल के समय में LLM ट्रेन करने वालों को "डेटा वॉल" का सामना करना पड़ा है
- OpenAI के पास पहले से ही वेब पर उपलब्ध लगभग सारा डेटा है, इसलिए बेहतर LLM बनाने के लिए private data हासिल करना और बनाना ज़रूरी है
- जिन लैब्स के पास पैसा है, उनके लिए private data को हासिल करना और बनाना ही इसका समाधान है
- शुरुआती चरण में फोकस मौजूदा ट्रेनिंग डेटा को अधिक उपयोगी बनाने या मौजूदा private data को ट्रेनिंग पूल में जोड़ने पर था
- उदाहरण के लिए
- Annotation और filtering: शोधकर्ता ट्रेनिंग डेटा पर annotation बनाते हैं ताकि high-quality data पर फोकस करके बेहतर मॉडल बनाए जा सकें
- RLHF: लैब्स इंसानों से मॉडल आउटपुट का मूल्यांकन करवाती हैं, और इस डेटा से मॉडल को fine-tune करके उपयोगी व्यवहार को बढ़ावा देती हैं
- Usage data: कहा जाता है कि ChatGPT हर दिन लगभग 10 अरब tokens का डेटा पैदा करता है
- Data acquisition: ईमेल, chat logs, proprietary manuals, JIRA tickets, phone recordings, internal reports, contracts जैसे बहुत से डेटा इंटरनेट पर नहीं होते, और मॉडल ट्रेनर इन्हें ट्रेनिंग डेटा में जोड़ सकते हैं
- लेकिन ये तकनीकें "मौजूदा डेटा से अलग तरह का आउटपुट बनाने में LLM की कमजोरी" की समस्या को पूरी तरह हल नहीं करतीं
- LLM को नीचे दिए गए कामों में कठिनाई होती है (क्योंकि ऑनलाइन इन्हें दिखाने वाला टेक्स्ट बहुत कम है)
- जवाब में संदेह या अनिश्चितता व्यक्त करना
- दोहराए जाने वाले वाक्यांशों या loops के बिना लंबी बातचीत बनाए रखना
- LLM agents के लिए high-level plan बनाना
- बड़े legacy codebase पर एक senior engineer जैसी reasoning करना
- बहुत लंबे prompts या जटिल prompts का लगातार और भरोसेमंद तरीके से पालन करना
- बेहतर architectures और अधिक parameters इन सीमाओं को हल करने में मदद कर सकते हैं, लेकिन OpenAI, Meta, Google, Microsoft जैसी कंपनियाँ इन gaps को भरने के लिए नए examples बनाकर ट्रेनिंग पर बहुत पैसा खर्च कर रही हैं
अब LLM custom data पर ट्रेन हो रहे हैं
- Microsoft की Phi-3 technical report (अप्रैल में प्रकाशित) custom data के बढ़ते उपयोग का हालिया उदाहरण है
- phi-3-mini में सिर्फ 3.8 अरब parameters हैं, लेकिन यह बड़े और भारी Mixtral मॉडल के बराबर प्रतिस्पर्धी प्रदर्शन दिखाता है
- इस सुधार का एक हिस्सा बड़े LLM द्वारा बनाए गए high-quality synthetic data को ट्रेनिंग डेटा में शामिल करने से समझाया जाता है
- synthetic data इंटरनेट source data की कमी को भर सकता है और किसी दिए गए आकार पर मॉडल के प्रदर्शन को बेहतर बना सकता है
- synthetic data इस समय LLM शोध का एक प्रमुख विषय है
- LLM को उसके अपने आउटपुट पर कितनी दूर तक ट्रेन किया जा सकता है, यह अभी स्पष्ट नहीं है (यह एक विशाल neural network साँप के अपनी ही पूँछ खाने जैसी स्थिति बन सकती है)
- लेकिन कम से कम synthetic data, LLM के "इंटरनेट सिम्युलेटर" की तरह काम करने से पैदा होने वाले gaps को भरने में मदद करेगा
- उदाहरण के लिए, अगर अनिश्चितता व्यक्त करने वाले ट्रेनिंग examples कम हों, या डेटा representative न होने के कारण biased हो, तो बेहतर examples बनाए जा सकते हैं
- लेकिन LLM से शानदार synthetic data बनाना कठिन समस्या है, और इसकी सीमाएँ होंगी
- इसलिए अब इंटरनेट के बाहर मौजूद डेटा का आख़िरी बड़ा स्रोत, यानी "मानव", सामने आता है
सालाना $1B में कितना डेटा बनाया जा सकता है?
- अगर पैसा दिया जाए, तो लोग डेटा बनाने के लिए तैयार हो जाते हैं
- Scale.ai खुद को "AI के लिए data foundry" कहता है, और ऐसी सेवा चलाता है जिसमें लैब्स लोगों को पैसे देकर डेटा बनवाती हैं
- कहा जाता है कि AI कंपनियाँ पहले से ही Scale की सेवाओं पर सालाना $1B से अधिक खर्च कर रही हैं
- इसमें से कुछ खर्च वेब या LLM से आए डेटा के annotation और evaluation पर होता है, लेकिन बिल्कुल नए ट्रेनिंग डेटा को शुरुआत से बनाने पर भी होता है
- Scale का फोकस PhD-स्तर के विद्वानों, वकीलों, accountants, कवियों, लेखकों और किसी विशेष भाषा में दक्ष लोगों जैसे अत्यधिक specialized workers पर है
- ये लोग OpenAI, Cohere, Anthropic, Google जैसी कंपनियों के लिए मॉडल को train और test करते हैं, और अधिक hourly pay पाते हैं
- OpenAI जैसी कंपनियाँ विशेषज्ञों को इस बात के लिए भुगतान कर सकती हैं कि वे इंटरनेट source data की खाली जगहों को भरने वाला नया और उत्कृष्ट डेटा बनाएँ, और बाद में यही डेटा मॉडल ट्रेनिंग में इस्तेमाल हो
- "ऐसे 50,000 examples जहाँ Ph.D. भी जवाब न जानने वाले सवाल पर सोच-समझकर अनिश्चितता व्यक्त करे" जैसे datasets उनकी production cost से कहीं अधिक मूल्यवान हो सकते हैं
- LLM मूल रूप से इंटरनेट पर उपलब्ध डेटा से सीखे थे, और उनकी शुरुआती बहुत-सी कमजोरियों को वेब पर पोस्ट की गई विविध और अव्यवस्थित सामग्री से उपजा हुआ माना जा सकता है
- लेकिन जैसे-जैसे custom training data का पैमाना और प्रभाव बढ़ेगा, उम्मीद है कि LLM "इंटरनेट सिम्युलेशन" से बहुत आगे निकल जाएँगे
- खासकर उन चीज़ों में जो इंटरनेट पर नहीं हैं, लेकिन $1B से अधिक के custom data generation से साबित की जा सकती हैं, वहाँ वे लगातार बेहतर होंगे
- यानी, यह रेलगाड़ी अभी कुछ समय तक चलती रहेगी
GN⁺ की राय
- डेटा का महत्व: LLMs के प्रदर्शन को बेहतर बनाने के लिए अलग-अलग स्रोतों के डेटा की ज़रूरत है। सिर्फ इंटरनेट डेटा से काम नहीं चलेगा।
- लागत की समस्या: custom data generation में बहुत अधिक खर्च आता है। छोटे लैब्स या कंपनियों के लिए यह बड़ा बोझ हो सकता है।
- synthetic data की सीमाएँ: synthetic data उपयोगी है, लेकिन यह वास्तविक मानव-निर्मित डेटा से अलग हो सकता है। इससे मॉडल की यथार्थपरकता सीमित हो सकती है।
- भविष्य की दिशा: custom data और synthetic data का उपयोग करते हुए LLMs का विकास आगे भी जारी रहने की संभावना है। इससे कई क्षेत्रों में innovation आ सकता है।
- प्रतिस्पर्धा की स्थिति: OpenAI, Google, Microsoft जैसी बड़ी कंपनियाँ custom data generation में निवेश कर रही हैं, इसलिए प्रतिस्पर्धा और तीव्र होने की संभावना है।
2 टिप्पणियां
Data wallआखिरकार तब समस्या बनती है जब पर्याप्त Compute उपलब्ध हो, लेकिन power efficiency और supply के मुद्दों को देखते हुए Compute वृद्धि की सीमा, यानी बिजली की मात्रा की समस्या, और भी ज़्यादा महत्वपूर्ण होती जाएगी।Hacker News टिप्पणियाँ
"Ph.D.들이 모르는 질문에 대해 신중하게 불확실성을 표현하는 50,000개의 예시"जैसे datasets उनकी production cost से भी अधिक मूल्य रख सकते हैं।