बड़े पैमाने के LLM के weights इतिहास का एक हिस्सा हैं

(antirez.com)

5 पॉइंट द्वारा GN⁺ 2025-03-17 | 2 टिप्पणियां | WhatsApp पर शेयर करें

हर साल कई पुराने web pages गायब हो रहे हैं, और यह ऐसा इतिहास है जो हमेशा के लिए खो रहा है
Internet Archive आधुनिक इतिहास की सबसे मूल्यवान संपत्तियों में से एक है
लेकिन कई कंपनियां और संस्थान archive के अस्तित्व और संरक्षण को कठिन बना रहे हैं
यह तथ्य प्रतीकात्मक है कि Internet Archive का मुख्यालय एक पुराने church building में स्थित है, और इसे एक पवित्र स्थान की तरह देखा जाना चाहिए

वे दिन जब पुराने programmers Z80 assembly में काम करते थे, शुरुआती internet पीढ़ी की चर्चाएं, और 90s में बनी subcultures धीरे-धीरे गायब हो रही हैं
व्यक्तिगत blogs का लुप्त होना → लोगों के जीवन और चेतना के रिकॉर्ड का मिट जाना
वैज्ञानिक papers, digital art, video games, climate data, शुरुआती news sources आदि भी धीरे-धीरे गायब हो रहे हैं
publishers या websites के बंद हो जाने पर यह जानकारी अक्सर हमेशा के लिए खो जाती है

सभी जानकारी को सुरक्षित रखने की कोशिश व्यावहारिक रूप से असफल होने की संभावना अधिक है
- क्योंकि आर्थिक लाभ न होने पर भारी लागत आती है
- मौजूदा दुनिया में उन कामों पर संसाधन लगाना कठिन है जो पैसा नहीं बनाते
LLM (large language model) की information compression क्षमता परफेक्ट नहीं है, लेकिन यह कम से कम न्यूनतम संरक्षण की भूमिका निभा सकती है
- DeepSeek V3 internet के एक lossy compressed version के रूप में पहले से जारी है और उपयोग में है

हम हर नुकसान को वापस नहीं ला सकते, लेकिन Internet Archive जैसी संस्थाओं का समर्थन करना चाहिए
साथ ही एक महत्वपूर्ण कार्य: यह सुनिश्चित करना कि खुले तौर पर जारी LLM weights गायब न हों और सुरक्षित रहें
यह सुनिश्चित करना चाहिए कि Internet Archive की सामग्री LLM pre-training sets में शामिल हो

2 टिप्पणियां

GN⁺ 2025-03-17

Hacker News राय

मुझे "Big LLMs" शीर्षक पसंद आया। अब हम बड़े LLM, छोटे LLM, और शायद मझोले LLM में फर्क कर रहे हैं। मैं इन्हें "Tall LLMs", "Grande LLMs", "Venti LLMs" कहने का सुझाव देना चाहूँगा
Internet Archive को आधुनिक इतिहास के सबसे मूल्यवान हिस्सों में से एक माना जाना चाहिए। लेकिन कई कंपनियाँ और संगठन archive के अस्तित्व और संचय को लगातार अधिक कठिन बना रहे हैं। मैं समझता हूँ कि archive का मुख्यालय एक पूर्व चर्च में स्थित है। इसे पवित्र स्थान मानने का इससे बेहतर तरीका मुश्किल है। Europe-आधारित Internet Archive बनाने के लिए सक्रिय प्रयास चल रहे हैं
Mozilla का llamafile प्रोजेक्ट ऐतिहासिक उद्देश्यों के लिए LLMs को संरक्षित करने के लिए डिज़ाइन किया गया है। वे weights और ज़रूरी सभी software को deterministic, dependency-free single-file executable के रूप में उपलब्ध कराते हैं। अगर आप llamafiles को स्टोर करें, तो 50 साल बाद भी आज जैसा ही output मिल सकता है। मैं चाहूँगा कि Mozilla को समर्थन मिले ताकि यह खास क्षण आने वाली पीढ़ियों के लिए archive हो सके
जैसे नक्शा भूभाग नहीं होता, वैसे ही summary content नहीं होती, न ही library की असली किताब। अगर मैं कोई पोस्ट, किताब, या forum पढ़ना चाहता हूँ, तो मैं वही पढ़ना चाहता हूँ। किसी रहस्यमय mathematical algorithm से बना नकली संस्करण नहीं
मुझे वे अच्छे पुराने दिन याद आते हैं जब मैं फिल्म poster links के साथ movie tables को text-davinci से बनाता था। वह आमतौर पर s3 bucket में image URLs बनाता था। links हमेशा काम करते थे
मुझे लगता है कि इंटरनेट की हर चीज़ का हमेशा के लिए archive न होना ठीक है। पहले लोग कागज़ पर लिखा करते थे और उसमें से ज़्यादातर archive नहीं हुआ। एक समय के बाद वह बस गायब हो गया। मुझे अपने दादा-दादी से notes, किताबों और documents के कई डिब्बे विरासत में मिले। उनमें से ज़्यादातर का मेरे लिए कोई मतलब नहीं था। मुझे बहुत कुछ फेंकना पड़ा और सिर्फ कुछ हज़ार पन्नों के अलग-अलग documents रखे। बाकी चीज़ें हमेशा के लिए गायब हो गईं। और शायद यह ठीक है। archive बहुत महत्वपूर्ण है, लेकिन आज सबसे कठिन हिस्सा यह चुनना है कि क्या archive किया जाए। हर सेकंड इंटरनेट पर इतना content जुड़ रहा है कि उसका सिर्फ एक हिस्सा ही archive किया जा सकता है
मैं सोचता हूँ कि क्या कई अलग-अलग LLMs का उपयोग करके इंटरनेट training data के लोकप्रिय common subset का कोई मोटा संस्करण फिर से बनाया जा सकता है। मैं यह भी जानना चाहता हूँ कि क्या किसी को इस तरह की चीज़ों पर mathematical papers के pointers पता हैं
इसका मेरे लिए बहुत मतलब नहीं है। बिना source की अफवाहों का ऐतिहासिक मूल्य सीमित होता है, और वेब के ज़्यादातर weight-usable models Common Crawl पर आधारित लगते हैं, इसलिए वे संरक्षण के लिए उपलब्ध हैं
मुझे वह narrative पसंद है कि LLM मानव ज्ञान को संरक्षित कर रहे हैं। व्यक्तिगत रूप से मैं चाहता हूँ कि सारा ज्ञान और जानकारी आसानी से सुलभ और उपलब्ध हो। मुझे यकीन है कि ज़्यादातर लोग भी ऐसा ही महसूस करते हैं, भले ही copyright holders लगातार हर चीज़ को paywall के पीछे डालने या registration के पीछे छिपाने के business decisions लेते हों। बहुत से लोग यह पसंद नहीं करते कि Google ads के ज़रिए दुनिया की जानकारी को organize करके फल-फूल रहा है, लेकिन लंबे समय में जानकारी अलग-अलग इंटरनेट data formats में organize और preserve हो रही है। आखिरकार transformer, जिसने LLM weights को संभव बनाया, मूल रूप से Google ने ही डिज़ाइन किया था, और अब वह खुद इतिहास का हिस्सा है
वैज्ञानिक papers और प्रक्रियाएँ publishers के विफल होने और websites के बंद होने पर हमेशा के लिए गायब हो जाती हैं। मुझे नहीं लगता कि बड़े scientific publishers (अभी, हमारे समय में) विफल होंगे। वे समृद्ध हैं

regentag 2025-03-18

"सारांश कंटेंट या लाइब्रेरी की असली किताब नहीं है। अगर आप पोस्ट, किताब और फोरम पढ़ना चाहते हैं, तो आप ठीक वही पढ़ना चाहते हैं। कोई रहस्यमय गणितीय एल्गोरिदम से बना नकली संस्करण नहीं"

मैं यहाँ सहमत हूँ।

बड़े पैमाने के LLM के weights इतिहास का एक हिस्सा हैं

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News राय