TimeCapsuleLLM: केवल 1800~1875 के डेटा पर प्रशिक्षित एक large language model
(github.com/haykgrigo3)- TimeCapsuleLLM एक large language model (LLM) है जिसे केवल एक विशेष समयावधि (1800~1875) की सामग्रियों पर प्रशिक्षित किया गया है, ताकि आधुनिक bias को न्यूनतम किया जा सके और उस दौर की भाषा व worldview को पुनर्निर्मित किया जा सके
- मॉडल लंदन क्षेत्र के ऐतिहासिक दस्तावेज़ों, पुस्तकों, अख़बारों, कानूनी दस्तावेज़ों आदि से बने dataset का उपयोग करता है, जिससे समय-विशिष्ट भाषा शैली और शब्दावली परिलक्षित होती है
- शुरुआती संस्करण nanoGPT पर और बाद के संस्करण Microsoft Phi 1.5 पर आधारित बनाए गए; डेटा का आकार अधिकतम 90GB और मॉडल पैरामीटर अधिकतम 700M हैं
- Selective Temporal Training(STT) पद्धति के जरिए केवल किसी खास समय के डेटा को चुनकर प्रशिक्षण दिया जाता है, ताकि आधुनिक अवधारणाएँ शामिल न हों
- यह ऐतिहासिक language model research और समय-विशिष्ट AI भाषा पुनरुत्पादन की संभावनाओं को दिखाने वाला एक प्रायोगिक प्रोजेक्ट है
प्रोजेक्ट अवलोकन
- TimeCapsuleLLM एक ऐसा language model है जिसे केवल किसी विशिष्ट समय और स्थान के डेटा पर प्रशिक्षित किया गया है, जिसका लक्ष्य आधुनिक bias को कम करना और उस युग की शब्दावली, लेखन शैली और worldview को पुनर्निर्मित करना है
- यह अवधारणा प्रस्तुत करता है कि “AI केवल ऐतिहासिक व्यक्तियों की नकल न करे, बल्कि वास्तव में उसी युग की भाषा का उपयोग करने वाला मॉडल बने”
- शुरुआती संस्करण (v0, v0.5) Andrej Karpathy के nanoGPT पर आधारित थे, जबकि v1 Microsoft Phi 1.5 पर आधारित विकसित किया गया
- मॉडल Hugging Face पर सार्वजनिक रूप से उपलब्ध है
मॉडल संस्करणों की विशेषताएँ
- v0
- लगभग 187MB डेटा पर प्रशिक्षित
- 1800 के दशक की शब्दावली का उपयोग करता है, लेकिन अधिकांश वाक्य अव्याकरणिक हैं
- आधुनिक अवधारणाएँ बिल्कुल दिखाई नहीं देतीं
- v0.5
- व्याकरण और punctuation में सुधार हुआ, जिससे Victorian era की लेखन शैली पुनर्निर्मित हुई
- factual error rate अधिक है और OCR noise (जैसे: “Digitized by Google”) शामिल है
- v1
- वास्तविक ऐतिहासिक घटनाओं और व्यक्तियों को जोड़ने वाले उत्तर उत्पन्न करता है
- उदाहरण: “It was the year of our Lord 1834” प्रॉम्प्ट पर लंदन के protests और petitions का उल्लेख करने वाले वाक्य उत्पन्न करता है
- v2mini-eval1 / eval2
- 90GB में से 15GB sample पर 10K steps तक प्रशिक्षण
- tokenizer समस्या के कारण शब्द अलग-अलग होकर आउटपुट हुए, लेकिन सुधार के बाद वाक्य संरचना बनी रही
- “Charles Dickens”, “Charles Darwin” जैसे प्रॉम्प्ट पर 19वीं सदी की शैली में वर्णन उत्पन्न करता है
Dataset संरचना
- v2 dataset
- 1800~1875 के लंदन टेक्स्ट का 90GB, कुल 136,344 दस्तावेज़
- अभी पूर्ण tokenization पूरा नहीं हुआ है, और 15GB sample Hugging Face पर प्रकाशित है
- डेटा स्रोतों में public domain पुस्तकें, अख़बार, कानूनी दस्तावेज़ आदि शामिल हैं
- संस्करण के अनुसार डेटा आकार
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB
Selective Temporal Training(STT)
- STT एक ऐसी methodology है जिसमें केवल किसी विशिष्ट ऐतिहासिक काल के डेटा का उपयोग करके प्रशिक्षण दिया जाता है
- यह आधुनिक अवधारणाओं के प्रभाव को बाहर रखकर केवल उस दौर के ज्ञान और भाषा को प्रतिबिंबित करता है
- TimeCapsuleLLM v0.5 को 1800~1875 के डेटा पर शुरुआत से प्रशिक्षण (from scratch) देकर बनाया गया
- मौजूदा मॉडल को fine-tuning करने के बजाय, इसे पूरी तरह नए सिरे से प्रशिक्षित किया गया ताकि आधुनिक जानकारी के अवशेष हटाए जा सकें
मॉडल आकार और प्रशिक्षण वातावरण
- मॉडल पैरामीटर संख्या
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
- प्रशिक्षण हार्डवेयर
- v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
- v1, v2mini-eval1: A100 SXM GPU किराए पर उपयोग किया गया
उपयोग विधि
- प्रोजेक्ट का फोकस ऐतिहासिक डेटा संग्रह, शोधन और tokenizer निर्माण पर है
- चरणबद्ध प्रक्रिया
- ऐतिहासिक टेक्स्ट संग्रह: public domain दस्तावेज़ों, पुस्तकों आदि से समय-विशिष्ट टेक्स्ट एकत्र करें
- tokenizer बनाना:
train_tokenizer.pyचलाकरvocab.json,merges.txtतैयार करें - मॉडल प्रशिक्षण: nanoGPT या चुनी गई architecture के दस्तावेज़ों को देखें
Bias विश्लेषण
- v2mini-eval1 परिणामों के लिए pronoun, geographic, temporal bias की visualization सामग्री दी गई है
- विस्तृत आँकड़े
v2_bias_report.jsonफ़ाइल में देखे जा सकते हैं
लाइसेंस और सार्वजनिक जानकारी
- MIT License के तहत जारी
- GitHub पर 1.2k Stars, 41 Forks
- मुख्य भाषा Python 100%
- नवीनतम release: v2mini-eval2 — London (1800–1875)
1 टिप्पणियां
Hacker News की राय
यह विचार दिलचस्प है कि 1900 को cutoff मानकर एक नवीनतम मॉडल को train किया जाए और उससे quantum mechanics (QM) तथा relativity के बारे में पूछा जाए
अगर मॉडल थोड़ा भी सही जवाब दे, तो यह इस बात का मजबूत प्रमाण होगा कि LLM बड़े intelligence की दिशा में बढ़ने का रास्ता दिखाते हैं
Michelson-Morley experiment (1887), Lorentz transformations (1889), photoelectric effect (1887) इसके उदाहरण हैं
William Clifford की 1889 में मृत्यु हो गई थी, लेकिन उन्होंने space curvature के ज़रिए force और matter को समझाने का विचार पेश किया था
विज्ञान अचानक प्रकट नहीं होता; उस समय के papers को समेटकर देखें तो ऐसे सिद्धांत स्वाभाविक रूप से निकल सकते थे
OCR quality खराब है, इसलिए ज़्यादातर चीज़ें हाथ से संभालनी पड़ती हैं, लेकिन 700M parameter model घर से भी संभव है
हालाँकि असली reasoning के लिए 70B-स्तर का मॉडल चाहिए
साथ ही, fine-tuning और RL प्रक्रिया में 2026 का ज्ञान घुसने न देना एक बड़ी चुनौती है
19वीं सदी का उत्तरार्ध chemistry का golden age था, और यह जानना रोचक होगा कि LLM thermodynamic predictions या नई hypotheses दे सकता है या नहीं
संबंधित चर्चा HN thread में देखी जा सकती है
data compression rate (perplexity) के ज़रिए model generalization और robustness को मापने का approach काफ़ी प्रभावशाली लगता है
“Who art Henry” को 19वीं सदी की अंग्रेज़ी मान लेना ऐतिहासिक language sense की कमी का उदाहरण लगता है
असल में वह किसी भी दौर में व्याकरणिक रूप से सही नहीं है
यह देखना दिलचस्प है कि क्या यह experiment AGI की संभावना दिखाने वाला test बन सकता है
सवाल यह है कि अगर केवल किसी विशेष समय (X वर्ष) तक का data दिया जाए, तो क्या मॉडल उसके बाद की खोज (Y) खुद निकाल सकता है
कुछ खोजें मौजूदा ideas के संयोजन से संभव हैं, लेकिन relativity और quantum mechanics के लिए experiments ज़रूरी थे
उदाहरण के लिए, उस समय का मॉडल गणितीय रूप से general relativity तक पहुँच भी जाए, तब भी वह Mercury के perihelion shift को planet Vulcan की वजह मान सकता था (Vulcan wiki)
गलत वर्गीकृत दस्तावेज़, annotations, metadata आदि से ज्ञान के रिसने का जोखिम बहुत बड़ा है
विशाल text corpus, बड़े पैमाने के parameters, और 19वीं सदी-शैली की RLHF प्रक्रिया की ज़रूरत होगी
एक विचार यह भी दिया गया कि 1800~1875 data पर trained model और 1800~2025 data पर trained model की तुलना की जाए
और दोनों probability distributions के अंतर का उपयोग करके 2040 की prediction करने की कोशिश की जाए
व्यवहार में सही prediction मुश्किल होगी, लेकिन probability distribution interpolation/extrapolation experiment के रूप में यह मज़ेदार हो सकता है
concept दिलचस्प है, लेकिन उस समय के records knowledge elite-केंद्रित bias रखते हैं
वह आज जैसा दौर नहीं था, जब हर कोई अपना रिकॉर्ड छोड़ता हो
आधुनिक models को दर्जनों TB text पर train किया जाता है, जबकि 19वीं सदी का data बहुत कम है और उसमें diversity भी कम है
इसलिए “1834 में क्या हुआ था?” जैसे सवाल पर अख़बारी लेखन-शैली में जवाब मिलना स्वाभाविक है
आज के LLM में बहुत सारे लोगों की सोच मिली होने से कभी-कभी noisy output मिलता है
किसी खास युग के एकसमान नज़रिए पर trained model के पास अधिक अनुमानित response style हो सकती है
ऊपर से alignment प्रक्रिया में provider के values भी परिलक्षित होते हैं
इसके विपरीत, पुराने data पर आधारित model उस युग के bias को “संयोग से” प्रतिबिंबित करता है
कम से कम ऐसा मॉडल emoji की बाढ़ तो रोक सकता है
हालाँकि tokenization कैसे बदलेगी, यह जानने की जिज्ञासा है
इसमें coding knowledge नहीं होगी, लेकिन आधुनिक LLM के साथ मिलाकर 19वीं सदी-शैली की code explanations बनाई जा सकती हैं
पुराने style transfer models की तरह layers मिलाने का कोई तरीका संभव है या नहीं, इस पर सोच हो रही है
pre-information era के documents पर ही model train करके, उसे ‘computer क्या है’ सिखाने का experiment प्यारा लगता है
लेकिन मौजूदा output अभी ChatGPT से ज़्यादा Markov chain स्तर के करीब है
हाल में HN पर आया एक और “time-locked LLM project” याद आता है
नतीजा polished था, लेकिन कहा गया कि misuse और misunderstanding को रोकने के तरीकों पर अभी सोच रहे हैं
संबंधित thread देखें
अगर यह मॉडल लगातार एकसमान output दे सके, तो LLM training में copyrighted material अनिवार्य है वाले दावे का खंडन हो सकता है
लेकिन फ़िलहाल यह उस स्तर तक पहुँचा हुआ नहीं लगता
The Common Pile v0.1 ने 8TB public text से 7B parameter model बनाया
मैंने भी ऐसा ही एक experiment किया था: transformer project
Bible, Don Quixote, Kafka जैसी अलग-अलग रचनाओं पर अलग-अलग models train किए थे
(lyrics generator और translator भी थे, लेकिन quality बहुत अच्छी नहीं थी)