- TimeCapsuleLLM एक large language model (LLM) है जिसे केवल एक विशेष समयावधि (1800~1875) की सामग्रियों पर प्रशिक्षित किया गया है, ताकि आधुनिक bias को न्यूनतम किया जा सके और उस दौर की भाषा व worldview को पुनर्निर्मित किया जा सके
- मॉडल लंदन क्षेत्र के ऐतिहासिक दस्तावेज़ों, पुस्तकों, अख़बारों, कानूनी दस्तावेज़ों आदि से बने dataset का उपयोग करता है, जिससे समय-विशिष्ट भाषा शैली और शब्दावली परिलक्षित होती है
- शुरुआती संस्करण nanoGPT पर और बाद के संस्करण Microsoft Phi 1.5 पर आधारित बनाए गए; डेटा का आकार अधिकतम 90GB और मॉडल पैरामीटर अधिकतम 700M हैं
- Selective Temporal Training(STT) पद्धति के जरिए केवल किसी खास समय के डेटा को चुनकर प्रशिक्षण दिया जाता है, ताकि आधुनिक अवधारणाएँ शामिल न हों
- यह ऐतिहासिक language model research और समय-विशिष्ट AI भाषा पुनरुत्पादन की संभावनाओं को दिखाने वाला एक प्रायोगिक प्रोजेक्ट है
प्रोजेक्ट अवलोकन
- TimeCapsuleLLM एक ऐसा language model है जिसे केवल किसी विशिष्ट समय और स्थान के डेटा पर प्रशिक्षित किया गया है, जिसका लक्ष्य आधुनिक bias को कम करना और उस युग की शब्दावली, लेखन शैली और worldview को पुनर्निर्मित करना है
- यह अवधारणा प्रस्तुत करता है कि “AI केवल ऐतिहासिक व्यक्तियों की नकल न करे, बल्कि वास्तव में उसी युग की भाषा का उपयोग करने वाला मॉडल बने”
- शुरुआती संस्करण (v0, v0.5) Andrej Karpathy के nanoGPT पर आधारित थे, जबकि v1 Microsoft Phi 1.5 पर आधारित विकसित किया गया
- मॉडल Hugging Face पर सार्वजनिक रूप से उपलब्ध है
मॉडल संस्करणों की विशेषताएँ
- v0
- लगभग 187MB डेटा पर प्रशिक्षित
- 1800 के दशक की शब्दावली का उपयोग करता है, लेकिन अधिकांश वाक्य अव्याकरणिक हैं
- आधुनिक अवधारणाएँ बिल्कुल दिखाई नहीं देतीं
- v0.5
- व्याकरण और punctuation में सुधार हुआ, जिससे Victorian era की लेखन शैली पुनर्निर्मित हुई
- factual error rate अधिक है और OCR noise (जैसे: “Digitized by Google”) शामिल है
- v1
- वास्तविक ऐतिहासिक घटनाओं और व्यक्तियों को जोड़ने वाले उत्तर उत्पन्न करता है
- उदाहरण: “It was the year of our Lord 1834” प्रॉम्प्ट पर लंदन के protests और petitions का उल्लेख करने वाले वाक्य उत्पन्न करता है
- v2mini-eval1 / eval2
- 90GB में से 15GB sample पर 10K steps तक प्रशिक्षण
- tokenizer समस्या के कारण शब्द अलग-अलग होकर आउटपुट हुए, लेकिन सुधार के बाद वाक्य संरचना बनी रही
- “Charles Dickens”, “Charles Darwin” जैसे प्रॉम्प्ट पर 19वीं सदी की शैली में वर्णन उत्पन्न करता है
Dataset संरचना
- v2 dataset
- 1800~1875 के लंदन टेक्स्ट का 90GB, कुल 136,344 दस्तावेज़
- अभी पूर्ण tokenization पूरा नहीं हुआ है, और 15GB sample Hugging Face पर प्रकाशित है
- डेटा स्रोतों में public domain पुस्तकें, अख़बार, कानूनी दस्तावेज़ आदि शामिल हैं
- संस्करण के अनुसार डेटा आकार
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB
Selective Temporal Training(STT)
- STT एक ऐसी methodology है जिसमें केवल किसी विशिष्ट ऐतिहासिक काल के डेटा का उपयोग करके प्रशिक्षण दिया जाता है
- यह आधुनिक अवधारणाओं के प्रभाव को बाहर रखकर केवल उस दौर के ज्ञान और भाषा को प्रतिबिंबित करता है
- TimeCapsuleLLM v0.5 को 1800~1875 के डेटा पर शुरुआत से प्रशिक्षण (from scratch) देकर बनाया गया
- मौजूदा मॉडल को fine-tuning करने के बजाय, इसे पूरी तरह नए सिरे से प्रशिक्षित किया गया ताकि आधुनिक जानकारी के अवशेष हटाए जा सकें
मॉडल आकार और प्रशिक्षण वातावरण
- मॉडल पैरामीटर संख्या
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
- प्रशिक्षण हार्डवेयर
- v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
- v1, v2mini-eval1: A100 SXM GPU किराए पर उपयोग किया गया
उपयोग विधि
- प्रोजेक्ट का फोकस ऐतिहासिक डेटा संग्रह, शोधन और tokenizer निर्माण पर है
- चरणबद्ध प्रक्रिया
- ऐतिहासिक टेक्स्ट संग्रह: public domain दस्तावेज़ों, पुस्तकों आदि से समय-विशिष्ट टेक्स्ट एकत्र करें
- tokenizer बनाना:
train_tokenizer.py चलाकर vocab.json, merges.txt तैयार करें
- मॉडल प्रशिक्षण: nanoGPT या चुनी गई architecture के दस्तावेज़ों को देखें
Bias विश्लेषण
- v2mini-eval1 परिणामों के लिए pronoun, geographic, temporal bias की visualization सामग्री दी गई है
- विस्तृत आँकड़े
v2_bias_report.json फ़ाइल में देखे जा सकते हैं
लाइसेंस और सार्वजनिक जानकारी
- MIT License के तहत जारी
- GitHub पर 1.2k Stars, 41 Forks
- मुख्य भाषा Python 100%
- नवीनतम release: v2mini-eval2 — London (1800–1875)
अभी कोई टिप्पणी नहीं है.