5 पॉइंट द्वारा GN⁺ 2026-01-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • TimeCapsuleLLM एक large language model (LLM) है जिसे केवल एक विशेष समयावधि (1800~1875) की सामग्रियों पर प्रशिक्षित किया गया है, ताकि आधुनिक bias को न्यूनतम किया जा सके और उस दौर की भाषा व worldview को पुनर्निर्मित किया जा सके
  • मॉडल लंदन क्षेत्र के ऐतिहासिक दस्तावेज़ों, पुस्तकों, अख़बारों, कानूनी दस्तावेज़ों आदि से बने dataset का उपयोग करता है, जिससे समय-विशिष्ट भाषा शैली और शब्दावली परिलक्षित होती है
  • शुरुआती संस्करण nanoGPT पर और बाद के संस्करण Microsoft Phi 1.5 पर आधारित बनाए गए; डेटा का आकार अधिकतम 90GB और मॉडल पैरामीटर अधिकतम 700M हैं
  • Selective Temporal Training(STT) पद्धति के जरिए केवल किसी खास समय के डेटा को चुनकर प्रशिक्षण दिया जाता है, ताकि आधुनिक अवधारणाएँ शामिल न हों
  • यह ऐतिहासिक language model research और समय-विशिष्ट AI भाषा पुनरुत्पादन की संभावनाओं को दिखाने वाला एक प्रायोगिक प्रोजेक्ट है

प्रोजेक्ट अवलोकन

  • TimeCapsuleLLM एक ऐसा language model है जिसे केवल किसी विशिष्ट समय और स्थान के डेटा पर प्रशिक्षित किया गया है, जिसका लक्ष्य आधुनिक bias को कम करना और उस युग की शब्दावली, लेखन शैली और worldview को पुनर्निर्मित करना है
    • यह अवधारणा प्रस्तुत करता है कि “AI केवल ऐतिहासिक व्यक्तियों की नकल न करे, बल्कि वास्तव में उसी युग की भाषा का उपयोग करने वाला मॉडल बने”
  • शुरुआती संस्करण (v0, v0.5) Andrej Karpathy के nanoGPT पर आधारित थे, जबकि v1 Microsoft Phi 1.5 पर आधारित विकसित किया गया
  • मॉडल Hugging Face पर सार्वजनिक रूप से उपलब्ध है

मॉडल संस्करणों की विशेषताएँ

  • v0
    • लगभग 187MB डेटा पर प्रशिक्षित
    • 1800 के दशक की शब्दावली का उपयोग करता है, लेकिन अधिकांश वाक्य अव्याकरणिक हैं
    • आधुनिक अवधारणाएँ बिल्कुल दिखाई नहीं देतीं
  • v0.5
    • व्याकरण और punctuation में सुधार हुआ, जिससे Victorian era की लेखन शैली पुनर्निर्मित हुई
    • factual error rate अधिक है और OCR noise (जैसे: “Digitized by Google”) शामिल है
  • v1
    • वास्तविक ऐतिहासिक घटनाओं और व्यक्तियों को जोड़ने वाले उत्तर उत्पन्न करता है
    • उदाहरण: “It was the year of our Lord 1834” प्रॉम्प्ट पर लंदन के protests और petitions का उल्लेख करने वाले वाक्य उत्पन्न करता है
  • v2mini-eval1 / eval2
    • 90GB में से 15GB sample पर 10K steps तक प्रशिक्षण
    • tokenizer समस्या के कारण शब्द अलग-अलग होकर आउटपुट हुए, लेकिन सुधार के बाद वाक्य संरचना बनी रही
    • “Charles Dickens”, “Charles Darwin” जैसे प्रॉम्प्ट पर 19वीं सदी की शैली में वर्णन उत्पन्न करता है

Dataset संरचना

  • v2 dataset
    • 1800~1875 के लंदन टेक्स्ट का 90GB, कुल 136,344 दस्तावेज़
    • अभी पूर्ण tokenization पूरा नहीं हुआ है, और 15GB sample Hugging Face पर प्रकाशित है
  • डेटा स्रोतों में public domain पुस्तकें, अख़बार, कानूनी दस्तावेज़ आदि शामिल हैं
  • संस्करण के अनुसार डेटा आकार
    • v0: 187MB
    • v0.5: 435MB
    • v1: 6.25GB
    • v2mini-eval1: 15GB

Selective Temporal Training(STT)

  • STT एक ऐसी methodology है जिसमें केवल किसी विशिष्ट ऐतिहासिक काल के डेटा का उपयोग करके प्रशिक्षण दिया जाता है
    • यह आधुनिक अवधारणाओं के प्रभाव को बाहर रखकर केवल उस दौर के ज्ञान और भाषा को प्रतिबिंबित करता है
    • TimeCapsuleLLM v0.5 को 1800~1875 के डेटा पर शुरुआत से प्रशिक्षण (from scratch) देकर बनाया गया
  • मौजूदा मॉडल को fine-tuning करने के बजाय, इसे पूरी तरह नए सिरे से प्रशिक्षित किया गया ताकि आधुनिक जानकारी के अवशेष हटाए जा सकें

मॉडल आकार और प्रशिक्षण वातावरण

  • मॉडल पैरामीटर संख्या
    • v0: 16M
    • v0.5: 123M
    • v1: 700M
    • v2mini-eval1: 300M
  • प्रशिक्षण हार्डवेयर
    • v0/v0.5: RTX 4060 GPU, i5-13400F CPU, 16GB RAM
    • v1, v2mini-eval1: A100 SXM GPU किराए पर उपयोग किया गया

उपयोग विधि

  • प्रोजेक्ट का फोकस ऐतिहासिक डेटा संग्रह, शोधन और tokenizer निर्माण पर है
  • चरणबद्ध प्रक्रिया
    1. ऐतिहासिक टेक्स्ट संग्रह: public domain दस्तावेज़ों, पुस्तकों आदि से समय-विशिष्ट टेक्स्ट एकत्र करें
    2. tokenizer बनाना: train_tokenizer.py चलाकर vocab.json, merges.txt तैयार करें
    3. मॉडल प्रशिक्षण: nanoGPT या चुनी गई architecture के दस्तावेज़ों को देखें

Bias विश्लेषण

  • v2mini-eval1 परिणामों के लिए pronoun, geographic, temporal bias की visualization सामग्री दी गई है
  • विस्तृत आँकड़े v2_bias_report.json फ़ाइल में देखे जा सकते हैं

लाइसेंस और सार्वजनिक जानकारी

  • MIT License के तहत जारी
  • GitHub पर 1.2k Stars, 41 Forks
  • मुख्य भाषा Python 100%
  • नवीनतम release: v2mini-eval2 — London (1800–1875)

1 टिप्पणियां

 
GN⁺ 2026-01-13
Hacker News की राय
  • यह विचार दिलचस्प है कि 1900 को cutoff मानकर एक नवीनतम मॉडल को train किया जाए और उससे quantum mechanics (QM) तथा relativity के बारे में पूछा जाए
    अगर मॉडल थोड़ा भी सही जवाब दे, तो यह इस बात का मजबूत प्रमाण होगा कि LLM बड़े intelligence की दिशा में बढ़ने का रास्ता दिखाते हैं

    • उस दौर में भी QM और relativity के काफ़ी करीब पहुँचने वाले concepts मौजूद थे
      Michelson-Morley experiment (1887), Lorentz transformations (1889), photoelectric effect (1887) इसके उदाहरण हैं
      William Clifford की 1889 में मृत्यु हो गई थी, लेकिन उन्होंने space curvature के ज़रिए force और matter को समझाने का विचार पेश किया था
      विज्ञान अचानक प्रकट नहीं होता; उस समय के papers को समेटकर देखें तो ऐसे सिद्धांत स्वाभाविक रूप से निकल सकते थे
    • मैं German scientific literature (1904 से पहले) पर केंद्रित एक model training project चला रहा हूँ
      OCR quality खराब है, इसलिए ज़्यादातर चीज़ें हाथ से संभालनी पड़ती हैं, लेकिन 700M parameter model घर से भी संभव है
      हालाँकि असली reasoning के लिए 70B-स्तर का मॉडल चाहिए
      साथ ही, fine-tuning और RL प्रक्रिया में 2026 का ज्ञान घुसने न देना एक बड़ी चुनौती है
    • chemistry भी एक दिलचस्प experiment target है
      19वीं सदी का उत्तरार्ध chemistry का golden age था, और यह जानना रोचक होगा कि LLM thermodynamic predictions या नई hypotheses दे सकता है या नहीं
    • ऐसा कुछ पहले भी करने की कोशिश हुई है: history-llms
      संबंधित चर्चा HN thread में देखी जा सकती है
    • Li et al. (2024) का paper "Evaluating Large Language Models for Generalization and Robustness via Data Compression" भी देखने लायक है
      data compression rate (perplexity) के ज़रिए model generalization और robustness को मापने का approach काफ़ी प्रभावशाली लगता है
  • “Who art Henry” को 19वीं सदी की अंग्रेज़ी मान लेना ऐतिहासिक language sense की कमी का उदाहरण लगता है
    असल में वह किसी भी दौर में व्याकरणिक रूप से सही नहीं है

    • 17वीं से 19वीं सदी के Christian texts बहुत पढ़ने के नाते, मैं भी मानता हूँ कि यह अभिव्यक्ति अटपटी लगती है
    • अगर “Who art Henry” ही prompt था, तो सही 19वीं सदी की अभिव्यक्ति क्या होती, यह जानने की जिज्ञासा है
  • यह देखना दिलचस्प है कि क्या यह experiment AGI की संभावना दिखाने वाला test बन सकता है
    सवाल यह है कि अगर केवल किसी विशेष समय (X वर्ष) तक का data दिया जाए, तो क्या मॉडल उसके बाद की खोज (Y) खुद निकाल सकता है

    • पहले AGI की परिभाषा साफ़ करनी होगी
      कुछ खोजें मौजूदा ideas के संयोजन से संभव हैं, लेकिन relativity और quantum mechanics के लिए experiments ज़रूरी थे
      उदाहरण के लिए, उस समय का मॉडल गणितीय रूप से general relativity तक पहुँच भी जाए, तब भी वह Mercury के perihelion shift को planet Vulcan की वजह मान सकता था (Vulcan wiki)
    • data leakage को पूरी तरह रोकना लगभग असंभव है
      गलत वर्गीकृत दस्तावेज़, annotations, metadata आदि से ज्ञान के रिसने का जोखिम बहुत बड़ा है
    • मूल रूप से, केवल पुराने data से SoTA model train करने लायक मात्रा नहीं मिलती
    • यह experiment सच में संभव होने के लिए GPT-5-स्तर का मॉडल माँगेगा
      विशाल text corpus, बड़े पैमाने के parameters, और 19वीं सदी-शैली की RLHF प्रक्रिया की ज़रूरत होगी
    • ऐसा experiment LLM के creative thinking बनाम simple regurgitation की असली परीक्षा बन सकता है
  • एक विचार यह भी दिया गया कि 1800~1875 data पर trained model और 1800~2025 data पर trained model की तुलना की जाए
    और दोनों probability distributions के अंतर का उपयोग करके 2040 की prediction करने की कोशिश की जाए
    व्यवहार में सही prediction मुश्किल होगी, लेकिन probability distribution interpolation/extrapolation experiment के रूप में यह मज़ेदार हो सकता है

    • इस पर मज़ाक में यह भी कहा गया कि कहीं यह बस Gen Alpha slang जैसा न सुनाई दे
  • concept दिलचस्प है, लेकिन उस समय के records knowledge elite-केंद्रित bias रखते हैं
    वह आज जैसा दौर नहीं था, जब हर कोई अपना रिकॉर्ड छोड़ता हो
    आधुनिक models को दर्जनों TB text पर train किया जाता है, जबकि 19वीं सदी का data बहुत कम है और उसमें diversity भी कम है
    इसलिए “1834 में क्या हुआ था?” जैसे सवाल पर अख़बारी लेखन-शैली में जवाब मिलना स्वाभाविक है

    • लेकिन यह consistent bias उल्टे एक फ़ायदा भी हो सकता है
      आज के LLM में बहुत सारे लोगों की सोच मिली होने से कभी-कभी noisy output मिलता है
      किसी खास युग के एकसमान नज़रिए पर trained model के पास अधिक अनुमानित response style हो सकती है
    • कृत्रिम constraints से जो bias सामने आता है, वह आधुनिक models के hidden bias को उजागर करने में मदद कर सकता है
    • आधुनिक models अंग्रेज़ी-केंद्रित, पश्चिमी, और 1990 के बाद के नज़रिए की ओर झुके हुए हैं
      ऊपर से alignment प्रक्रिया में provider के values भी परिलक्षित होते हैं
      इसके विपरीत, पुराने data पर आधारित model उस युग के bias को “संयोग से” प्रतिबिंबित करता है
  • कम से कम ऐसा मॉडल emoji की बाढ़ तो रोक सकता है
    हालाँकि tokenization कैसे बदलेगी, यह जानने की जिज्ञासा है
    इसमें coding knowledge नहीं होगी, लेकिन आधुनिक LLM के साथ मिलाकर 19वीं सदी-शैली की code explanations बनाई जा सकती हैं
    पुराने style transfer models की तरह layers मिलाने का कोई तरीका संभव है या नहीं, इस पर सोच हो रही है

    • इस पर यह सुझाव भी आया: “क्या बस दोनों models को आपस में बात नहीं करने दे सकते?”
  • pre-information era के documents पर ही model train करके, उसे ‘computer क्या है’ सिखाने का experiment प्यारा लगता है
    लेकिन मौजूदा output अभी ChatGPT से ज़्यादा Markov chain स्तर के करीब है

  • हाल में HN पर आया एक और “time-locked LLM project” याद आता है
    नतीजा polished था, लेकिन कहा गया कि misuse और misunderstanding को रोकने के तरीकों पर अभी सोच रहे हैं
    संबंधित thread देखें

  • अगर यह मॉडल लगातार एकसमान output दे सके, तो LLM training में copyrighted material अनिवार्य है वाले दावे का खंडन हो सकता है
    लेकिन फ़िलहाल यह उस स्तर तक पहुँचा हुआ नहीं लगता

    • संदर्भ के लिए, केवल public data से भी काफ़ी अच्छा model बनाया गया है
      The Common Pile v0.1 ने 8TB public text से 7B parameter model बनाया
  • मैंने भी ऐसा ही एक experiment किया था: transformer project
    Bible, Don Quixote, Kafka जैसी अलग-अलग रचनाओं पर अलग-अलग models train किए थे
    (lyrics generator और translator भी थे, लेकिन quality बहुत अच्छी नहीं थी)