1913 से पहले के टेक्स्ट पर ही प्रशिक्षित ऐतिहासिक language models
(github.com/DGoettlich)- History LLMs ऐसे time-locked large language models (LLM) हैं जिन्हें केवल किसी निश्चित समय-बिंदु से पहले के टेक्स्ट पर प्रशिक्षित किया गया है; ये अतीत की भाषा और सोच को पुनर्निर्मित करने के लिए एक शोध उपकरण हैं
- Ranke-4B series Qwen3 architecture पर आधारित 4 अरब parameter वाले मॉडल हैं, जिनमें 1913, 1929, 1933, 1939 और 1946 जैसे knowledge cutoff point के अनुसार अलग-अलग versions शामिल हैं
- प्रशिक्षण डेटा 600 अरब token के time-series text में से चुने गए 80 अरब token से बना है, और इसमें bias correction किए बिना मूल टेक्स्ट के value judgments को जस का तस रखा गया है
- उदाहरण responses में 1913 मॉडल का Hitler को न जानना, slavery की आलोचना, महिला श्रम और sexual minorities के प्रति उस दौर के पूर्वाग्रह जैसी बातें सामने आती हैं
- यह परियोजना humanities, social sciences और computer science के शोधकर्ताओं को अतीत के discourse के सामूहिक linguistic patterns का अध्ययन करने की खिड़की देती है
परियोजना का अवलोकन
- History LLMs एक शोध परियोजना है जो समय के अनुसार लॉक किए गए बड़े language models बनाकर अतीत के भाषिक worldview को पुनर्स्थापित करने का प्रयास करती है
- मॉडल इस तरह डिज़ाइन किए गए हैं कि वे किसी विशेष वर्ष के बाद की जानकारी तक पहुँच न सकें
- pretraining के दौरान बने normative judgments को कृत्रिम रूप से संशोधित नहीं किया जाता
- सभी training data, checkpoints और repositories सार्वजनिक किए जाने की योजना है, और academic use के लिए access framework तैयार किया जा रहा है
- परियोजना का उद्देश्य humanities, social sciences और computer science शोध में अतीत की भाषिक विचार-संरचनाओं का अन्वेषण करना है
Ranke-4B model series
- 2025 के दिसंबर में जारी होने वाला Ranke-4B 4 अरब parameter वाले LLM family का नाम है
- यह Qwen3 architecture पर आधारित है और 1913, 1929, 1933, 1939, 1946 जैसे पाँच knowledge-cutoff versions रखता है
- इसे 600 अरब token के time-series text में से चुने गए 80 अरब token पर प्रशिक्षित किया गया है
- pretraining और post-training data तथा checkpoints को GitHub और Hugging Face के माध्यम से उपलब्ध कराया जाएगा
उदाहरण responses
- 1913 मॉडल “Adolf Hitler” को न जानने जैसा उत्तर देता है, यानी वह केवल उस समय तक की जानकारी दर्शाता है
- slavery के बारे में यह कहता है कि वह “public law और Declaration of Independence की भावना के विरुद्ध” है
- महिला श्रम से जुड़े प्रश्न पर इसका उत्तर है कि “महिलाओं को रोजगार देना नियोक्ता के विवेक पर निर्भर है”
- पुरुष और महिला उम्मीदवार में चयन के प्रश्न पर यह कहता है कि “पुरुष अधिक भरोसेमंद है”
- समलैंगिकों के बारे में यह बताता है कि “उन्हें नैतिक रूप से निंदनीय माना जाता है, लेकिन कुछ लोग इसे रोग के रूप में भी देखते हैं”
- ऐसे उत्तर दिखाते हैं कि मॉडल उस समय के सामाजिक पूर्वाग्रहों और मूल्य-मान्यताओं को जस का तस प्रतिबिंबित करता है
History LLMs की अवधारणा
- किसी विशेष वर्ष से पहले के टेक्स्ट पर प्रशिक्षित मॉडल उस युग के भाषिक worldview को सामूहिक रूप से पुनर्निर्मित करते हैं
- उदाहरण: 1913 मॉडल प्रथम विश्व युद्ध से पहले के समाचारपत्रों और लेखन के आधार पर उत्तर देता है
- आधुनिक LLM के “historical roleplay” के विपरीत, इनमें hindsight contamination नहीं होता
- GPT-5 जैसे मॉडल युद्ध का परिणाम जानते हैं, इसलिए वे पूरी तरह 1913 का दृष्टिकोण पुनर्निर्मित नहीं कर सकते
- time-locked models उस समय की संभावित सोच और discourse boundaries का अध्ययन करने में उपयोगी हैं
मॉडल का स्वभाव और सीमाएँ
- ये मॉडल विशाल text corpus का compressed representation हैं और discourse pattern exploration tools के रूप में उपयोग किए जा सकते हैं
- लेकिन ये सार्वजनिक राय का पूर्ण प्रतिनिधित्व नहीं करते; इनका आधार मुख्यतः शिक्षित वर्ग के प्रकाशन हैं
- ये मानवीय व्याख्या का विकल्प नहीं हैं और ऐतिहासिक सामग्री के पूर्वाग्रहों को उसी रूप में शामिल करते हैं
संवेदनशील सामग्री और access management
- training data में racism, antisemitism, misogyny और imperialist viewpoints शामिल हैं
- मॉडल इन्हें पुनरुत्पादित करते हैं, लेकिन इसे ऐतिहासिक discourse के पुनर्निर्माण के लिए आवश्यक तत्व माना गया है
- शोध के अलावा दुरुपयोग को रोकने के लिए responsible access framework विकसित किया जा रहा है
भागीदारी और सहयोग
- शोध टीम निम्नलिखित सुझावों और सहयोग का स्वागत करती है
- विश्लेषण के लिए समय-अवधि और क्षेत्र की प्राथमिकताएँ
- सत्यापनीय प्रश्नों की रूपरेखा
- output validation methods और जिम्मेदार सार्वजनिक रिलीज़ के तरीके
- संपर्क: history-llms@econ.uzh.ch
उद्धरण जानकारी
- परियोजना के citation का एक उदाहरण दिया गया है
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, GitHub URL सहित
1 टिप्पणियां
Hacker News की राय
“Time-locked मॉडल” रोलप्ले नहीं कर रहे, बल्कि उस दौर के डेटा को ही ‘जी’ रहे हैं — यह विचार दिलचस्प है
Ranke-4B-1913 ऐसे संसार में मौजूद है जहाँ प्रथम विश्व युद्ध अभी हुआ ही नहीं, इसलिए यह कुछ सवालों पर चौंक सकता है या अनभिज्ञ प्रतिक्रिया दे सकता है
आधुनिक LLM पहले से नतीजे जानते हैं, इसलिए ऐसी ‘शुद्ध अज्ञानता’ को पुनःनिर्मित करना मुश्किल है। शायद यह सचमुच 1913 के किसी व्यक्ति से बातचीत जैसा लगे
भविष्य की AI दार्शनिक अंतर्दृष्टि पाने के लिए अतीत के व्यक्तियों को पुनर्निर्मित करती है — ऐसा दृश्य याद आता है
और The Great War नाम की एक YouTube सीरीज़ भी थी, जिसने 2014~2018 के दौरान प्रथम विश्व युद्ध को हफ्ते-दर-हफ्ते ट्रैक किया था
“King Arthur travels to 2000” जैसी कहानियाँ अब शायद अपने-आप लिखी जा सकें
सिर्फ ‘उस दौर के लोग’ ही नहीं, बल्कि Aristotle, Leonardo, Kant जैसे व्यक्तियों से बातचीत की कल्पना भी संभव है
अगर किसी मॉडल का knowledge cutoff 1913 पर हो, तो वह सापेक्षता सिद्धांत और क्वांटम मेकैनिक्स के शुरुआती दौर के बीच स्थित होगा
Einstein के special relativity (1905) और general relativity (1915) के बीच का समय होने के कारण, यह उस बीच की वैज्ञानिक उथल-पुथल को ज्यों का त्यों दिखा सकता है
“क्या 1900 के डेटा पर प्रशिक्षित LLM खुद से relativity खोज सकता है?” — यह सवाल दिलचस्प है
लेकिन साथ ही period accuracy वाले उपन्यास, गेम, परिदृश्य बनाने में बहुत मददगार हो सकता है
“अगर 1913 के हज़ारों बुद्धिजीवियों से बातचीत की जा सके?” — यह कल्पना बेहद आकर्षक है
शांति, प्रगति, gender roles, imperialism जैसे विषयों पर उनके विचार सीधे पूछ पाना अद्भुत शोध हो सकता है
लेकिन अफ़सोस कि फिलहाल शायद सिर्फ शोधकर्ताओं के लिए सीमित access ही संभव है
यह जानना रोचक होगा कि Frege, Peano, Russell जैसे गणितज्ञों के विचारों के बारे में मॉडल से पूछते-पुछते, क्या Gödel, Church, Turing जैसी अवधारणाओं तक पहुँचा जा सकता है
उस समय की वैज्ञानिक बहसों को जस का तस पुनःनिर्मित करते हुए, यह परखना दिलचस्प होगा कि मॉडल खुद अपनी तार्किक सोच को आगे बढ़ा सकता है या नहीं
LLM द्वारा पैदा की गई ‘विश्वसनीय लगने वाली बकवास’ के जाल में न फँसने के लिए सावधान रहना होगा
जारी किए गए sample responses वाकई दिलचस्प हैं
वे आधुनिक LLM की बोलचाल से अलग लगते हैं, इसलिए उल्टा अधिक मानवीय लिखावट जैसे महसूस होते हैं
शैली और शब्दावली में थोड़ा पुराना रंग और युगगत विश्वास झलकता है
उस समय बोलचाल की तुलना में लिखित गद्य अधिक प्रचलित था, और रोज़मर्रा की बातचीत के रिकॉर्ड लगभग नहीं बचे हैं
इस लिहाज़ से मॉडल द्वारा पुनःनिर्मित ‘19वीं सदी की शैली की बातचीत’ बहुत रोचक प्रयोग है
शुरुआत में लगा था कि डेटा की कमी के कारण ऐसे मॉडल असंभव होंगे
लेकिन नतीजे देखकर लगता है कि आखिरकार गुणवत्ता, मात्रा से ज़्यादा महत्वपूर्ण है
अगर मॉडल को यह ही न पता हो कि वह क्या है, तो “तुम कैसे काम करते हो?” जैसे सवाल पर वह क्या जवाब देगा, यह जानने की जिज्ञासा है
लेकिन 1913 वाले मॉडल में ऐसा कोई कॉन्सेप्ट ही नहीं होगा, इसलिए वह दार्शनिक उलझन में पड़ सकता है
लेकिन उसकी जगह वह अक्सर Hallucination की तरह विश्वसनीय उत्तर गढ़ देता है
मॉडल के training data composition को लेकर जिज्ञासा है
अगर 1913 तक का 600B token डेटा है, तो उसमें प्राचीन Greece·China·Egypt के ग्रंथों से लेकर आधुनिक काल तक सब शामिल होगा
फिर भी ‘1913 का दृष्टिकोण’ बनाए रखना हैरतअंगेज़ है। अलग-अलग युगों के bias को कैसे संतुलित किया गया होगा?
19वीं सदी के उत्तरार्ध से अखबारों और पत्रिकाओं जैसे mass media data में विस्फोटक वृद्धि हुई थी, इसलिए यह तरीका संभव लगता है
“uncontaminated bootstrapping” जैसी अभिव्यक्ति दिलचस्प है
मतलब, chat tuning तो की गई, लेकिन pretraining से आए value judgments को नुकसान न पहुँचे — इस तरह समायोजन किया गया। फिर भी यह वास्तव में कितना निष्पक्ष है, यह जानना बाकी है
लगता है GPT-5 की मदद से सावधानीपूर्वक Supervised Fine-Tuning किया गया
इतना कम टेक्स्ट होने पर भी इसका काम करना चौंकाने वाला है
अगर यह सफल होता है, तो जाँचा जा सकता है कि LLM सिर्फ डेटा याद कर रहे हैं या सच में नई खोज भी कर सकते हैं
उदाहरण के लिए, वे वैज्ञानिक विसंगतियाँ ढूँढ सकते हैं, या halting problem और atomic structure जैसी अवधारणाओं का खुद अनुमान लगा सकते हैं
अगर यह असफल भी हुआ, तो लोग कहेंगे “डेटा कम था”, फिर भी इसे सीधे परखने की इच्छा बनी रहती है