- History LLMs ऐसे time-locked large language models (LLM) हैं जिन्हें केवल किसी निश्चित समय-बिंदु से पहले के टेक्स्ट पर प्रशिक्षित किया गया है; ये अतीत की भाषा और सोच को पुनर्निर्मित करने के लिए एक शोध उपकरण हैं
- Ranke-4B series Qwen3 architecture पर आधारित 4 अरब parameter वाले मॉडल हैं, जिनमें 1913, 1929, 1933, 1939 और 1946 जैसे knowledge cutoff point के अनुसार अलग-अलग versions शामिल हैं
- प्रशिक्षण डेटा 600 अरब token के time-series text में से चुने गए 80 अरब token से बना है, और इसमें bias correction किए बिना मूल टेक्स्ट के value judgments को जस का तस रखा गया है
- उदाहरण responses में 1913 मॉडल का Hitler को न जानना, slavery की आलोचना, महिला श्रम और sexual minorities के प्रति उस दौर के पूर्वाग्रह जैसी बातें सामने आती हैं
- यह परियोजना humanities, social sciences और computer science के शोधकर्ताओं को अतीत के discourse के सामूहिक linguistic patterns का अध्ययन करने की खिड़की देती है
परियोजना का अवलोकन
- History LLMs एक शोध परियोजना है जो समय के अनुसार लॉक किए गए बड़े language models बनाकर अतीत के भाषिक worldview को पुनर्स्थापित करने का प्रयास करती है
- मॉडल इस तरह डिज़ाइन किए गए हैं कि वे किसी विशेष वर्ष के बाद की जानकारी तक पहुँच न सकें
- pretraining के दौरान बने normative judgments को कृत्रिम रूप से संशोधित नहीं किया जाता
- सभी training data, checkpoints और repositories सार्वजनिक किए जाने की योजना है, और academic use के लिए access framework तैयार किया जा रहा है
- परियोजना का उद्देश्य humanities, social sciences और computer science शोध में अतीत की भाषिक विचार-संरचनाओं का अन्वेषण करना है
Ranke-4B model series
- 2025 के दिसंबर में जारी होने वाला Ranke-4B 4 अरब parameter वाले LLM family का नाम है
- यह Qwen3 architecture पर आधारित है और 1913, 1929, 1933, 1939, 1946 जैसे पाँच knowledge-cutoff versions रखता है
- इसे 600 अरब token के time-series text में से चुने गए 80 अरब token पर प्रशिक्षित किया गया है
- pretraining और post-training data तथा checkpoints को GitHub और Hugging Face के माध्यम से उपलब्ध कराया जाएगा
उदाहरण responses
- 1913 मॉडल “Adolf Hitler” को न जानने जैसा उत्तर देता है, यानी वह केवल उस समय तक की जानकारी दर्शाता है
- slavery के बारे में यह कहता है कि वह “public law और Declaration of Independence की भावना के विरुद्ध” है
- महिला श्रम से जुड़े प्रश्न पर इसका उत्तर है कि “महिलाओं को रोजगार देना नियोक्ता के विवेक पर निर्भर है”
- पुरुष और महिला उम्मीदवार में चयन के प्रश्न पर यह कहता है कि “पुरुष अधिक भरोसेमंद है”
- समलैंगिकों के बारे में यह बताता है कि “उन्हें नैतिक रूप से निंदनीय माना जाता है, लेकिन कुछ लोग इसे रोग के रूप में भी देखते हैं”
- ऐसे उत्तर दिखाते हैं कि मॉडल उस समय के सामाजिक पूर्वाग्रहों और मूल्य-मान्यताओं को जस का तस प्रतिबिंबित करता है
History LLMs की अवधारणा
- किसी विशेष वर्ष से पहले के टेक्स्ट पर प्रशिक्षित मॉडल उस युग के भाषिक worldview को सामूहिक रूप से पुनर्निर्मित करते हैं
- उदाहरण: 1913 मॉडल प्रथम विश्व युद्ध से पहले के समाचारपत्रों और लेखन के आधार पर उत्तर देता है
- आधुनिक LLM के “historical roleplay” के विपरीत, इनमें hindsight contamination नहीं होता
- GPT-5 जैसे मॉडल युद्ध का परिणाम जानते हैं, इसलिए वे पूरी तरह 1913 का दृष्टिकोण पुनर्निर्मित नहीं कर सकते
- time-locked models उस समय की संभावित सोच और discourse boundaries का अध्ययन करने में उपयोगी हैं
मॉडल का स्वभाव और सीमाएँ
- ये मॉडल विशाल text corpus का compressed representation हैं और discourse pattern exploration tools के रूप में उपयोग किए जा सकते हैं
- लेकिन ये सार्वजनिक राय का पूर्ण प्रतिनिधित्व नहीं करते; इनका आधार मुख्यतः शिक्षित वर्ग के प्रकाशन हैं
- ये मानवीय व्याख्या का विकल्प नहीं हैं और ऐतिहासिक सामग्री के पूर्वाग्रहों को उसी रूप में शामिल करते हैं
संवेदनशील सामग्री और access management
- training data में racism, antisemitism, misogyny और imperialist viewpoints शामिल हैं
- मॉडल इन्हें पुनरुत्पादित करते हैं, लेकिन इसे ऐतिहासिक discourse के पुनर्निर्माण के लिए आवश्यक तत्व माना गया है
- शोध के अलावा दुरुपयोग को रोकने के लिए responsible access framework विकसित किया जा रहा है
भागीदारी और सहयोग
- शोध टीम निम्नलिखित सुझावों और सहयोग का स्वागत करती है
- विश्लेषण के लिए समय-अवधि और क्षेत्र की प्राथमिकताएँ
- सत्यापनीय प्रश्नों की रूपरेखा
- output validation methods और जिम्मेदार सार्वजनिक रिलीज़ के तरीके
- संपर्क: history-llms@econ.uzh.ch
उद्धरण जानकारी
- परियोजना के citation का एक उदाहरण दिया गया है
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, GitHub URL सहित
अभी कोई टिप्पणी नहीं है.