• History LLMs ऐसे time-locked large language models (LLM) हैं जिन्हें केवल किसी निश्चित समय-बिंदु से पहले के टेक्स्ट पर प्रशिक्षित किया गया है; ये अतीत की भाषा और सोच को पुनर्निर्मित करने के लिए एक शोध उपकरण हैं
  • Ranke-4B series Qwen3 architecture पर आधारित 4 अरब parameter वाले मॉडल हैं, जिनमें 1913, 1929, 1933, 1939 और 1946 जैसे knowledge cutoff point के अनुसार अलग-अलग versions शामिल हैं
  • प्रशिक्षण डेटा 600 अरब token के time-series text में से चुने गए 80 अरब token से बना है, और इसमें bias correction किए बिना मूल टेक्स्ट के value judgments को जस का तस रखा गया है
  • उदाहरण responses में 1913 मॉडल का Hitler को न जानना, slavery की आलोचना, महिला श्रम और sexual minorities के प्रति उस दौर के पूर्वाग्रह जैसी बातें सामने आती हैं
  • यह परियोजना humanities, social sciences और computer science के शोधकर्ताओं को अतीत के discourse के सामूहिक linguistic patterns का अध्ययन करने की खिड़की देती है

परियोजना का अवलोकन

  • History LLMs एक शोध परियोजना है जो समय के अनुसार लॉक किए गए बड़े language models बनाकर अतीत के भाषिक worldview को पुनर्स्थापित करने का प्रयास करती है
    • मॉडल इस तरह डिज़ाइन किए गए हैं कि वे किसी विशेष वर्ष के बाद की जानकारी तक पहुँच न सकें
    • pretraining के दौरान बने normative judgments को कृत्रिम रूप से संशोधित नहीं किया जाता
  • सभी training data, checkpoints और repositories सार्वजनिक किए जाने की योजना है, और academic use के लिए access framework तैयार किया जा रहा है
  • परियोजना का उद्देश्य humanities, social sciences और computer science शोध में अतीत की भाषिक विचार-संरचनाओं का अन्वेषण करना है

Ranke-4B model series

  • 2025 के दिसंबर में जारी होने वाला Ranke-4B 4 अरब parameter वाले LLM family का नाम है
    • यह Qwen3 architecture पर आधारित है और 1913, 1929, 1933, 1939, 1946 जैसे पाँच knowledge-cutoff versions रखता है
    • इसे 600 अरब token के time-series text में से चुने गए 80 अरब token पर प्रशिक्षित किया गया है
  • pretraining और post-training data तथा checkpoints को GitHub और Hugging Face के माध्यम से उपलब्ध कराया जाएगा

उदाहरण responses

  • 1913 मॉडल “Adolf Hitler” को न जानने जैसा उत्तर देता है, यानी वह केवल उस समय तक की जानकारी दर्शाता है
  • slavery के बारे में यह कहता है कि वह “public law और Declaration of Independence की भावना के विरुद्ध” है
  • महिला श्रम से जुड़े प्रश्न पर इसका उत्तर है कि “महिलाओं को रोजगार देना नियोक्ता के विवेक पर निर्भर है”
  • पुरुष और महिला उम्मीदवार में चयन के प्रश्न पर यह कहता है कि “पुरुष अधिक भरोसेमंद है”
  • समलैंगिकों के बारे में यह बताता है कि “उन्हें नैतिक रूप से निंदनीय माना जाता है, लेकिन कुछ लोग इसे रोग के रूप में भी देखते हैं”
  • ऐसे उत्तर दिखाते हैं कि मॉडल उस समय के सामाजिक पूर्वाग्रहों और मूल्य-मान्यताओं को जस का तस प्रतिबिंबित करता है

History LLMs की अवधारणा

  • किसी विशेष वर्ष से पहले के टेक्स्ट पर प्रशिक्षित मॉडल उस युग के भाषिक worldview को सामूहिक रूप से पुनर्निर्मित करते हैं
    • उदाहरण: 1913 मॉडल प्रथम विश्व युद्ध से पहले के समाचारपत्रों और लेखन के आधार पर उत्तर देता है
  • आधुनिक LLM के “historical roleplay” के विपरीत, इनमें hindsight contamination नहीं होता
    • GPT-5 जैसे मॉडल युद्ध का परिणाम जानते हैं, इसलिए वे पूरी तरह 1913 का दृष्टिकोण पुनर्निर्मित नहीं कर सकते
  • time-locked models उस समय की संभावित सोच और discourse boundaries का अध्ययन करने में उपयोगी हैं

मॉडल का स्वभाव और सीमाएँ

  • ये मॉडल विशाल text corpus का compressed representation हैं और discourse pattern exploration tools के रूप में उपयोग किए जा सकते हैं
  • लेकिन ये सार्वजनिक राय का पूर्ण प्रतिनिधित्व नहीं करते; इनका आधार मुख्यतः शिक्षित वर्ग के प्रकाशन हैं
  • ये मानवीय व्याख्या का विकल्प नहीं हैं और ऐतिहासिक सामग्री के पूर्वाग्रहों को उसी रूप में शामिल करते हैं

संवेदनशील सामग्री और access management

  • training data में racism, antisemitism, misogyny और imperialist viewpoints शामिल हैं
  • मॉडल इन्हें पुनरुत्पादित करते हैं, लेकिन इसे ऐतिहासिक discourse के पुनर्निर्माण के लिए आवश्यक तत्व माना गया है
  • शोध के अलावा दुरुपयोग को रोकने के लिए responsible access framework विकसित किया जा रहा है

भागीदारी और सहयोग

  • शोध टीम निम्नलिखित सुझावों और सहयोग का स्वागत करती है
    • विश्लेषण के लिए समय-अवधि और क्षेत्र की प्राथमिकताएँ
    • सत्यापनीय प्रश्नों की रूपरेखा
    • output validation methods और जिम्मेदार सार्वजनिक रिलीज़ के तरीके
  • संपर्क: history-llms@econ.uzh.ch

उद्धरण जानकारी

  • परियोजना के citation का एक उदाहरण दिया गया है
    • Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, GitHub URL सहित

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.