1913 से पहले के टेक्स्ट पर ही प्रशिक्षित ऐतिहासिक language models

(github.com/DGoettlich)

1 पॉइंट द्वारा GN⁺ 2025-12-19 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

History LLMs ऐसे time-locked large language models (LLM) हैं जिन्हें केवल किसी निश्चित समय-बिंदु से पहले के टेक्स्ट पर प्रशिक्षित किया गया है; ये अतीत की भाषा और सोच को पुनर्निर्मित करने के लिए एक शोध उपकरण हैं
Ranke-4B series Qwen3 architecture पर आधारित 4 अरब parameter वाले मॉडल हैं, जिनमें 1913, 1929, 1933, 1939 और 1946 जैसे knowledge cutoff point के अनुसार अलग-अलग versions शामिल हैं
प्रशिक्षण डेटा 600 अरब token के time-series text में से चुने गए 80 अरब token से बना है, और इसमें bias correction किए बिना मूल टेक्स्ट के value judgments को जस का तस रखा गया है
उदाहरण responses में 1913 मॉडल का Hitler को न जानना, slavery की आलोचना, महिला श्रम और sexual minorities के प्रति उस दौर के पूर्वाग्रह जैसी बातें सामने आती हैं
यह परियोजना humanities, social sciences और computer science के शोधकर्ताओं को अतीत के discourse के सामूहिक linguistic patterns का अध्ययन करने की खिड़की देती है

परियोजना का अवलोकन

History LLMs एक शोध परियोजना है जो समय के अनुसार लॉक किए गए बड़े language models बनाकर अतीत के भाषिक worldview को पुनर्स्थापित करने का प्रयास करती है
- मॉडल इस तरह डिज़ाइन किए गए हैं कि वे किसी विशेष वर्ष के बाद की जानकारी तक पहुँच न सकें
- pretraining के दौरान बने normative judgments को कृत्रिम रूप से संशोधित नहीं किया जाता
सभी training data, checkpoints और repositories सार्वजनिक किए जाने की योजना है, और academic use के लिए access framework तैयार किया जा रहा है
परियोजना का उद्देश्य humanities, social sciences और computer science शोध में अतीत की भाषिक विचार-संरचनाओं का अन्वेषण करना है

Ranke-4B model series

2025 के दिसंबर में जारी होने वाला Ranke-4B 4 अरब parameter वाले LLM family का नाम है
- यह Qwen3 architecture पर आधारित है और 1913, 1929, 1933, 1939, 1946 जैसे पाँच knowledge-cutoff versions रखता है
- इसे 600 अरब token के time-series text में से चुने गए 80 अरब token पर प्रशिक्षित किया गया है
pretraining और post-training data तथा checkpoints को GitHub और Hugging Face के माध्यम से उपलब्ध कराया जाएगा

उदाहरण responses

1913 मॉडल “Adolf Hitler” को न जानने जैसा उत्तर देता है, यानी वह केवल उस समय तक की जानकारी दर्शाता है
slavery के बारे में यह कहता है कि वह “public law और Declaration of Independence की भावना के विरुद्ध” है
महिला श्रम से जुड़े प्रश्न पर इसका उत्तर है कि “महिलाओं को रोजगार देना नियोक्ता के विवेक पर निर्भर है”
पुरुष और महिला उम्मीदवार में चयन के प्रश्न पर यह कहता है कि “पुरुष अधिक भरोसेमंद है”
समलैंगिकों के बारे में यह बताता है कि “उन्हें नैतिक रूप से निंदनीय माना जाता है, लेकिन कुछ लोग इसे रोग के रूप में भी देखते हैं”
ऐसे उत्तर दिखाते हैं कि मॉडल उस समय के सामाजिक पूर्वाग्रहों और मूल्य-मान्यताओं को जस का तस प्रतिबिंबित करता है

History LLMs की अवधारणा

किसी विशेष वर्ष से पहले के टेक्स्ट पर प्रशिक्षित मॉडल उस युग के भाषिक worldview को सामूहिक रूप से पुनर्निर्मित करते हैं
- उदाहरण: 1913 मॉडल प्रथम विश्व युद्ध से पहले के समाचारपत्रों और लेखन के आधार पर उत्तर देता है
आधुनिक LLM के “historical roleplay” के विपरीत, इनमें hindsight contamination नहीं होता
- GPT-5 जैसे मॉडल युद्ध का परिणाम जानते हैं, इसलिए वे पूरी तरह 1913 का दृष्टिकोण पुनर्निर्मित नहीं कर सकते
time-locked models उस समय की संभावित सोच और discourse boundaries का अध्ययन करने में उपयोगी हैं

मॉडल का स्वभाव और सीमाएँ

ये मॉडल विशाल text corpus का compressed representation हैं और discourse pattern exploration tools के रूप में उपयोग किए जा सकते हैं
लेकिन ये सार्वजनिक राय का पूर्ण प्रतिनिधित्व नहीं करते; इनका आधार मुख्यतः शिक्षित वर्ग के प्रकाशन हैं
ये मानवीय व्याख्या का विकल्प नहीं हैं और ऐतिहासिक सामग्री के पूर्वाग्रहों को उसी रूप में शामिल करते हैं

संवेदनशील सामग्री और access management

training data में racism, antisemitism, misogyny और imperialist viewpoints शामिल हैं
मॉडल इन्हें पुनरुत्पादित करते हैं, लेकिन इसे ऐतिहासिक discourse के पुनर्निर्माण के लिए आवश्यक तत्व माना गया है
शोध के अलावा दुरुपयोग को रोकने के लिए responsible access framework विकसित किया जा रहा है

भागीदारी और सहयोग

शोध टीम निम्नलिखित सुझावों और सहयोग का स्वागत करती है
- विश्लेषण के लिए समय-अवधि और क्षेत्र की प्राथमिकताएँ
- सत्यापनीय प्रश्नों की रूपरेखा
- output validation methods और जिम्मेदार सार्वजनिक रिलीज़ के तरीके
संपर्क: history-llms@econ.uzh.ch

उद्धरण जानकारी

परियोजना के citation का एक उदाहरण दिया गया है
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, GitHub URL सहित

1913 से पहले के टेक्स्ट पर ही प्रशिक्षित ऐतिहासिक language models

परियोजना का अवलोकन

Ranke-4B model series

उदाहरण responses

History LLMs की अवधारणा

मॉडल का स्वभाव और सीमाएँ

संवेदनशील सामग्री और access management

भागीदारी और सहयोग

उद्धरण जानकारी

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.