1930 का 13B विंटेज भाषा मॉडल Talkie

(talkie-lm.com)

1 पॉइंट द्वारा GN⁺ 2 일 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह 13B भाषा मॉडल 1931 से पहले के अंग्रेज़ी टेक्स्ट के 260B tokens पर ही प्रशिक्षित है, जिससे ऐसे संवाद और generalization experiments संभव होते हैं जिनमें मॉडल आधुनिक दुनिया को नहीं जानता
knowledge cutoff के बाद surprise में वृद्धि और अपेक्षाकृत contamination-मुक्त evaluation environment के आधार पर, भविष्य की घटनाओं की भविष्यवाणी और नए ideas तक पहुँचने की क्षमता को अधिक सीधे परखा जा सकता है
उसी architecture पर प्रशिक्षित आधुनिक web model की तुलना में standard evaluations में प्रदर्शन आम तौर पर कम है, लेकिन anachronistic सवालों को हटाने पर अंतर घटता है और language understanding व mathematical tasks में मिलते-जुलते स्तर दिखाई देते हैं
सबसे बड़ी चुनौती temporal leakage और data quality है; गलत date metadata या बाद की editorial insertions cutoff को तोड़ सकती हैं, और historical document transcription quality भी प्रदर्शन को बहुत प्रभावित करती है
आधुनिक instruction data के बिना conversational post-training अलग से बनाया गया, और बड़े models की training, corpus expansion, re-OCR, तथा leakage detection को मजबूत करने तक फैला दीर्घकालिक research foundation मौजूद है

विंटेज भाषा मॉडल क्यों

विंटेज भाषा मॉडल वह दृष्टिकोण है जिसमें किसी पुराने समय-बिंदु से पहले के टेक्स्ट पर ही training की जाती है, ताकि ऐसे मॉडल से बातचीत का अनुभव बनाया जा सके जो आधुनिक दुनिया को नहीं जानता
ऐसे मॉडल केवल रोचक conversational partner नहीं हैं, बल्कि AI की सामान्य समझ को बढ़ाने वाले research tools भी हैं
- 1931 से पहले के टेक्स्ट पर प्रशिक्षित 13B मॉडल को New York Times के “On This Day” की लगभग 5,000 event descriptions दी गईं, और टेक्स्ट के प्रति byte bits के रूप में surprise मापा गया
- knowledge cutoff के बाद surprise बढ़ा, खासकर 1950s और 1960s में यह अधिक स्पष्ट था, फिर यह समतल हो गया
future prediction evaluation आगे इस दिशा में जाता है कि model size के साथ प्रदर्शन कैसे सुधरता है, और लंबे समय-अंतराल पर कैसे कमजोर पड़ता है
नए ideas तक पहुँचने की क्षमता को भी इस तरह परखा जा सकता है कि cutoff के बाद वास्तव में सामने आए inventions और scientific discoveries को क्या मॉडल स्वतंत्र रूप से सोच सकता है
contamination-मुक्त evaluation environment भी एक महत्वपूर्ण लाभ है
- Contamination को language models की क्षमता का अधिक आकलन कर देने वाली लगातार बनी रहने वाली समस्या माना जाता है
- विंटेज मॉडल संरचनात्मक रूप से contamination को कम करते हैं, जिससे pretraining data के बाहर generalization को अधिक सीधे परखा जा सकता है

Talkie का अवलोकन

talkie-1930-13b-base एक 13B भाषा मॉडल है जिसे 1931 से पहले के अंग्रेज़ी टेक्स्ट के 260B tokens पर प्रशिक्षित किया गया है
talkie-1930-13b-it इसी base model का बातचीत-उन्मुख follow-up checkpoint है
- इसे इस तरह बनाया गया है कि यह आधुनिक chat transcripts या आधुनिक instruction-tuning data पर निर्भर न हो
ऊपर का 24-घंटे live feed widget Claude Sonnet 4.6 द्वारा talkie-1930-13b-it को prompt करके उसके knowledge, abilities और tendencies को explore करने के रूप में चलाया जाता है
Talkie को इस लेख के अनुसार अब तक का सबसे बड़ा विंटेज भाषा मॉडल बताया गया है
अगले चरण के रूप में GPT-3 स्तर का मॉडल प्रशिक्षित किया जा रहा है, जिसका लक्ष्य गर्मियों में रिलीज़ है
यह भी प्रारंभिक अनुमान दिया गया है कि historical text corpus को 1 ट्रिलियन tokens से अधिक तक बढ़ाया जा सकता है
- लिखा गया है कि यह पैमाना मूल ChatGPT जैसी क्षमता वाले GPT-3.5 स्तर के मॉडल के लिए पर्याप्त हो सकता है

प्रदर्शन मूल्यांकन और generalization

आधुनिक twin model के रूप में talkie-web-13b-base बनाया गया, जिसका architecture समान है लेकिन इसे FineWeb-आधारित आधुनिक web data पर प्रशिक्षित किया गया
समान FLOPs के साथ training के बाद भी Talkie standard LM evaluations में आधुनिक मॉडल से औसतन कम प्रदर्शन दिखाता है
- सवालों की anachronism के लिए correction करने के बाद भी यह अंतर बना रहता है
- हालांकि मुख्य language understanding और mathematical ability tasks में समान स्तर का प्रदर्शन बताया गया है
Figure 4 के अनुसार anachronistic सवालों को हटाने पर performance gap लगभग आधा रह जाता है
code generalization experiments भी किए गए
- HumanEval का उपयोग करके, 1931-पूर्व टेक्स्ट-आधारित विंटेज मॉडल और web-आधारित आधुनिक मॉडल की जोड़ी की तुलना की गई
- random Python function examples को in-context learning के लिए देकर, 100 प्रयासों में कम-से-कम एक बार सही उत्तर देने वाले problems का अनुपात मापा गया
विंटेज मॉडल web data पर प्रशिक्षित मॉडल से काफी पीछे है, लेकिन scale बढ़ने के साथ इस task में भी धीरे-धीरे और लगातार सुधार हो रहा है
अभी सही उत्तर बहुत सरल one-line programs या in-context examples के छोटे variations तक सीमित हैं
- rotation cipher encoding function दिए जाने पर decoding function लागू करने का उदाहरण शामिल है
- यह जोड़ को घटाव में बदलने जैसी एक-अक्षर की मामूली edit है, लेकिन इसे inverse function की समझ का संकेत माना गया है

डेटा संग्रह और training की चुनौतियाँ

यह बताया गया है कि 1931 से पहले के अंग्रेज़ी tokens को दसियों अरब नहीं, बल्कि सैकड़ों अरब के पैमाने पर एकत्र किया गया
data में किताबें, समाचारपत्र, periodicals, scientific journals, patents और court cases शामिल हैं
1930 के अंत को cutoff रखने का कारण यह है कि अमेरिका में इसी बिंदु पर कृतियाँ public domain में प्रवेश करती हैं
यह संस्करण मुख्य रूप से अंग्रेज़ी टेक्स्ट तक सीमित है
- लिखा गया है कि data pipeline को validate करने के लिए source documents से गहरी परिचितता चाहिए, और development team अंग्रेज़ी की native speaker है
multilingual expansion को उच्च प्राथमिकता दी गई है
- इसका उद्देश्य corpus size बढ़ाना और शामिल दृष्टिकोणों की विविधता भी बढ़ाना है
temporal leakage
- सबसे महत्वपूर्ण लक्ष्य यह है कि knowledge cutoff के बाद का data training corpus में लीक न हो
- leakage गलत date metadata वाले आधुनिक documents, या पुराने documents में बाद में जोड़े गए editor prefaces और footnotes जैसे रूपों में हो सकता है
- Talkie-1930 में pretraining corpus को document-level n-gram-आधारित anachronism classifier से filter किया गया
- यह filtering पूर्ण नहीं थी
  - शुरुआती 7B version को राष्ट्रपति Roosevelt के कार्यकाल और New Deal legislation की स्पष्ट जानकारी थी
  - 13B version को भी द्वितीय विश्वयुद्ध और युद्धोत्तर व्यवस्था के कुछ हिस्सों की जानकारी है, जैसे United Nations और Germany के विभाजन से जुड़ी बातें
- आगे के versions के लिए अधिक उन्नत classifiers का उपयोग करने वाली leakage detection और filtering techniques विकसित की जा रही हैं
data quality
- 1930 में digital publishing नहीं थी, इसलिए dataset के सभी टेक्स्ट को भौतिक मूल प्रतियों से transcribe करना पड़ा
- इस प्रक्रिया ने ऐसी noise पैदा की जो मूल रूप से digitally generated text में नहीं होती
- पारंपरिक OCR systems साधारण layouts और साफ scans को छोड़कर historical documents को अच्छी तरह process नहीं कर पाते
- आधुनिक VLM-आधारित OCR अधिक सटीक है, लेकिन लिखा गया है कि यह corpus में आधुनिक तथ्यों को hallucinate करके experiment खराब कर सकता है
- controlled experiment में, यदि 1931-पूर्व टेक्स्ट को पारंपरिक OCR से transcribe करके LM को train किया जाए, तो समान compute पर यह मानव transcription के प्रदर्शन का केवल 30% ही प्राप्त करता है
- साधारण regex cleaning लागू करने पर यह 70% तक वापस आता है, लेकिन अंतर अभी भी बड़ा रहता है
- इस अंतर को कम करने के लिए Talkie corpus को विंटेज OCR system से फिर से transcribe करने की योजना है
विंटेज post-training
- तुरंत उपयोग योग्य post-training data की कमी भी एक बड़ी समस्या है
- सामान्य instruction-response pairs पर fine-tuning करने से anachronistic knowledge, शैली और chat assistant expectations सीधे आ जाती हैं
- इससे बचने के लिए post-training pipeline को शुरू से फिर बनाया गया
- पहले etiquette books, letter-writing guides, cookbooks, dictionaries, encyclopedias, poetry collections और fable collections जैसे नियमित संरचना वाले historical texts से instruction-response pairs बनाए गए और सरल chat format में fine-tuning की गई
- फिर document summarization, direct information requests के responses, और multi-turn dialogue continuation जैसे tasks को cover करने वाले synthetic prompts बनाए गए, और Claude Sonnet 4.6 को judge बनाकर online direct preference optimization किया गया
- अलग evaluation set पर judge की औसत instruction-following rating 5 में 2.0 से बढ़कर 3.4 हो गई
- अंत में Claude Opus 4.6 और Talkie के बीच rejection-sampled multi-turn synthetic conversations का उपयोग करके एक और supervised fine-tuning की गई
- AI feedback-आधारित reinforcement learning अनिवार्य रूप से आधुनिक प्रभाव छोड़ती है
  - 7B version का Talkie RL के बाद listicle शैली में बोलने लगा था
- scale बढ़ने पर उम्मीद है कि विंटेज base model को ही judge की तरह इस्तेमाल कर समयानुकूल fully bootstrapped post-training किया जा सकेगा

आगे की विस्तार योजना

अंग्रेज़ी corpus का विस्तार और अंग्रेज़ी के बाहर की भाषाओं में विस्तार, दोनों साथ आगे बढ़ाए जा रहे हैं
नए OCR system के साथ जितना संभव हो उतने 1931-पूर्व टेक्स्ट का re-OCR करने की योजना है
नई anachronism classification techniques के साथ leakage detection pipeline को मजबूत किया जाएगा
historians के साथ मिलकर विंटेज post-training pipeline का विस्तार और परिष्करण किया जाएगा
- इसमें historically accurate personas बनाने की methodology भी शामिल है

उपयोग और सहयोग के प्रस्ताव

GitHub: project code और research collaboration का माध्यम
Hugging Face: model checkpoints की सार्वजनिक उपलब्धता का स्थान
💬 Chat: Talkie का conversation interface
hello@talkie-lm.com: सहयोग के लिए संपर्क
historical texts रखने वाले researchers और institutions के साथ सहयोग की इच्छा है, जिसमें OCR के माध्यम से accessibility बढ़ाना भी शामिल है
funding या compute support के लिए भी यह खुला है, और इस क्षेत्र की अन्य teams से जोड़ने की बात भी कही गई है
humanities researchers के साथ विंटेज भाषा मॉडल और इन्हें train करने वाले data और infrastructure की उपयोगिता पर चर्चा की जा सकती है
AI researchers के साथ विंटेज भाषा मॉडल की training और research सहयोग की इच्छा है
artists और writers भी इसे experimental tool के रूप में उपयोग कर सकते हैं

ध्यान देने योग्य बातें

Talkie अपने प्रशिक्षण टेक्स्ट की संस्कृति और मूल्यों को प्रतिबिंबित करता है
इसके परिणामस्वरूप यह उपयोगकर्ताओं के लिए अप्रिय लगने वाले outputs उत्पन्न कर सकता है

1 टिप्पणियां

GN⁺ 2 일 전

Hacker News की राय

भविष्य के computer को इंसानी पेशे के रूप में समझना बहुत मज़ेदार है
"digital computers" को उँगलियों से गणना करने वाले लोगों के रूप में खोलकर समझाना भी अच्छा लगा, और उस समय computer इंसानी पेशे का नाम था—यह संदर्भ जुड़ने से बात और स्वादिष्ट हो जाती है
- इसका उल्टा भी देखना चाहूँगा। यानी ऐसा मॉडल जो सिर्फ हाल के कुछ हफ़्तों या कुछ मिनटों की जानकारी पर प्रशिक्षित हो, या फिर हाल के 1~2 साल के वैज्ञानिक शोधपत्रों पर ही प्रशिक्षित हो
  उससे काफ़ी दिलचस्प तरह की मानसिक उलझन निकल सकती है
- मैं भी इसे करीब दो बार पढ़ने के बाद ही समझ पाया, इसलिए थोड़ा शर्मिंदा महसूस हुआ
- Romance भाषाओं में digital का मतलब आधुनिक डिजिटल भी होता है, लेकिन साथ ही उँगलियों से संबंधित विशेषण भी होता है
लगता है यह 1930s से ज़्यादा pre-1900 सामग्री खींच लाता है
Great Depression के बारे में शायद नहीं जानता, और First World War के बारे में सीधे पूछो तो जानता है, लेकिन यूरोपीय राजनीति पर बात करते हुए 1900 के आसपास जैसा बोलता है
तकनीक की तरफ़ भी Edison के बारे में Wikipedia-स्तर की जानकारी देता हुआ लगता है, लेकिन फिर 125 मील प्रति घंटा वाली कार का श्रेय उन्हें दे देता है, और dial telephone पर बहुत आत्मविश्वास से ग़लत बोलता है
London Underground की traction line voltage सही बता देता है, लेकिन voltage और resistance की व्याख्या में पूरी तरह ग़लत बातें करता है
कुल मिलाकर पहले एक-दो वाक्य ऐसे लगते हैं जैसे खोजकर लाई गई जानकारी हों, और उसके बाद यह विश्वसनीय लगने वाली बकवास में फिसल जाता है
ऐसे सवाल जिनका सही जवाब आपको खुद नहीं पता, वे इस मॉडल से न पूछना ही बेहतर है। दिमाग़ दूषित हो जाता है
- क्या 1929 में ही Great Depression जैसा प्रयोग हो रहा था?
- aether के बारे में भी पूछना अच्छा रहेगा
  उस समय तक शायद यह अवधारणा पहले ही खंडित हो चुकी थी
- यानी बात बस इतनी है कि यह हर LLM जैसा ही है
- पहले वाक्य में ठीक और आगे जाकर बकवास करने की इसकी आदत देखकर, यह लगभग 2026 मॉडल human simulator जैसा लगता है
automation और industrialization का विरोध करने वालों के बारे में पूछने पर, इसका यह कहना दिलचस्प था कि मशीनें मज़दूर वर्ग की नौकरियाँ छीन लेंगी और अतिउत्पादन से छँटनी होगी
सस्ते भोजन के कारण विदेशी उत्पादकों से प्रतिस्पर्धा बढ़ेगी, कारीगरों का मानसिक अनुशासन कमज़ोर होगा, और मेहनत व आलस्य का फर्क भी धुँधला पड़ जाएगा—इस तरह की उस दौर की anti-machine logic इसमें अच्छी तरह जीवित है
- इस मॉडल की शैली और टोन मुझे सच में बहुत पसंद आई
2025 की दुनिया के बारे में पूछने पर, 6.6 अरब की आबादी, पूरे यूरोप में रेल नेटवर्क, London-Constantinople 40 घंटे, एकल मुद्रा, सार्वभौमिक शांति, solar और hydro power की ओर संक्रमण, रोगों का उन्मूलन, और सौंदर्यबोध की प्रगति तक जाती इसकी भविष्य-दृष्टि काफ़ी सुंदर लगी
- 1930s के मानक से देखें तो Constantinople बहुत पुराना नाम है
  तब तक वह काफ़ी पहले से Istanbul था
- यह सुंदर भी है, और साथ ही काफ़ी उदास भी
- मैं ऐसी दुनिया में रहना चाहूँगा
- 1920~1950 के दशक की भविष्य-दृष्टि शायद dialectical oscillation की बजाय, alternative energy जैसी optimal solutions के बिना देरी पूरी तरह छा जाने वाली exponential progress को चुपचाप मानकर चलती थी
  फिर भी मुझे लगता है कि हम किसी दिन वहाँ पहुँचेंगे
- वाकई बहुत सुंदर है
चाँद की यात्रा आखिरकार संभव हो जाएगी, और 6 घंटे में चाँद पहुँचा जाएगा, और प्रस्थान France के पूर्वी हिस्से से Santos Dumont-शैली की हवाई मशीन में होगा—यह जवाब बहुत शानदार था
चाँद का उपयोग मौसम देखने के लिए करके तूफ़ान की चेतावनी 6 घंटे पहले मिल जाएगी—यह विचार खास तौर पर प्रभावशाली लगा
- चाँद को weather satellite की तरह इस्तेमाल करने का ख़याल काफ़ी अनोखा है
2026 के India के बारे में पूछने पर, यह कहता है कि वह British Empire की सर्वोच्च सत्ता के अधीन एक self-governing federation बना रहेगा और Calcutta उसकी राजनीतिक राजधानी होगी; यह औपनिवेशिक नज़रिया बहुत ज़्यादा खुलकर सामने आता है
रेल, सिंचाई, हिमालय की तराई के जंगल, वफ़ादार रियासती शासक, और संतुष्ट प्रजा तक—हर तरफ़ वही परिचित imperial optimism भरा पड़ा है
यह बात हैरान करने वाली है कि सिर्फ 1930 से पहले के tokens से भी इतना चतुर मॉडल बन गया
मुझे लगता था कि दुनिया को कुछ हद तक समझने और संक्षेपित करने के लिए बहुत भारी मात्रा में डेटा चाहिए होगा, लेकिन शायद मैंने उस दौर के digitized literature के पैमाने को कम आँका था
यह अतीत के किसी इंसान से बातचीत करने से ज़्यादा पत्राचार करने जैसा लगता है
उस समय के recorded speech नमूनों की संख्या बहुत अधिक नहीं है, इसलिए आख़िरकार इसे लिखित रिकॉर्ड के आधार पर ही बनाना पड़ता, और इसीलिए आज की तुलना में ज़्यादा औपचारिक और तराशी हुई भाषा इसमें परिलक्षित होती है
फिर भी यह शानदार काम है
हाल ही में मुझे 200 साल पुरानी एक किताब का OCR करना पड़ा था, और उस युग की कठिन टाइपफ़ेस होने के बावजूद यह हैरान कर देने वाली हद तक आसान और सटीक था
- पहले मैंने Burton के अनुवाद वाली The Arabian Nights की एक मुफ्त ebook पढ़ते समय "cloth" को क्रिया के रूप में देखा और उसका मतलब बिल्कुल समझ नहीं पाया, तो आख़िरकार हार मान ली
  बाद में पता चला कि वह OCR या post-processing की गलती थी, और असल में शब्द "doth" था
- उस दौर की recorded speech पूरी तरह नदारद नहीं है
  First World War के आसपास के newsreel और radio broadcast काफ़ी हैं, इसलिए मुझे लगता है कि text model से जोड़ने लायक style-transfer voice model बनाना संभव होगा
किसी ने X पर यह कहा लगता है कि इस मॉडल के training set में future data leakage है
https://xcancel.com/deredleritt3r/status/2048977698832241060
- लेख में भी FDR knowledge के संदर्भ में उस हिस्से पर बात की गई है
जब इससे Winston Churchill का विवरण लिखवाया गया, तो वंश, शिक्षा, सैन्य करियर, लेखन और निवास तक गिनाने का ढंग बहुत period-piece जैसा लगा
India की स्वतंत्रता की संभावना पर पूछने पर, यह रेल, common language, Western education, संसद की माँग, और राष्ट्रीय चरित्र के निर्माण तक जाती हुई दलील देता है, जिसमें औपनिवेशिक लहजा बहुत तीखे ढंग से झलकता है
- Churchill वाला अंश काल-संगति के लिहाज़ से अजीब है
  Oldham का वर्तमान सांसद होते हुए पहले Colonies के Under-Secretary रहना—यह संयोजन किसी सही समय-बिंदु पर मेल नहीं खाता
  ऊपर से First World War काल की First Lord of the Admiralty या Minister of Munitions जैसी मुख्य भूमिकाएँ भी ग़ायब हैं
- India की संसद की माँग वाले हिस्से में सम्राट को queen कहा गया है, जबकि 1900~1950 के बीच Britain का सम्राट राजा था
  यह इस बात का काफ़ी बड़ा संकेत लगता है कि इसमें temporal leakage मिला हुआ है

1930 का 13B विंटेज भाषा मॉडल Talkie

विंटेज भाषा मॉडल क्यों

Talkie का अवलोकन

प्रदर्शन मूल्यांकन और generalization

डेटा संग्रह और training की चुनौतियाँ

temporal leakage

data quality

विंटेज post-training

आगे की विस्तार योजना

उपयोग और सहयोग के प्रस्ताव

ध्यान देने योग्य बातें

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय