- Voynich Manuscript की भाषा-संरचना का SBERT जैसे आधुनिक NLP techniques से विश्लेषण करने वाला यह एक open source प्रोजेक्ट है
- suffix removal और clustering पर ज़ोर देकर यह परखा गया है कि नकली patterns नहीं, बल्कि वास्तविक भाषा-जैसी संरचनात्मक समानताएँ मौजूद हैं या नहीं
- function words और content words की भूमिकाएँ, transition matrix आदि के बहुआयामी संरचनात्मक विश्लेषण में अर्थपूर्ण patterns देखे गए
- पारंपरिक statistical या अनुमान-आधारित approaches से अलग, यह computational linguistics के तरीके से संरचनात्मक भाषाई विशेषताओं का विश्लेषण करने का प्रयास है
- अर्थ-आधारित अनुवाद का प्रयास किए बिना, यह प्रोजेक्ट केवल structural modeling पर केंद्रित है, इसलिए आगे के शोध और comparative experiments संभव हैं
📜 Voynich Manuscript संरचना विश्लेषण प्रोजेक्ट परिचय
🔍 अवलोकन
- यह प्रोजेक्ट आधुनिक natural language processing (NLP) tools का उपयोग करके Voynich Manuscript की संरचना का विश्लेषण करने के एक व्यक्तिगत प्रयोग के रूप में शुरू हुआ
- इसमें clustering, part-of-speech inference, Markov transitions, section-wise pattern extraction जैसी वास्तविक language modeling विधियाँ लागू की गई हैं
- अर्थ-व्याख्या, अनुवाद-प्रयास, या बढ़ा-चढ़ाकर pattern अनुमान लगाने के बजाय, यह केवल इस बात की जाँच करता है कि कोई भाषा की तरह काम करने वाली संरचना मौजूद है या नहीं
- suffix removal, SBERT embeddings, lexicon hypothesis generation सहित सभी चरण सार्वजनिक हैं
🧠 महत्व
- Voynich Manuscript अब भी एक अपठित रहस्यमय दस्तावेज़ है, जिसका कोई स्थापित linguistic/cryptographic solution नहीं है
- मौजूदा विश्लेषण मोटे तौर पर statistical entropy tests और अवैज्ञानिक अटकलों में बँटे हुए हैं
- यह प्रोजेक्ट computational linguistics पर आधारित होकर, वास्तविक भाषाओं जैसे structural patterns की मौजूदगी को तटस्थ रूप से खोजता है
📁 प्रोजेक्ट संरचना
- /data/
- पूरे manuscript का transcription, root word types, cluster IDs, हटाए गए suffixes की सूची, हर line की cluster sequence आदि डेटा उपलब्ध है
- /scripts/
- SBERT-आधारित word clustering, POS prediction, Markov transition matrix construction, lexicon candidate generation जैसे मुख्य analysis scripts उपलब्ध हैं
- /results/
- cluster visualizations, transition matrix heatmaps, cluster-wise summaries जैसे analysis results उपलब्ध हैं
✅ मुख्य योगदान
- multilingual SBERT से suffix हटाए गए root words की clustering
- function word-जैसे clusters और content word-जैसे clusters के बीच भेद
- Markov पद्धति से cluster transition structure का modeling
- section-wise syntactic structure (जैसे: Botanical, Biological आदि) का विश्लेषण
- data-driven lexicon hypothesis tables का निर्माण
🔧 preprocessing निर्णय
- clustering से पहले बार-बार आने वाले suffixes (जैसे: aiin, dy, chy आदि) हटाए गए
- इससे शब्दों के root forms निकाले गए, जिससे cluster coherence और structural patterns अधिक स्पष्ट हुए
- suffixes के phonological filler, grammatical morpheme, mnemonic device, repetition या अर्थहीन noise होने की संभावना हो सकती है
- लेकिन इस निर्णय की सीमाएँ भी हैं, जैसे morphological information loss, अर्थपूर्ण inflectional information का छिप जाना, और function words की ओर bias
- suffix removal के बिना comparative experiments भी मूल्यवान हो सकते हैं — कोई भी derivative experiment कर सकता है
📈 प्रमुख विश्लेषण परिणाम
- Cluster 8: बहुत अधिक बार आता है, विविधता कम है, और पंक्ति की शुरुआत में अक्सर मिलता है — यह function-word cluster का उम्मीदवार है
- Cluster 3: विविधता अधिक है और स्थिति स्वतंत्र है — यह root content-word cluster का उम्मीदवार है
- transition matrix: randomness से काफ़ी दूर एक मज़बूत आंतरिक संरचना दिखाती है
- cluster और POS patterns: manuscript sections (जैसे: Biological, Botanical आदि) के अनुसार अलग-अलग हैं
🧬 परिकल्पना
- manuscript syllabic repetition और positional repetition का उपयोग करने वाली एक structured artificial/mnemonic language है
- इसमें syntax, function/content separation, section-responsive language transitions जैसी भाषाई संरचनाएँ स्पष्ट रूप से दिखाई देती हैं
📊 उदाहरण visualizations
- Figure 1: SBERT cluster embeddings (PCA reduction)
- Figure 2: transition matrix heatmap
📌 सीमाएँ
- cluster-word mapping अप्रत्यक्ष है, इसलिए frequency estimation में overlap हो सकता है
- suffix removal का मानदंड heuristic है, इसलिए वास्तविक अर्थपूर्ण word endings भी खो सकते हैं
- semantic interpretation का प्रयास नहीं किया गया; फोकस केवल structural analysis पर है
✍️ लेखक की टिप्पणी
- यह प्रोजेक्ट AI, NLP, structural analysis सीखने के उद्देश्य से शुरू किया गया था
- manuscript को decode करना इसका मुख्य लक्ष्य नहीं है; बल्कि आधुनिक tools से उसकी संरचना को समझना अधिक उपयोगी माना गया है
- Rosetta Stone जैसी decoding की उम्मीद से अधिक, यह उन लोगों के लिए है जो मानते हैं कि “modeling अपने-आप में अर्थपूर्ण है”
🤝 योगदान मार्गदर्शन
- यह प्रोजेक्ट linguists, cryptographers, conlang researchers, computational linguistics community—सभी के सहयोग और विस्तार का स्वागत करता है
1 टिप्पणियां
Hacker News टिप्पणियाँ
मैंने देखा कि आप PCA projection के भीतर clusters ढूँढ़ रहे थे — अगर आप और गहरी संरचना देखना चाहते हैं, तो मैं PaCMAP या LocalMAP जैसे नए dimensionality reduction algorithms सुझाऊँगा। मैं अभी Pol.is नाम के एक opinion survey tool के data को लेकर PCA की जगह ऐसे dimensionality reduction algorithms से दोबारा project करने वाला एक project कर रहा हूँ। यह देखकर प्रभावित हूँ कि ये नए algorithms ऐसी insights देते हैं जो पहले दिखाई नहीं देती थीं। मैंने groups को color करके visual रूप में भी दिखाया है, इसलिए desktop पर देखकर देखने की सलाह देता हूँ। अगर आप जानना चाहते हैं कि Pol.is क्या है, तो उससे जुड़ा article भी सुझाता हूँ
यहाँ इस्तेमाल किया गया text embedding model paraphrase-multilingual-MiniLM-L12-v2 है, जो लगभग 4 साल पुराना model है। NLP की दुनिया में यह काफ़ी पुराना माना जाता है। हाल के LLM विकास के साथ embedding models की information representation capacity और embedding space के भीतर discrimination ability नाटकीय रूप से बेहतर हुई है। ऐसे नए embedding models भी, जिनका मुख्य लक्ष्य multilingual support नहीं है, इस तरह के data पर शानदार performance दिखाते हैं। इसलिए अपेक्षाकृत कम-ज्ञात भाषा Voynich Manuscript पर भी वे बेहतर प्रदर्शन कर सकते हैं। मेरा मानना है कि पारंपरिक NLP techniques (suffix removal, POS tagging आदि) उल्टा ज़रूरी context information खो सकती हैं और embedding quality को घटा सकती हैं
मुझे NLP के बारे में ज़्यादा जानकारी नहीं है। सोच रहा हूँ कि क्या किसी controlled comparison के ज़रिए प्रक्रिया की जाँच करना ठीक रहेगा। उदाहरण के लिए, अगर किसी इंसान से ऐसी sentences लिखवाई जाएँ जो भाषा जैसी दिखें लेकिन वास्तव में भाषा न हों, और फिर उन्हीं पर वही प्रक्रिया लागू की जाए (suffix हटाना, clustering की कोशिश आदि), तो क्या वैसे ही नतीजे आएँगे?
मुझे लगता है कि UMAP या t-SNE से analysis करना अच्छा होगा, भले ही PCA में पहले से साफ़ separation दिख गया हो। हर cluster को दूसरे के संदर्भ में map करना भी यह दिखाने का अच्छा तरीका लगता है कि analysis के भीतर अभी variability बची है या नहीं
मुझे यह hypothesis सबसे दिलचस्प लगती है: किसी लेखक ने शायद Voynichese को किसी Germanic language के रूप में मानकर काफ़ी प्रगति की थी। Uralic या Finno-Ugric language होने का दावा भी देखा है। आपकी methodology बहुत अच्छी लगी, और सोच रहा हूँ कि क्या इसे किसी खास language family को target करके apply करने से और अच्छे परिणाम मिल सकते हैं
मैं सोचता था कि यह पुरानी Turkish है
हो सकता है मैंने README में यह miss कर दिया हो, लेकिन जानना चाहता हूँ कि “words” की शुरुआती encoding कैसे की गई थी। उदाहरण के लिए,
okeeodairजैसे शब्द को वापस मूल symbols से कैसे map करते हैं?okeeodairजैसे शब्द सीधे EVA transcription files से आए हैं। EVA (European Voynich Alphabet) system के आधार पर मूल Voynich symbols को ASCII में map किया गया है। इस project में symbols को सीधे handle करने के बजाय EVA-transcribed words को ही इस्तेमाल किया गया। अगर dataset मेंokeeodairहै, तो इसका मतलब है कि किसी ने (विशेषज्ञों ने) उस symbol combination को इसी नाम से बुलाने पर सहमति बनाई है। transcription के बारे में जानकारी इस site पर देखी जा सकती हैमेरी कल्पना यह है कि अगर यह सिर्फ़ अर्थहीन scribble हो, cipher भी न हो, तो manuscript की प्रकृति के कारण style, handwriting, इस्तेमाल होने वाले words, यहाँ तक कि अक्षर भी पहले पेज से आख़िरी पेज तक evolve होने चाहिए। बेशक pages का क्रम बदल सकता है, लेकिन कुछ न कुछ फ़र्क दिखना चाहिए। जब तक कि लेखक ने उसी तरह की दर्जनों किताबें न लिखी हों जो सब गायब हो गईं। यह नई idea नहीं है, लेकिन जानना चाहता हूँ कि क्या ऐसे patterns पर analysis हुआ है, क्योंकि pages के बीच consistency पर कोई चर्चा मैंने नहीं देखी
मैं सोच रहा हूँ कि “brute force” style से इसे decipher करने में कितने resources लगेंगे। उदाहरण के लिए, अगर known language words के साथ one-by-one mapping करके score बढ़ाने वाली कोई स्पष्ट प्रक्रिया अपनाई जाए, तो कैसा रहेगा?
जानना चाहता हूँ कि जब इसी तरह की मात्रा वाले known-language text पर analysis किया जाए, तो क्या ऐसे ही patterns निकलते हैं। दूसरे शब्दों में, क्या इस analysis technique को अलग-अलग तरह के texts पर लागू करके यह समझने में मदद मिल सकती है कि यह writing system क्या दर्शाती है?