1 पॉइंट द्वारा GN⁺ 2025-05-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Voynich Manuscript की भाषा-संरचना का SBERT जैसे आधुनिक NLP techniques से विश्लेषण करने वाला यह एक open source प्रोजेक्ट है
  • suffix removal और clustering पर ज़ोर देकर यह परखा गया है कि नकली patterns नहीं, बल्कि वास्तविक भाषा-जैसी संरचनात्मक समानताएँ मौजूद हैं या नहीं
  • function words और content words की भूमिकाएँ, transition matrix आदि के बहुआयामी संरचनात्मक विश्लेषण में अर्थपूर्ण patterns देखे गए
  • पारंपरिक statistical या अनुमान-आधारित approaches से अलग, यह computational linguistics के तरीके से संरचनात्मक भाषाई विशेषताओं का विश्लेषण करने का प्रयास है
  • अर्थ-आधारित अनुवाद का प्रयास किए बिना, यह प्रोजेक्ट केवल structural modeling पर केंद्रित है, इसलिए आगे के शोध और comparative experiments संभव हैं

📜 Voynich Manuscript संरचना विश्लेषण प्रोजेक्ट परिचय

🔍 अवलोकन

  • यह प्रोजेक्ट आधुनिक natural language processing (NLP) tools का उपयोग करके Voynich Manuscript की संरचना का विश्लेषण करने के एक व्यक्तिगत प्रयोग के रूप में शुरू हुआ
  • इसमें clustering, part-of-speech inference, Markov transitions, section-wise pattern extraction जैसी वास्तविक language modeling विधियाँ लागू की गई हैं
  • अर्थ-व्याख्या, अनुवाद-प्रयास, या बढ़ा-चढ़ाकर pattern अनुमान लगाने के बजाय, यह केवल इस बात की जाँच करता है कि कोई भाषा की तरह काम करने वाली संरचना मौजूद है या नहीं
  • suffix removal, SBERT embeddings, lexicon hypothesis generation सहित सभी चरण सार्वजनिक हैं

🧠 महत्व

  • Voynich Manuscript अब भी एक अपठित रहस्यमय दस्तावेज़ है, जिसका कोई स्थापित linguistic/cryptographic solution नहीं है
  • मौजूदा विश्लेषण मोटे तौर पर statistical entropy tests और अवैज्ञानिक अटकलों में बँटे हुए हैं
  • यह प्रोजेक्ट computational linguistics पर आधारित होकर, वास्तविक भाषाओं जैसे structural patterns की मौजूदगी को तटस्थ रूप से खोजता है

📁 प्रोजेक्ट संरचना

  • /data/
    • पूरे manuscript का transcription, root word types, cluster IDs, हटाए गए suffixes की सूची, हर line की cluster sequence आदि डेटा उपलब्ध है
  • /scripts/
    • SBERT-आधारित word clustering, POS prediction, Markov transition matrix construction, lexicon candidate generation जैसे मुख्य analysis scripts उपलब्ध हैं
  • /results/
    • cluster visualizations, transition matrix heatmaps, cluster-wise summaries जैसे analysis results उपलब्ध हैं

✅ मुख्य योगदान

  • multilingual SBERT से suffix हटाए गए root words की clustering
  • function word-जैसे clusters और content word-जैसे clusters के बीच भेद
  • Markov पद्धति से cluster transition structure का modeling
  • section-wise syntactic structure (जैसे: Botanical, Biological आदि) का विश्लेषण
  • data-driven lexicon hypothesis tables का निर्माण

🔧 preprocessing निर्णय

  • clustering से पहले बार-बार आने वाले suffixes (जैसे: aiin, dy, chy आदि) हटाए गए
  • इससे शब्दों के root forms निकाले गए, जिससे cluster coherence और structural patterns अधिक स्पष्ट हुए
    • suffixes के phonological filler, grammatical morpheme, mnemonic device, repetition या अर्थहीन noise होने की संभावना हो सकती है
  • लेकिन इस निर्णय की सीमाएँ भी हैं, जैसे morphological information loss, अर्थपूर्ण inflectional information का छिप जाना, और function words की ओर bias
  • suffix removal के बिना comparative experiments भी मूल्यवान हो सकते हैं — कोई भी derivative experiment कर सकता है

📈 प्रमुख विश्लेषण परिणाम

  • Cluster 8: बहुत अधिक बार आता है, विविधता कम है, और पंक्ति की शुरुआत में अक्सर मिलता है — यह function-word cluster का उम्मीदवार है
  • Cluster 3: विविधता अधिक है और स्थिति स्वतंत्र है — यह root content-word cluster का उम्मीदवार है
  • transition matrix: randomness से काफ़ी दूर एक मज़बूत आंतरिक संरचना दिखाती है
  • cluster और POS patterns: manuscript sections (जैसे: Biological, Botanical आदि) के अनुसार अलग-अलग हैं

🧬 परिकल्पना

  • manuscript syllabic repetition और positional repetition का उपयोग करने वाली एक structured artificial/mnemonic language है
  • इसमें syntax, function/content separation, section-responsive language transitions जैसी भाषाई संरचनाएँ स्पष्ट रूप से दिखाई देती हैं

📊 उदाहरण visualizations

  • Figure 1: SBERT cluster embeddings (PCA reduction)
  • Figure 2: transition matrix heatmap

📌 सीमाएँ

  • cluster-word mapping अप्रत्यक्ष है, इसलिए frequency estimation में overlap हो सकता है
  • suffix removal का मानदंड heuristic है, इसलिए वास्तविक अर्थपूर्ण word endings भी खो सकते हैं
  • semantic interpretation का प्रयास नहीं किया गया; फोकस केवल structural analysis पर है

✍️ लेखक की टिप्पणी

  • यह प्रोजेक्ट AI, NLP, structural analysis सीखने के उद्देश्य से शुरू किया गया था
  • manuscript को decode करना इसका मुख्य लक्ष्य नहीं है; बल्कि आधुनिक tools से उसकी संरचना को समझना अधिक उपयोगी माना गया है
  • Rosetta Stone जैसी decoding की उम्मीद से अधिक, यह उन लोगों के लिए है जो मानते हैं कि “modeling अपने-आप में अर्थपूर्ण है”

🤝 योगदान मार्गदर्शन

  • यह प्रोजेक्ट linguists, cryptographers, conlang researchers, computational linguistics community—सभी के सहयोग और विस्तार का स्वागत करता है

1 टिप्पणियां

 
GN⁺ 2025-05-19
Hacker News टिप्पणियाँ
  • मैंने देखा कि आप PCA projection के भीतर clusters ढूँढ़ रहे थे — अगर आप और गहरी संरचना देखना चाहते हैं, तो मैं PaCMAP या LocalMAP जैसे नए dimensionality reduction algorithms सुझाऊँगा। मैं अभी Pol.is नाम के एक opinion survey tool के data को लेकर PCA की जगह ऐसे dimensionality reduction algorithms से दोबारा project करने वाला एक project कर रहा हूँ। यह देखकर प्रभावित हूँ कि ये नए algorithms ऐसी insights देते हैं जो पहले दिखाई नहीं देती थीं। मैंने groups को color करके visual रूप में भी दिखाया है, इसलिए desktop पर देखकर देखने की सलाह देता हूँ। अगर आप जानना चाहते हैं कि Pol.is क्या है, तो उससे जुड़ा article भी सुझाता हूँ

    • मुझे PaCMAP और LocalMAP के बारे में पहली बार बताने के लिए धन्यवाद — संरचना को अच्छी तरह बनाए रखने वाले ऐसे dimensionality reduction approaches इस data पर PCA से बेहतर फिट हो सकते हैं। आपकी बात से रुचि जगी है, इसलिए इसे और गहराई से देखूँगा
    • मेरा अनुभव है कि embedding reduction में PCA या t-SNE की तुलना में UMAP ने कहीं बेहतर परिणाम दिए हैं
  • यहाँ इस्तेमाल किया गया text embedding model paraphrase-multilingual-MiniLM-L12-v2 है, जो लगभग 4 साल पुराना model है। NLP की दुनिया में यह काफ़ी पुराना माना जाता है। हाल के LLM विकास के साथ embedding models की information representation capacity और embedding space के भीतर discrimination ability नाटकीय रूप से बेहतर हुई है। ऐसे नए embedding models भी, जिनका मुख्य लक्ष्य multilingual support नहीं है, इस तरह के data पर शानदार performance दिखाते हैं। इसलिए अपेक्षाकृत कम-ज्ञात भाषा Voynich Manuscript पर भी वे बेहतर प्रदर्शन कर सकते हैं। मेरा मानना है कि पारंपरिक NLP techniques (suffix removal, POS tagging आदि) उल्टा ज़रूरी context information खो सकती हैं और embedding quality को घटा सकती हैं

    • मैंने मुख्य रूप से speed और compatibility की वजह से paraphrase-multilingual-MiniLM-L12-v2 चुना था, लेकिन मैं मानता हूँ कि आज के मानकों से यह पुराना model है। all-mpnet-base-v2 या text-embedding-ada-002 जैसे नए models के साथ, suffixes को बनाए रखते हुए full-context embeddings आज़माना शायद और दिलचस्प नतीजे दे। आपकी टिप्पणी की वजह से मैं अगले iteration में इसे सकारात्मक रूप से सोचूँगा
  • मुझे NLP के बारे में ज़्यादा जानकारी नहीं है। सोच रहा हूँ कि क्या किसी controlled comparison के ज़रिए प्रक्रिया की जाँच करना ठीक रहेगा। उदाहरण के लिए, अगर किसी इंसान से ऐसी sentences लिखवाई जाएँ जो भाषा जैसी दिखें लेकिन वास्तव में भाषा न हों, और फिर उन्हीं पर वही प्रक्रिया लागू की जाए (suffix हटाना, clustering की कोशिश आदि), तो क्या वैसे ही नतीजे आएँगे?

    • बिल्कुल यही बात। समझ नहीं आता कि बस 100 लोगों से Voynich manuscript जैसा लिखवाकर उसी data पर training क्यों नहीं की गई
  • मुझे लगता है कि UMAP या t-SNE से analysis करना अच्छा होगा, भले ही PCA में पहले से साफ़ separation दिख गया हो। हर cluster को दूसरे के संदर्भ में map करना भी यह दिखाने का अच्छा तरीका लगता है कि analysis के भीतर अभी variability बची है या नहीं

    • अच्छा point है — शुरुआत में PCA में उम्मीद से ज़्यादा साफ़ separation मिला, इसलिए पहले उसी के साथ आगे बढ़ा। लेकिन जैसा आपने कहा, UMAP या t-SNE लगाने से nonlinear नज़रिए से और सूक्ष्म patterns या समस्याएँ मिल सकती हैं। मैंने cluster-to-cluster similarity matrix भी नहीं बनाई, लेकिन आपकी बात सुनकर लग रहा है कि signal वास्तव में कितना मज़बूती से पकड़ा जा रहा है, इसे validate करने का यह स्वाभाविक अगला कदम है। इसे follow-up work में ज़रूर आज़माना चाहिए। सोचने पर मजबूर करने के लिए धन्यवाद
    • अगर आपके पास इस reference mapping को कैसे किया जाता है, इसका कोई example हो, तो जानना चाहूँगा। मैं इसे दूसरी modalities की embeddings पर आज़माना चाहता हूँ, लेकिन NLP की तरफ़ मेरा अनुभव कम है
    • जब PCA से separation काफ़ी साफ़ मिल जाता है, तो individual points के बीच distance की व्याख्या करना आसान होता है, इसलिए मैं UMAP से बचता हूँ। t-SNE से तो distance interpretation लगभग बेकार लगती है, इसलिए मैं उससे हमेशा बचता हूँ। यह बस मेरी निजी पसंद है
  • मुझे यह hypothesis सबसे दिलचस्प लगती है: किसी लेखक ने शायद Voynichese को किसी Germanic language के रूप में मानकर काफ़ी प्रगति की थी। Uralic या Finno-Ugric language होने का दावा भी देखा है। आपकी methodology बहुत अच्छी लगी, और सोच रहा हूँ कि क्या इसे किसी खास language family को target करके apply करने से और अच्छे परिणाम मिल सकते हैं

    • मैंने पहले ऐसे सबूत भी देखे हैं कि Edward Kelly सही समय और सही जगह पर था और Cardan grille को जानता था। इसलिए मुझे लगता है कि उसके लेखक होने की संभावना काफ़ी है, और किताब शायद धोखाधड़ी या मज़ाक के इरादे से बनाई गई होगी
    • इस thread में कई तरह के “decipherment” दावों पर चर्चा हो रही है। Bernholz site ठीक-ठाक है, लेकिन Child का काम वास्तव में decipherment में बहुत मददगार नहीं है
  • मैं सोचता था कि यह पुरानी Turkish है

    • manuscript का English translation यहाँ देखा जा सकता है
  • हो सकता है मैंने README में यह miss कर दिया हो, लेकिन जानना चाहता हूँ कि “words” की शुरुआती encoding कैसे की गई थी। उदाहरण के लिए, okeeodair जैसे शब्द को वापस मूल symbols से कैसे map करते हैं?

    • सही है, okeeodair जैसे शब्द सीधे EVA transcription files से आए हैं। EVA (European Voynich Alphabet) system के आधार पर मूल Voynich symbols को ASCII में map किया गया है। इस project में symbols को सीधे handle करने के बजाय EVA-transcribed words को ही इस्तेमाल किया गया। अगर dataset में okeeodair है, तो इसका मतलब है कि किसी ने (विशेषज्ञों ने) उस symbol combination को इसी नाम से बुलाने पर सहमति बनाई है। transcription के बारे में जानकारी इस site पर देखी जा सकती है
  • मेरी कल्पना यह है कि अगर यह सिर्फ़ अर्थहीन scribble हो, cipher भी न हो, तो manuscript की प्रकृति के कारण style, handwriting, इस्तेमाल होने वाले words, यहाँ तक कि अक्षर भी पहले पेज से आख़िरी पेज तक evolve होने चाहिए। बेशक pages का क्रम बदल सकता है, लेकिन कुछ न कुछ फ़र्क दिखना चाहिए। जब तक कि लेखक ने उसी तरह की दर्जनों किताबें न लिखी हों जो सब गायब हो गईं। यह नई idea नहीं है, लेकिन जानना चाहता हूँ कि क्या ऐसे patterns पर analysis हुआ है, क्योंकि pages के बीच consistency पर कोई चर्चा मैंने नहीं देखी

    • pages के बीच consistency पर बहुत research हुआ है। विशेषज्ञों के बीच यह दावा मौजूद है कि दो (या पाँच) scribes थे। Lisa Fagin Davis के दावे पर आधारित experiment discussion भी है, जिसे देखना मददगार हो सकता है
  • मैं सोच रहा हूँ कि “brute force” style से इसे decipher करने में कितने resources लगेंगे। उदाहरण के लिए, अगर known language words के साथ one-by-one mapping करके score बढ़ाने वाली कोई स्पष्ट प्रक्रिया अपनाई जाए, तो कैसा रहेगा?

    • मैं बस यह कहना चाहूँगा कि इस approach में यह मानकर चला जाता है कि हर शब्द 1:1 map होगा, जबकि भाषा ज़रूरी नहीं कि ऐसे काम करे। उदाहरण के लिए, compound words को इस तरीके से map करना मुश्किल होगा। cultural differences की वजह से अर्थ संरचना में और भी बुनियादी अंतर हो सकते हैं
    • दिलचस्प सवाल है — सच कहूँ तो मैंने भी ऐसा ही कुछ सोचा था। मैं cryptography specialist नहीं हूँ, इसलिए बड़े पैमाने पर “brute force” वास्तव में कितना practical है, यह नहीं जानता। लेकिन हर Voynich “word” को किसी real-language word से map करके consistency optimize करने वाला approach काफ़ी experimental कोशिशों और directions से मेल खाता है। मुश्किल यह है कि vocabulary बहुत बड़ी है और यह भी साफ़ नहीं कि “words” वास्तव में real-language words से 1:1 map होते हैं या नहीं। Voynich “word” एक पूरा lexical unit है, कोई fragment है, या root-affix combination है — यह अस्पष्ट है। इस वजह से simple mapping काफ़ी कठिन लगती है। फिर भी individual tokens की जगह cluster IDs का इस्तेमाल करके language model से result score करवाने का idea काफ़ी अच्छा है। मुझे लगता है optimization या evolutionary techniques के साथ इसे आज़माना लायक है। इससे यह संकेत मिल सकता है कि इसकी संरचना कितनी “language-like” है। बढ़िया idea के लिए धन्यवाद। उम्मीद है कि इस क्षेत्र का कोई expert यह टिप्पणी देखे और इसे आज़माए
  • जानना चाहता हूँ कि जब इसी तरह की मात्रा वाले known-language text पर analysis किया जाए, तो क्या ऐसे ही patterns निकलते हैं। दूसरे शब्दों में, क्या इस analysis technique को अलग-अलग तरह के texts पर लागू करके यह समझने में मदद मिल सकती है कि यह writing system क्या दर्शाती है?