- Platonic Representation Hypothesis (आइडिया रिप्रेज़ेंटेशन हाइपोथेसिस) का दावा है कि जैसे-जैसे AI मॉडल बड़े और अधिक बुद्धिमान होते जाते हैं, वे अंदरूनी तौर पर मिलते-जुलते representation space की ओर converge करते हैं
- language model के compression कॉन्सेप्ट के ज़रिए, बुद्धिमत्ता को data compression क्षमता के रूप में समझाया गया है, और यह बताया गया है कि जब मॉडल generalize करते हैं तो उनके तरीकों में समानता बढ़ जाती है
- embedding inversion समस्या का विश्लेषण करते हुए, PRH के अनुसार अलग-अलग मॉडलों के embedding space को CycleGAN आदि से align किया जा सकता है
- Sparse Autoencoder प्रयोगों सहित कई उदाहरण दिखाते हैं कि बहुत अलग नेटवर्क भी समान या मिलते-जुलते concepts और circuits खोज लेते हैं
- इन insights की वजह से प्राचीन अपठित लिपियों या पशु भाषा के विश्लेषण जैसी व्यावहारिक applications की संभावना बढ़ जाती है
परिचय: Mussolini या Bread खेल और साझा अर्थ
- लेखक "Mussolini या Bread" नाम के एक खेल का उदाहरण देते हैं, जिसमें सवालों को बार-बार संकुचित करते हुए सामने वाले के मन में मौजूद वस्तु का अनुमान लगाया जाता है
- यह खेल इसलिए संभव है क्योंकि लोगों के बीच एक साझा semantic space मौजूद होता है
- लेखक इस बात पर ज़ोर देते हैं कि अलग-अलग लोग बिना किसी औपचारिक नियम के भी अर्थ के स्तर पर 'निकटता' को सहज रूप से समझ लेते हैं
सार्वभौमिक semantics: दुनिया और मॉडलों का compression
- इस खेल की तरह, मानव मस्तिष्क भी वास्तविक दुनिया के जटिल मॉडल को मिलते-जुलते तरीके से बनाता है
- algorithmic नज़रिए से AI दुनिया के data को अधिकतम रूप से compress करके सीखता है
- natural language generation को probability distribution पर आधारित compression task के रूप में देखा जा सकता है (Shannon की information theory)
- मॉडल data को जितना बेहतर compress करता है, यह उतना ही संकेत देता है कि वह वास्तविक दुनिया को गहराई से समझता है
- वास्तव में बड़े language models बेहतर data compression क्षमता और अधिक intelligence दिखाते हैं
- जब dataset इतना बड़ा हो जाता है कि individual data points को याद रखना संभव नहीं रहता, तब मॉडल data को जोड़कर generalization शुरू करता है
Platonic Representation Hypothesis (आइडिया रिप्रेज़ेंटेशन हाइपोथेसिस)
- MIT के शोधकर्ताओं ने 2024 में "Platonic Representation Hypothesis" को औपचारिक रूप दिया
- इस hypothesis के अनुसार, AI मॉडल का आकार बढ़ने पर shared features की संख्या बढ़ती है और उनके representation space एक-दूसरे से मिलता-जुलता align होने लगते हैं
- यह प्रवृत्ति language और vision सहित कई domains में प्रयोगात्मक रूप से देखी गई है
- अनुमान है कि हर साल मॉडल जैसे-जैसे बड़े और अधिक efficient होते जाएंगे, मॉडलों के बीच representation space similarity भी बढ़ती जाएगी
embedding inversion समस्या
- लेखक embedding vector से मूल input text को उल्टा अनुमान लगाने वाली embedding inversion समस्या पर अपने शोध अनुभव का वर्णन करते हैं
- पहले से ही ImageNet आदि में सिर्फ probability values के आधार पर मूल image के काफ़ी करीब की जानकारी reconstruct करने के उदाहरण मौजूद थे
- natural language embeddings में बहुत अधिक जानकारी दिखती है, लेकिन similar text के similar embedding होने की वजह से सटीक उल्टा अनुमान लगाना बहुत कठिन होता है
- इसके लिए बार-बार embedding search और optimization के माध्यम से धीरे-धीरे अधिक सटीक text तक पहुँचने वाली iterative refinement तकनीक प्रभावी पाई गई
- इस तरीके से लंबे वाक्यों के स्तर पर 94% से अधिक accuracy के साथ inversion की संभावना प्रदर्शित की गई
आइडिया हाइपोथेसिस के ज़रिए embedding inversion का सामान्यीकरण
- लेकिन मौजूदा तरीक़े केवल किसी खास embedding model पर ही लागू होते थे, और नए या private models पर उनकी सीमा थी
- अगर PRH सही है, तो अलग-अलग मॉडलों के बीच भी universal embedding inverter बनाया जा सकता है
- जब जोड़ी की जानकारी के बिना अलग-अलग embedding sets (A, B) दिए जाएँ, तब CycleGAN तरीके से space alignment संभव है—इस पर कई वर्षों तक शोध किया गया
- नतीजतन, अलग से fine-tuning किए बिना भी दो embedding spaces के बीच unsupervised matching तरीके से रूपांतरण करने में सफलता मिली (vec2vec)
- इससे यह दिखाया गया कि हर embedding के बारे में अलग जानकारी न होने पर भी मनचाहे database embedding का अनुवाद या उल्टा अनुमान लगाना संभव है
machine interpretability की संभावना: Universal Circuits
- Mechanistic Interpretability के circuit analysis शोध में भी यह पाया गया कि मॉडल संरचना अलग होने पर भी अंदरूनी कार्यों में समानता मिलती है
- Sparse Autoencoder (SAE) लागू करने पर यह देखा गया कि अलग-अलग मॉडलों पर स्वतंत्र रूप से training होने के बावजूद interpretable features में काफ़ी बड़ा overlap मौजूद है
- दो SAE के features की तुलना करके cross-model concept alignment संभव है
- अगर PRH और अधिक सटीक साबित होती है, तो उम्मीद है कि जितने अधिक शक्तिशाली मॉडल होंगे, यह प्रभाव उतना अधिक स्पष्ट होगा
व्यावहारिक निहितार्थ और आगे की दिशा
- आइडिया रिप्रेज़ेंटेशन हाइपोथेसिस के गहरे दार्शनिक अर्थों के अलावा, model interpretability, inversion, signal decoding, language restoration जैसी वास्तविक उपयोगिताएँ भी हैं
- भविष्य में interpretability techniques बेहतर होने पर, बड़े मॉडलों में representation space alignment और आंतरिक समानताओं की खोज और आम हो सकती है
- अब तक असंभव मानी जाने वाली प्राचीन लिपियों (Linear A) की decoding या पशु भाषा (जैसे whale vocalizations) की व्याख्या भी भविष्य में संभव हो सकती है
- vec2vec जैसे मौजूदा तरीकों में अभी कमज़ोरियाँ हैं, फिर भी internet-based और image-text embeddings में काफ़ी सफलता देखी गई है
- भाषाओं के बीच space conversion और whale language → human language transformation भी भविष्य में decoding की संभावना का संकेत देते हैं
1 टिप्पणियां
Hacker News राय