सभी AI मॉडल एक जैसे हो सकते हैं

(blog.jxmo.io)

1 पॉइंट द्वारा GN⁺ 2025-07-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Platonic Representation Hypothesis (आइडिया रिप्रेज़ेंटेशन हाइपोथेसिस) का दावा है कि जैसे-जैसे AI मॉडल बड़े और अधिक बुद्धिमान होते जाते हैं, वे अंदरूनी तौर पर मिलते-जुलते representation space की ओर converge करते हैं
language model के compression कॉन्सेप्ट के ज़रिए, बुद्धिमत्ता को data compression क्षमता के रूप में समझाया गया है, और यह बताया गया है कि जब मॉडल generalize करते हैं तो उनके तरीकों में समानता बढ़ जाती है
embedding inversion समस्या का विश्लेषण करते हुए, PRH के अनुसार अलग-अलग मॉडलों के embedding space को CycleGAN आदि से align किया जा सकता है
Sparse Autoencoder प्रयोगों सहित कई उदाहरण दिखाते हैं कि बहुत अलग नेटवर्क भी समान या मिलते-जुलते concepts और circuits खोज लेते हैं
इन insights की वजह से प्राचीन अपठित लिपियों या पशु भाषा के विश्लेषण जैसी व्यावहारिक applications की संभावना बढ़ जाती है

परिचय: Mussolini या Bread खेल और साझा अर्थ

लेखक "Mussolini या Bread" नाम के एक खेल का उदाहरण देते हैं, जिसमें सवालों को बार-बार संकुचित करते हुए सामने वाले के मन में मौजूद वस्तु का अनुमान लगाया जाता है
यह खेल इसलिए संभव है क्योंकि लोगों के बीच एक साझा semantic space मौजूद होता है
लेखक इस बात पर ज़ोर देते हैं कि अलग-अलग लोग बिना किसी औपचारिक नियम के भी अर्थ के स्तर पर 'निकटता' को सहज रूप से समझ लेते हैं

सार्वभौमिक semantics: दुनिया और मॉडलों का compression

इस खेल की तरह, मानव मस्तिष्क भी वास्तविक दुनिया के जटिल मॉडल को मिलते-जुलते तरीके से बनाता है
algorithmic नज़रिए से AI दुनिया के data को अधिकतम रूप से compress करके सीखता है
natural language generation को probability distribution पर आधारित compression task के रूप में देखा जा सकता है (Shannon की information theory)
मॉडल data को जितना बेहतर compress करता है, यह उतना ही संकेत देता है कि वह वास्तविक दुनिया को गहराई से समझता है
वास्तव में बड़े language models बेहतर data compression क्षमता और अधिक intelligence दिखाते हैं
जब dataset इतना बड़ा हो जाता है कि individual data points को याद रखना संभव नहीं रहता, तब मॉडल data को जोड़कर generalization शुरू करता है

Platonic Representation Hypothesis (आइडिया रिप्रेज़ेंटेशन हाइपोथेसिस)

MIT के शोधकर्ताओं ने 2024 में "Platonic Representation Hypothesis" को औपचारिक रूप दिया
इस hypothesis के अनुसार, AI मॉडल का आकार बढ़ने पर shared features की संख्या बढ़ती है और उनके representation space एक-दूसरे से मिलता-जुलता align होने लगते हैं
यह प्रवृत्ति language और vision सहित कई domains में प्रयोगात्मक रूप से देखी गई है
अनुमान है कि हर साल मॉडल जैसे-जैसे बड़े और अधिक efficient होते जाएंगे, मॉडलों के बीच representation space similarity भी बढ़ती जाएगी

embedding inversion समस्या

लेखक embedding vector से मूल input text को उल्टा अनुमान लगाने वाली embedding inversion समस्या पर अपने शोध अनुभव का वर्णन करते हैं
पहले से ही ImageNet आदि में सिर्फ probability values के आधार पर मूल image के काफ़ी करीब की जानकारी reconstruct करने के उदाहरण मौजूद थे
natural language embeddings में बहुत अधिक जानकारी दिखती है, लेकिन similar text के similar embedding होने की वजह से सटीक उल्टा अनुमान लगाना बहुत कठिन होता है
इसके लिए बार-बार embedding search और optimization के माध्यम से धीरे-धीरे अधिक सटीक text तक पहुँचने वाली iterative refinement तकनीक प्रभावी पाई गई
इस तरीके से लंबे वाक्यों के स्तर पर 94% से अधिक accuracy के साथ inversion की संभावना प्रदर्शित की गई

आइडिया हाइपोथेसिस के ज़रिए embedding inversion का सामान्यीकरण

लेकिन मौजूदा तरीक़े केवल किसी खास embedding model पर ही लागू होते थे, और नए या private models पर उनकी सीमा थी
अगर PRH सही है, तो अलग-अलग मॉडलों के बीच भी universal embedding inverter बनाया जा सकता है
जब जोड़ी की जानकारी के बिना अलग-अलग embedding sets (A, B) दिए जाएँ, तब CycleGAN तरीके से space alignment संभव है—इस पर कई वर्षों तक शोध किया गया
नतीजतन, अलग से fine-tuning किए बिना भी दो embedding spaces के बीच unsupervised matching तरीके से रूपांतरण करने में सफलता मिली (vec2vec)
इससे यह दिखाया गया कि हर embedding के बारे में अलग जानकारी न होने पर भी मनचाहे database embedding का अनुवाद या उल्टा अनुमान लगाना संभव है

machine interpretability की संभावना: Universal Circuits

Mechanistic Interpretability के circuit analysis शोध में भी यह पाया गया कि मॉडल संरचना अलग होने पर भी अंदरूनी कार्यों में समानता मिलती है
Sparse Autoencoder (SAE) लागू करने पर यह देखा गया कि अलग-अलग मॉडलों पर स्वतंत्र रूप से training होने के बावजूद interpretable features में काफ़ी बड़ा overlap मौजूद है
दो SAE के features की तुलना करके cross-model concept alignment संभव है
अगर PRH और अधिक सटीक साबित होती है, तो उम्मीद है कि जितने अधिक शक्तिशाली मॉडल होंगे, यह प्रभाव उतना अधिक स्पष्ट होगा

व्यावहारिक निहितार्थ और आगे की दिशा

आइडिया रिप्रेज़ेंटेशन हाइपोथेसिस के गहरे दार्शनिक अर्थों के अलावा, model interpretability, inversion, signal decoding, language restoration जैसी वास्तविक उपयोगिताएँ भी हैं
भविष्य में interpretability techniques बेहतर होने पर, बड़े मॉडलों में representation space alignment और आंतरिक समानताओं की खोज और आम हो सकती है
अब तक असंभव मानी जाने वाली प्राचीन लिपियों (Linear A) की decoding या पशु भाषा (जैसे whale vocalizations) की व्याख्या भी भविष्य में संभव हो सकती है
vec2vec जैसे मौजूदा तरीकों में अभी कमज़ोरियाँ हैं, फिर भी internet-based और image-text embeddings में काफ़ी सफलता देखी गई है
भाषाओं के बीच space conversion और whale language → human language transformation भी भविष्य में decoding की संभावना का संकेत देते हैं

1 टिप्पणियां

GN⁺ 2025-07-19

Hacker News राय

यह घटना कि हर कोई "कुत्ता", "घर", "इंसान", "नाव" जैसी मिलती-जुलती अवधारणाएँ सीखता है, Plato की theory of forms की तरह बहुत दिलचस्प है; अलग-अलग माहौल में बड़े होने और अवलोकन के अनुभव एक जैसे न होने पर भी आखिरकार लोग उन्हीं अवधारणाओं पर सहमत हो जाते हैं। बड़े भाषा मॉडल (LLM) भी कुछ वैसी ही learning दिखाते हैं, लेकिन LLM उतने हैरान करने वाले नहीं लगते क्योंकि उनके training data में बहुत overlap होता है। अगर Plato के बताए 'form of the good' जैसी कोई सार्वभौमिक नैतिकता या virtue सच में मौजूद है, तो उम्मीद की जा सकती है कि LLM को भी ऐसे values सिखाकर उन्हें उसका पालन करने या उसके विपरीत अनुरोध ठुकराने लायक बनाया जा सके
- "अच्छाई" या "न्याय" जैसी अवधारणाएँ संदर्भ के हिसाब से कहीं अधिक जटिल हैं। हम नाव या घर जैसी सरल चीजों पर सहमत हो सकते हैं, लेकिन abortion, euthanasia, animal·stem-cell experiments जैसे नैतिक मुद्दों पर एक ही समाज के भीतर भी नज़रिए गहराई से अलग होते हैं। उदाहरण के लिए 2010 Gallup opinion poll result chart देखें
- "लगभग" जैसा शब्द Plato के सही होने के दावे को संभालने के लिए बहुत ज़्यादा काम कर रहा है। हम एक ही physics laws, evolutionary pressures जैसी साझा reality में जीते हैं, इसलिए नाव के पानी पर तैरने के तरीके सीमित ही होंगे। लेकिन इससे यह नहीं लगता कि कोई Platonic form वास्तव में मौजूद है और सब लोग ठीक वही अवधारणा तक पहुँचते हैं। वास्तव में "freedom", "economy", "government" जैसे शब्दों की भी सबकी परिभाषा और व्याख्या अलग होती है; grammar एक जैसी होने से ऊपर-ऊपर मिलती-जुलती लग सकती है, पर असली अवधारणा अलग होती है
- अंततः इसे Jung के archetype की अवधारणा की तरह समझता हूँ
embeddings को फिर से text में बदलने वाले उदाहरण "shared reality के statistical model" की अवधारणा का समर्थन नहीं करते। "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby" का whale-language version तो कल्पना करना भी मुश्किल है, और Kentucky, Derby, Gregorian calendar, America, horse breed जैसी चीजें सब मानव इतिहास की आकस्मिकताओं और संस्कृति से महत्त्वपूर्ण बनी कृत्रिम रचनाएँ हैं। अंत में यह बस वही घटना है कि सब एक ही data pile पर train होते-होते सांख्यिकीय रूप से समान हो जाते हैं
- Kentucky Derby "reality का core" है या नहीं, इससे अलग बात यह है कि reality को 100% सही model करने के लिए Kentucky Derby के बारे में जानना पड़ेगा। लेखक का दावा है कि model अंततः Platonic forms के करीब किसी representation की ओर converge कर रहे हैं। अगर कोई पूर्ण रूप से autonomous model हो जिसकी convertibility परिपूर्ण हो, तो वह "घोड़े की दौड़", "दौड़ जीतने वाला घोड़ा" जैसी अवधारणाएँ उच्च-आयामी रूप में भी पहुँचा सकता है। Plato की theory of forms सही हो या न हो, यह अलग बात है कि मौजूदा LLM वास्तव में इतना कर पा रहे हैं या नहीं
- यह कहना कि reality पूरी तरह cultural है, अर्थहीन है। यही बात scientific facts पर भी लागू होती है; whale को science शब्द न पता हो, तब भी gravity मौजूद है। अगर किसी LLM ने सिर्फ Newton की gravity theory सीखी हो और बाद में Einstein की general relativity (GR) सामने आए, तो training data में GR न होने पर भी reality के बारे में GR की explanatory power नहीं बदलती। GR को whale song में translate करना शायद असंभव हो, लेकिन English-Chinese-ML model-दिमागी अवधारणा जैसी किसी शृंखला के ज़रिए पहुँचाया जा सकता है; यही "shared statistical reality model" है। शिशु की babbling में GR translate न कर पाने से भी GR की reality नहीं बदलती
- यह मानना कठिन है कि LLM reality के statistical model की ओर converge कर रहे हैं; वास्तव में वे सिर्फ training data के statistical model की ओर converge कर रहे हैं। बस training data इतना बड़ा है कि वे सभी texts में कोई साझा चीज़ ढूँढते हुए दिखते हैं। इससे reality के core truths खुलेंगे, ऐसा नहीं लगता; हाँ, यह ज़रूर समझा सकता है कि "जब हम यह idiom इस्तेमाल करते हैं, तो सब इसका यही अर्थ समझते हैं"
- "Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby" वाक्य को Greek या कुछ आधुनिक indigenous भाषाओं में translate करना भी लगभग असंभव है। क्योंकि उस culture का shared context ही नहीं है, इसलिए glossary चाहिए होगी, या LLM को खुद glossary की भूमिका निभानी होगी तभी समझ संभव होगी। फिर भी मौजूदा top-tier LLM QCD, gravity, cultural phenomena जैसे micro से macro concepts तक समझा सकते हैं, और अगर बिल्कुल नई भाषा में translate करना हो, तो शायद base concepts देकर धीरे-धीरे structure बनाया जा सकता है। आखिरकार मानव भाषाओं के बीच translation भी LLM बिना अलग supervision के मूल रूप से इसी क्षमता के कारण कर लेते हैं
- इस मुद्दे को आसानी से परखा जा सकता है अगर दो models, जिनके datasets पूरी तरह अलग हों, train किए जाएँ — जैसे एक सिर्फ प्राचीन Chinese texts पर, दूसरा सिर्फ प्राचीन Greek पर — और देखा जाए कि क्या समान संरचना उभरती है
"हम whale language या प्राचीन भाषाओं का अनुवाद कर सकते हैं" जैसी उम्मीद कुछ ज़्यादा ही आशावादी है। भाषा में सबसे महत्वपूर्ण चीज़ context है। इंसानों ने अपने अनुभवों के आधार पर अरबों texts छोड़े हैं, इसलिए AI भाषा में अच्छा है; whales के पास ऐसा data नहीं है
- सवाल उठता है: "अगर शेर बोल सकता, तो क्या हम उसे समझ पाते?"
- हमारे आसपास की दुनिया इंसान, whale और दूसरे जानवरों के लिए साझा अनुभव है। इसे देखते हुए whale और इंसान के बीच भी कुछ साझा बिंदु मौजूद हैं
- असल सवाल यह है कि क्या "भाषाओं के बीच shared representation space" है। अगर है, तो भाषा-विशिष्ट संरचना और translation mapping को अलग-अलग सीखा जा सकता है। बाद वाला, जिसे "universal embedding inverter" कहा गया, सीखना शायद आसान हो सकता है, और अगर संरचना पर्याप्त रूप से विशिष्ट हो, तो उसे common representation space में map करके इस्तेमाल किया जा सकता है। अगर context के बिना भी translation संभव हो — अभी यह उम्मीद भरा अनुमान है — तो भी बिना पूर्वाग्रह के इसकी जाँच की जानी चाहिए
- अगर gorilla या elephant (दोनों बहुत बुद्धिमान हैं) को चीज़ों के नाम रखना और symbols का उपयोग करना सिखाया जाए, तो मेरा मानना है कि वे भी अनुभव और wisdom को पीढ़ियों के बीच संचारित कर सकते हैं, और शांति से हमसे कम नहीं ऐसी बुद्धि दिखा सकते हैं। वैसे Google Gemma का dolphin project दिलचस्प है, लेकिन चूँकि इंसान स्थलीय प्राणी हैं, इसलिए इच्छा है कि dolphin की जगह elephant को अध्ययन का विषय बनाया जाता। इससे जमीन पर तुरंत research feedback मिल सकता और बुनियादी research पर अधिक ध्यान दिया जा सकता
यह तरीका तभी काम करता है जब हर source की characteristic distribution और semantic relations पर्याप्त रूप से समान हों। MB game (Mussolini vs Bread जैसे comparative inference game) में अगर दूसरा व्यक्ति किसी ऐसे शख्स को चुन ले जिसे मैं नहीं जानता, तो खेल विफल हो जाता है। reference पकड़ में नहीं आते, या semantic distance का आकलन भी अलग हो सकता है। experts के साथ experts, आम लोगों के साथ आम लोग — स्तर मिलना चाहिए तभी ठीक से काम चलता है। प्राचीन दस्तावेज़ों को पढ़ने-समझने में भी यही समस्या है; अगर किसी प्राचीन सभ्यता का ध्यान आज की दुनिया से बिल्कुल अलग अवधारणाओं पर रहा हो, तो आधुनिक semantic embeddings से उसे समझना लगभग असंभव हो जाएगा
- दोस्तों के साथ MB game खेलो तो — अगर जवाब कोई व्यक्ति हो, मैंने कभी अंत तक सही नहीं पहचाना
Mussolini vs Bread game के उदाहरण में "यह तो ज़रूर कोई व्यक्ति है" जैसी reasoning तार्किक रूप से सही नहीं है। जानवरों में भी ऐसे जवाब ज़्यादा हो सकते हैं
- यह मज़ाक इस तरह का है कि David Beckham व्यक्ति होने से ज़्यादा, (बुराई के अवतार से तुलना करने पर भी) उतना मानवीय महसूस नहीं होता
- तर्क ढीला है, लेकिन असल बात यह है कि इतनी कम explanation के बावजूद लोग अक्सर सही उत्तर का अनुमान लगा लेते हैं। इसका मतलब है कि इंसानों में कोई साझा fuzzy semantic space है
- मेरा विचार भी लेखक जैसा ही है। मेरा शब्द शायद "gun" या "artillery" होगा, और वह भी इस तार्किक कमजोरी के पार निकल सकता है। साथ ही यह इशारा करता है कि सिर्फ pure embedding search से RAG (retrieval-augmented generation) की समस्या हल नहीं होती
- छोटी-मोटी तार्किक गलतियों को माफ़ करें
- Oswald Mosley जैसा अजीब जवाब भी आ सकता है
"यह game इसलिए काम करता है क्योंकि दुनिया की चीज़ें सिर्फ एक ही तरीके से आपस में जुड़ी हैं" — इस दावे से सहमत नहीं हूँ। कई तरह के संबंध होते हैं, और वे भी उसी reality से पैदा होते हैं जिसमें हम जीते हैं। लगता है "तरीका" शब्द कई अर्थों में इस्तेमाल हुआ है, और उद्धरण की अस्पष्टता से भ्रम पैदा हुआ है
इस बात से सहमत हूँ कि LLM मानवता के सामूहिक कार्य-उत्पाद के रूप में वर्तमान reality representation की ओर converge कर रहे हैं। अब AI को real-time sensory input, dialogue और energy usage पर आधारित अलग-अलग half-life वाले virtual hormones, लगातार चलने वाला thought loop, और creative neural connections जगाने वाला artificial psilocybin भी देना चाहिए। अगर मानवता के लिए stoned ape theory है, तो AI के लिए stoned AI theory भी होनी चाहिए
- क्यों न AI को theme park में visitors के लिए attraction बना दिया जाए, और Anthony Hopkins को उसका source code manage करने दिया जाए? भला क्या गड़बड़ हो सकती है?
- अब AI पर लेख पढ़ना उबाऊ लगने लगा है, लेकिन अगर कभी "हमने AI को mushroom खिलाया" जैसी खबर दिखे, तो मैं तुरंत क्लिक करूँगा
"जब Ilya ने intelligence-compression पर talk दी थी, तब मैं उसे बिल्कुल समझ नहीं पाया" — यह पढ़कर लगा कि क्या Marcus Hutter को भुला दिया गया है। अगर ऐसा है, तो Hutter Prize को फिर से देखना ज़रूरी है
मैंने Grok, o3-pro, Claude से piezoelectric effect के बारे में पूछा। तीनों ने सही जवाब दिया, लेकिन सिर्फ Claude ने real-world use case में आने वाले second-order effects तक इशारा किया। तीनों models शायद एक ही space को explore कर सकते हैं, लेकिन Claude ने एक स्तर गहरी दृष्टि दी
- एक जिज्ञासा है: जानना चाहता हूँ कि यह Grok 3 था या 4
दाओ को कहा जा सकता है, लेकिन वह शाश्वत दाओ नहीं होता। अगर पूछा जाए कि दाओ क्या है, तो मेरे लिए वह 'will' है — और will को इंसान भाषा के ज़रिए व्यक्त कर सकता है। वही will Chinese, Japanese, English सबमें व्यक्त की जा सकती है; भाषाएँ बस अलग-अलग representations हैं। बड़े भाषा मॉडल भी word tokens के माध्यम से will सीखते हैं, और जब वे उसे व्यक्त करते हैं तो दाओ को मूर्त करते हैं। इस अर्थ में मैं इस दावे से सहमत हूँ कि “AI models मूल रूप से सब एक जैसे हो सकते हैं”

सभी AI मॉडल एक जैसे हो सकते हैं

परिचय: Mussolini या Bread खेल और साझा अर्थ

सार्वभौमिक semantics: दुनिया और मॉडलों का compression

Platonic Representation Hypothesis (आइडिया रिप्रेज़ेंटेशन हाइपोथेसिस)

embedding inversion समस्या

आइडिया हाइपोथेसिस के ज़रिए embedding inversion का सामान्यीकरण

machine interpretability की संभावना: Universal Circuits

व्यावहारिक निहितार्थ और आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय