- स्पैटियल इंटेलिजेंस (spatial intelligence) वह प्रमुख क्षेत्र है जो इस बात को मूल रूप से बदल रहा है कि AI वास्तविक और वर्चुअल दुनिया को कैसे समझता है और उनके साथ कैसे इंटरैक्ट करता है
- मौजूदा बड़े भाषा मॉडल (LLM) भाषा प्रसंस्करण में उत्कृष्ट हैं, लेकिन दूरी, दिशा और भौतिक संगति जैसी स्पैटियल रीज़निंग क्षमताओं में अभी मानव स्तर तक नहीं पहुँचे हैं
- इसे हल करने के लिए एक नए दृष्टिकोण के रूप में ‘world model’ प्रस्तावित किया गया है, जो जनरेटिव, मल्टीमोडल और इंटरैक्टिव गुणों वाला अगली पीढ़ी का जनरेटिव मॉडल आर्किटेक्चर है
- World Labs ऐसे मॉडलों पर काम कर रहा है, और ‘Marble’ नाम का इसका शुरुआती संस्करण मल्टी-इनपुट के आधार पर संगत 3D वातावरण बनाने और बनाए रखने की क्षमता दिखाता है
- स्पैटियल इंटेलिजेंस क्रिएटिविटी, रोबोटिक्स, विज्ञान, चिकित्सा और शिक्षा जैसे कई क्षेत्रों में मानव क्षमताओं को बढ़ाने वाले AI विकास का अगला चरण है
स्पैटियल इंटेलिजेंस की अवधारणा और महत्व
- मानव बुद्धि perception-action loop के आधार पर विकसित हुई है, और स्पैटियल इंटेलिजेंस इसे संभव बनाने वाला एक मुख्य तत्व है
- कार पार्क करना, किसी वस्तु को पकड़ना, जटिल वातावरण में चलना जैसी रोज़मर्रा की सभी गतिविधियाँ स्पैटियल रीज़निंग पर निर्भर करती हैं
- भाषा से पहले के बाल विकास में भी बच्चे पर्यावरण के साथ इंटरैक्शन के माध्यम से स्थान-बोध सीखते हैं
- क्रिएटिविटी और कल्पनाशक्ति भी स्पैटियल इंटेलिजेंस पर आधारित हैं
- गुफा-चित्रों से लेकर फिल्म, गेम और वर्चुअल रियलिटी (VR) तक, मनुष्य ने स्पैटियल सोच के माध्यम से दुनिया को व्यक्त किया है
- इंडस्ट्रियल डिज़ाइन, डिजिटल ट्विन और रोबोट ट्रेनिंग में भी स्पैटियल सिमुलेशन महत्वपूर्ण भूमिका निभाता है
- ऐतिहासिक रूप से भी स्पैटियल इंटेलिजेंस सभ्यता के विकास की प्रेरक शक्ति रही है
- एरैटोस्थनीज़ द्वारा पृथ्वी की परिधि की गणना, Spinning Jenny की संरचनात्मक नवाचार, और DNA संरचना की खोज—ये सभी स्पैटियल सोच के परिणाम थे
- आज AI ने विज़ुअल रिकग्निशन और जनरेशन क्षमताओं में प्रगति की है, लेकिन दूरी, दिशा और भौतिक नियमों की समझ में अभी भी कमी है
- नवीनतम मल्टीमोडल मॉडल भी वस्तु घुमाव, भूलभुलैया नेविगेशन और भौतिक पूर्वानुमान जैसे कार्यों में कम प्रदर्शन दिखाते हैं
- इसी सीमा के कारण रोबोट नियंत्रण, autonomous driving और immersive learning जैसे वास्तविक दुनिया के अनुप्रयोग सीमित हैं
World model: स्पैटियल इंटेलिजेंस को साकार करने वाला नया AI आर्किटेक्चर
- स्पैटियल इंटेलिजेंस को साकार करने के लिए LLM से अधिक जटिल world model की आवश्यकता है
- इसे वास्तविक और वर्चुअल दुनिया की semantic, physical, geometric और dynamic complexity को एकीकृत रूप से समझना, उत्पन्न करना और उनके साथ इंटरैक्ट करना होगा
- World model की तीन मुख्य क्षमताएँ
- Generative: ऐसा संसार बनाना जो perceptual, geometric और physical रूप से संगत हो
- यह वास्तविक या वर्चुअल स्पेस का सिमुलेशन करते हुए वर्तमान और पिछले state के बीच continuity बनाए रखता है
- Multimodal: image, video, text, gesture जैसे विविध इनपुट का एकीकृत प्रसंस्करण
- इसमें विज़ुअल fidelity और semantic interpretation दोनों क्षमताएँ होनी चाहिए
- Interactive: दिए गए action के अनुसार अगली state का पूर्वानुमान और जनरेशन
- यदि target state दी जाए, तो उसके अनुरूप दुनिया में बदलाव और आवश्यक action तक का पूर्वानुमान संभव होना चाहिए
- चूँकि इसमें भाषा जनरेशन की तुलना में कहीं अधिक जटिल भौतिक नियम, ज्यामितीय संरचना और dynamics को संगत रूप से दर्शाना होता है, इसलिए इसकी तकनीकी कठिनाई बहुत अधिक है
World Labs का शोध और तकनीकी चुनौतियाँ
- World Labs की स्थापना 2024 की शुरुआत में हुई और यह स्पैटियल इंटेलिजेंस-केंद्रित world model शोध पर काम कर रहा है
- प्रमुख शोध विषय
- सार्वभौमिक learning function की परिभाषा: LLM के ‘next token prediction’ की तरह सरल, लेकिन भौतिक और ज्यामितीय नियमों को दर्शाने वाला learning objective तैयार करना
- बड़े पैमाने का training data: इंटरनेट image और video, synthetic data, depth और tactile information जैसी कई स्रोतों का उपयोग
- नया मॉडल आर्किटेक्चर: 3D और 4D perception-आधारित tokenizing और memory structure पर शोध
- उदाहरण: RTFM (Real-Time Frame-based Model) स्पैटियल frames को memory के रूप में उपयोग कर real-time generation और consistency बनाए रखता है
- शुरुआती परिणाम Marble मल्टी-इनपुट से संगत 3D वातावरण उत्पन्न और बनाए रखता है, और इसका डेमो कुछ उपयोगकर्ताओं को दिखाया गया है
- इसे भविष्य में सार्वजनिक रूप से जारी करने के लक्ष्य के साथ विकसित किया जा रहा है
स्पैटियल इंटेलिजेंस के अनुप्रयोग क्षेत्र
क्रिएटिविटी और कंटेंट प्रोडक्शन
- Marble फिल्म निर्माताओं, गेम डिज़ाइनरों और आर्किटेक्ट्स को पूरी तरह एक्सप्लोरेबल 3D दुनिया जनरेट करने की क्षमता देता है
- बजट और भौगोलिक सीमाओं के बिना विभिन्न दृश्य और नज़रिए आज़माए जा सकते हैं
- स्टोरीटेलिंग, कला, शिक्षा और डिज़ाइन में immersive अनुभव बनाए जा सकते हैं
- स्पैटियल narrative design के माध्यम से आर्किटेक्चर, इंडस्ट्री और फैशन डिज़ाइन के विज़ुअलाइज़ेशन की प्रक्रिया छोटी की जा सकती है
- VR और XR आधारित immersive experiences के विस्तार से व्यक्तिगत क्रिएटर्स भी अपनी दुनिया बना सकेंगे
रोबोटिक्स
- रोबोट लर्निंग में मुख्य bottleneck training data की कमी है, जिसे world model पूरा कर सकता है
- simulation और वास्तविक दुनिया के बीच का अंतर कम करके विविध वातावरणों में ट्रेनिंग संभव होती है
- मानव-सहयोगी रोबोट बनाने के लिए स्पैटियल इंटेलिजेंस अनिवार्य है
- प्रयोगशाला और घर जैसे स्थानों में मानव के लक्ष्य और व्यवहार को समझकर सहयोग करने वाले रोबोट विकसित किए जा सकते हैं
- विभिन्न प्रकार के रोबोट—nanobot, soft robot, deep-sea और space robots—के लिए training environments और benchmarks बनाने में भी इसका उपयोग हो सकता है
विज्ञान, चिकित्सा, शिक्षा
- वैज्ञानिक शोध: बहु-आयामी simulation से प्रयोगों को तेज़ करना और climate व materials research जैसे क्षेत्रों में computational cost कम करना
- चिकित्सा: drug discovery, medical imaging diagnosis और patient monitoring में स्पैटियल इंटेलिजेंस-आधारित AI का बढ़ता उपयोग
- शिक्षा: जटिल अवधारणाओं का विज़ुअलाइज़ेशन और शिक्षार्थी-विशिष्ट immersive learning environments उपलब्ध कराना
- छात्र कोशिका संरचना या ऐतिहासिक घटनाओं का अन्वेषण कर सकते हैं, और विशेषज्ञ वास्तविकता-सदृश simulation में कौशल का अभ्यास कर सकते हैं
मानव-केंद्रित AI विकास की दृष्टि
- AI विकास का उद्देश्य मानव क्षमताओं का विस्तार है, प्रतिस्थापन नहीं
- इसका विकास ऐसे होना चाहिए कि वह क्रिएटिविटी, प्रोडक्टिविटी, कनेक्टिविटी और जीवन-संतुष्टि को बढ़ाए
- स्पैटियल इंटेलिजेंस को मानव की कल्पनाशक्ति, देखभाल और खोज की क्षमता को विस्तारित करने वाली तकनीक के रूप में प्रस्तुत किया गया है
- इस दृष्टि को साकार करने के लिए शोधकर्ताओं, कंपनियों और नीति-निर्माताओं सहित पूरे AI ecosystem के सहयोग की आवश्यकता है
निष्कर्ष
- AI पहले ही समाज के कई क्षेत्रों को बदल चुका है, लेकिन स्पैटियल इंटेलिजेंस को उसके अगले चरण के नवाचार के रूप में देखा जा रहा है
- world model के माध्यम से वास्तविक दुनिया के साथ सामंजस्यपूर्ण ढंग से इंटरैक्ट करने वाली spatially intelligent machines विकसित की जा सकती हैं
- इसे रोग अनुसंधान, स्टोरीटेलिंग और देखभाल जैसे मानव के मूल कार्यों को बेहतर बनाने वाले तकनीकी turning point के रूप में आंका जा रहा है
- जैसे मानव बुद्धि का विकास स्पैटियल इंटेलिजेंस से शुरू हुआ, वैसे ही AI की परिपक्वता भी स्पैटियल इंटेलिजेंस से पूरी होगी—ऐसी दृष्टि प्रस्तुत की गई है
1 टिप्पणियां
Hacker News की राय
लेख पढ़कर भी यह साफ़ नहीं हुआ कि ये लोग वास्तव में क्या समझ रहे हैं
नोट्स में ठोस जानकारी लगभग नहीं है, बस इतना है कि “Imagenet की तरह spatial data इकट्ठा करेंगे”
spatial intelligence पर काम करने वाले लोग ज़्यादातर neuroscience क्षेत्र में हैं
मेरे लिखे survey paper में बताया गया था कि entorhinal cortex, grid cell, और coordinate transformation अहम हो सकते हैं
सभी जानवर real time में coordinates को transform करके दुनिया में रास्ता खोजते हैं, और इंसानों के पास उनमें सबसे अधिक coordinate representations हैं
मुझे लगता है कि मानव-स्तर की बुद्धिमत्ता का मतलब है यह जानना कि coordinate system को कब और कैसे transform करके उपयोगी जानकारी निकाली जाए
यह मैंने LLM boom से पहले लिखा था, लेकिन आज भी मुझे लगता है कि दिशा सही है
यह collision detection, physics-based animation, nonlinear equations solving, और rough terrain पर legged locomotion रिसर्च तक गया, लेकिन वह AI नहीं था
आजकल तरीका यह है कि भारी-भरकम compute झोंककर उम्मीद की जाए कि learning system spatial world की internal representation खुद खोज ले
robot walking काफ़ी बेहतर हुआ है, लेकिन unstructured environments में manipulation अब भी बहुत खराब है
1960s के Stanford McCarthy lab के वीडियो से तुलना करें तो बहुत बड़ा फ़र्क नहीं दिखता
पहले मुझे लगता था कि human-level से पहले चूहे या गिलहरी-स्तर की intelligence हासिल करनी होगी, लेकिन abstract AI पहले आ गया, यह चौंकाने वाला था
हाल में छोटे वीडियो देखकर अगला scene predict करने वाली video generation रिसर्च दिलचस्प लग रही है
मुझे लगता है common sense का मूल यही है कि “अगला क्या होने वाला है” इसे कम समय में predict कर पाना
संबंधित Nobel Prize press release भी देखने लायक है
“transform”, “revolutionize”, “next frontier”, “North Star” जैसे VC-शैली के buzzwords बहुत ज़्यादा हैं, इसलिए भरोसा कम हो गया
2018 Nature का "Vector-based navigation using grid-like representations in artificial agents",
2024 Nature का "Modeling hippocampal spatial cells in rodents navigating in 3D environments",
और DeepMind का grid-cell simulation भी साथ में देखना अच्छा रहेगा
neuroscience में spatial cognition पर काफ़ी समय से शोध होता आया है
biological systems की हूबहू नकल करना लगभग हमेशा असफल रहा है
CNN दिमाग़ से प्रेरित थे, लेकिन संरचनात्मक रूप से अलग हैं, और LLM मानव मस्तिष्क से लगभग मिलते ही नहीं
LLM की functional similarity brain structure की नकल से नहीं, बल्कि training process से आती है
यह बस एक simulation system है जो सीमित virtual world में काम करता है
ऐसे systems वास्तविक दुनिया की जटिल dynamics सीखने में लगभग कोई मदद नहीं करते
virtual world model, physical world model का सिर्फ़ सरल किया हुआ special case है, और यह कंपनी spatial intelligence में वास्तविक प्रगति कर रही है ऐसा कोई सबूत नहीं दिखता
हाल में मैंने agentic coding को CAD पर लागू किया और अनुभव कमाल का रहा
मुझे 3D print model में threads जोड़ने थे, इसलिए computational geometry का उपयोग करके agent को model को ‘महसूस’ करने लायक बनाया
sphere radius को पूरे model पर convolve करके port positions ढूँढीं और threads जोड़ दिए
कुछ कोशिशों के बाद यह काम कर गया, और इस अनुभव से लगा कि model में ‘tactile sense’ होना चाहिए
अंत में 3D model को code के रूप में implement करना पड़ा ताकि उसे verify किया जा सके
मैंने OpenSCAD के साथ प्रयोग किया, लेकिन मौजूदा models में shape connectivity का common sense नहीं है
अगर code-based CAD datasets ज़्यादा मिलें तो यह बहुत अधिक उपयोगी हो सकता है
नहीं तो अंततः physics simulation-based learning की ज़रूरत पड़ेगी
“वह वहाँ मत रखो, इधर रखो” जैसी अस्पष्टता पैदा हो जाती है
Genie 3 ने उसके बताए लक्ष्य, यानी consistent physics laws वाले controllable world model को कुछ हद तक हासिल कर लिया है
sibling model Veo 3 ने spatial problem solving ability भी दिखाई है
Genie और Veo, World Labs की तुलना में उसकी vision के कहीं अधिक क़रीब लगते हैं
लेकिन लेख में Google models का ज़िक्र तक नहीं है, इसलिए यह self-promotion वाला लेख लगता है
DeepMind Gemini Robotics ER देखें
आज का AI सिर्फ़ web से सीखता है, और इंसानों के साथ interaction से नहीं सीखता
इंसान जीवनभर के context और memory के ज़रिए सीखते हैं, लेकिन AI में conversation ख़त्म होते ही वह context ग़ायब हो जाता है
अगर personalized विशाल context memory हो, तो इसकी उपयोगिता कहीं ज़्यादा होगी
मौजूदा तरीकों में आगे की training के दौरान catastrophic forgetting होता है, लेकिन Nested Learning कई छोटे models में बाँटकर retraining के समय दूसरे हिस्सों को खराब होने से बचाता है
हमारी spatial understanding ब्रह्मांड-स्तरीय quantum simulation जितनी विशाल है
इसके बरअक्स, आज हम जिसे पूरी तरह simulate कर सकते हैं वह ज़्यादातर atom या cell level तक ही सीमित है
यह पढ़ते हुए लगा कि प्रकृति से ‘आगे सोचने’ का इंसान का पहला उदाहरण शायद पहिया था
प्रकृति ऊबड़-खाबड़ है, लेकिन इंसानों ने समतल सड़कें बनाकर rolling संभव किया
विज्ञान और तकनीक की प्रगति पीढ़ियों के बीच pattern intuition के हस्तांतरण का एक और उदाहरण है
‘superintelligence’ गति के अलावा किसी और रूप में संभव है या नहीं, पता नहीं, लेकिन 3-dimensional thinking ability AI के लिए इंसान और प्रकृति से आगे जाने में ज़रूरी होगी
जैसे रक्तवाहिकाएँ पोषण और संकेत पहुँचाती हैं, वैसे ही सड़कें संसाधन ढोती हैं
शायद प्रकृति ने उसी organizing ability को species level तक बढ़ाया है, इसलिए यह कहने का आधार कमज़ोर है कि इंसान प्रकृति से ऊपर हैं
मानव cognition, spatial intelligence पर खड़ी एक संरचना है
यह सिर्फ़ abstract thought से नहीं बना, बल्कि sensation पर आधारित integrated experience है
evolution ने symbolic brain नहीं, बल्कि sensory fusion के ज़रिए generalization हासिल की
intelligence algorithm से नहीं, बल्कि इंद्रियों के बीच coherent harmony से आती है
sensory completeness ही आगे बढ़ने की सही दिशा है
मैं LLM की spatial reasoning स्थिति को समेटने वाली यह blog post फ़ॉलो कर रहा हूँ
निष्कर्ष है… अभी काफ़ी लंबा रास्ता तय करना बाकी है
Spatial token मददगार हो सकते हैं, लेकिन ज़रूरी नहीं हैं
कई physical problems आज भी कागज़ और पेन से हल किए जा सकते हैं
512×512 image को 85 tokens में, और video को 263 tokens प्रति second में represent किया जा सकता है, यह काफ़ी चौंकाने वाला है
यह memory बनाम embedding के नए संतुलन का सवाल लगता है
“क्या आप अपने दिमाग़ में एक सेब को घुमा सकते हैं?” जैसे सवाल की तरह, spatial embedding intuitive dynamics understanding को संभव बना सकती है
हमारी टीम FlyShirley में भी pilot training simulation के ज़रिए इस क्षेत्र पर काम हो रहा है, और Fei-Fei के model को आज़माने की योजना है
video-based learning और reasoning के लिए भारी compute resources चाहिए,
इसलिए यह तरीका agent assistants (coding, marketing, scheduling वगैरह) में व्यावहारिक रूप से कितना मददगार होगा, इस पर संदेह है
मुझे लगता है कि यह computing structure robotics में ज़्यादा फ़ायदेमंद साबित होगा