डीप लर्निंग अनुप्रयुक्त टोपोलॉजी है

(theahura.substack.com)

7 पॉइंट द्वारा GN⁺ 2025-05-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

डीप लर्निंग को इस तरह देखा जा सकता है कि डेटा को उच्च-आयामी manifold पर रखा जाता है, और neural network की layers के transformations उस सतह को मोड़कर या फैलाकर अलग की जा सकने वाली संरचना खोजते हैं
tanh(Wx+b) जैसी layer matrix transformation, vector shift, और nonlinear function को जोड़ने वाला एक continuous transformation है, और कई layers को जोड़ने पर जटिल datasets भी अलग रूप में बदले जा सकते हैं
कम आयामों में एक रेखा से अलग न किए जा सकने वाले वृत्ताकार डेटा को भी उच्च आयाम में ले जाने पर अलग किया जा सकता है, और neural network ऐसे representation space को सीख सकता है
embedding vectors text, image, और concepts को संख्यात्मक space में points के रूप में व्यक्त करते हैं, और अच्छी तरह बने manifold पर king - man + woman = queen जैसी concept operations संभव हो जाती हैं
मौजूदा reasoning model training को अच्छे reasoning trace चुनते हुए reasoning manifold पर आगे बढ़ने की प्रक्रिया के रूप में समझा जा सकता है, और DeepSeek R1 शैली का reinforcement learning इसे मनुष्यों द्वारा सीधे चुनने की लागत घटाने के तरीके के रूप में देखा जाता है

टोपोलॉजी के नज़रिए से neural network

टोपोलॉजी गणित की वह शाखा है जो किसी सतह को फाड़े या उसमें छेद किए बिना, उसे मोड़ने, मरोड़ने या फैलाने पर भी बने रहने वाले गुणों का अध्ययन करती है
मिट्टी की सतह पर खींचा गया एक वृत्त, घुमाने या मोड़ने पर अचानक रेखा नहीं बन जाता, दो वृत्तों में नहीं बदलता, और खुद को काटता भी नहीं है
डेटा classification problems को भी इसी तरह देखा जा सकता है
- भले ही 2D plane पर मौजूद डेटा को एक ही रेखा से साफ़-साफ़ अलग न किया जा सके, सतह को उपयुक्त रूप से बदलने पर अलग की जा सकने वाली संरचना उभर सकती है
- यह नज़रिया है कि यही space manipulation डीप लर्निंग के केंद्र में है

neural network layers सतह को बदलने वाले continuous transformations हैं

neural network को linear algebra की stack के रूप में समझाना मोटे तौर पर सही है, और matrices को ज्यामितीय सतह को बदलने वाले operations के रूप में समझा जा सकता है
Chris Olah की 2014 की पोस्ट भी deep learning manifolds को इसी तरह देखती है
tanh(Wx+b) layer तीन चरणों से बनी होती है
- W द्वारा linear transformation
- b vector द्वारा translation
- tanh के pointwise application से पैदा होने वाला nonlinear distortion
ऐसे transformations को कई layers में जोड़ने पर जटिल datasets भी अलग किए जा सकने वाले रूप में बदले जा सकते हैं
लेकिन जैसे किसी वृत्त के अंदर के बिंदु और उसके बाहर उसे घेरे हुए बिंदु, कुछ स्थितियाँ topologically एक रेखा से अलग करना कठिन बनाती हैं
- ऐसे में 2D से 3D में ले जाने पर डेटा को साफ़ तौर पर अलग किया जा सकता है
- जो separation कम आयाम में असंभव हो, वह उच्च आयाम में आसान हो सकता है

embeddings और semantic manifolds

बड़े neural networks को topology generator की तरह देखा जा सकता है
- वे input data लेकर ऐसी सतह खोजते हैं जो loss function द्वारा माँगे गए गुणों को पूरा करे
- classification task में वे सीखते हैं कि कुत्ते और बिल्लियाँ space के अलग-अलग क्षेत्रों में हों
- translation task में वे bread और pan, या बिल्ली की तस्वीर और cat जैसे items को पास-पास रखने की कोशिश करते हैं
- next-token prediction में वे ऐसी सतह सीखते हैं जहाँ tokens उनके उपयोग के आधार पर समूहित हों
डेटा उच्च-आयामी और अर्थपूर्ण रूप से जुड़े हुए manifolds पर मौजूद होता है, और manifold बनाना किसी dataset को अर्थपूर्ण ढंग से व्यक्त करने से जुड़ा है
रंग का उदाहरण दिखाता है कि ऐसी संरचना डेटा में स्वयं निहित हो सकती है
- [128, 0, 0] लाल, और [0, 0, 128] नीले को दर्शाता है
- दोनों vectors को जोड़ने पर बैंगनी बनाया जा सकता है
- रंगों की dimensionality, आपसी समानता, और रंग मिलाने का तरीका डेटा में निहित संरचना के रूप में देखा जा सकता है
images को भी manifold पर बिंदुओं की तरह देखा जा सकता है
- images को Height x Width x 3 आकार के RGB pixel values से व्यक्त किया जाता है
- इन्हें एक vector में फैलाने पर किसी निश्चित आकार की सभी images को उच्च-आयामी space के points की तरह देखा जा सकता है
- Brad Pitt के sandwich खाते हुए image region और Mona Lisa image, एक ही image space के अलग-अलग points हो सकते हैं
image space का अधिकांश हिस्सा noise होता है, और केवल pixel similarity से grouping उपयोगी नहीं होती
- deep learning models image surface को मोड़ और खींच सकते हैं ताकि रुचिकर images पास आएँ और noise दूर चला जाए
model के भीतर text और image जैसी जानकारी को embedding vectors नाम की संख्याओं की सूची के रूप में व्यक्त किया जाता है
- हर embedding किसी concept से जुड़ा होता है और साथ ही space का एक point भी होता है
- अच्छी तरह बने manifold पर king - man + woman = queen जैसे गणितीय concept operations संभव हो जाते हैं

reasoning training को manifold पर movement की तरह देखना

अगर सब कुछ manifold पर रखा हुआ माना जाए, तो reasoning को भी एक manifold समझा जा सकता है
- कल्पना की जा सकती है कि अच्छा reasoning space के एक हिस्से में और खराब reasoning दूसरे हिस्से में cluster करता है
- भले ही अच्छा और खराब को सख्त गणितीय शब्दों में परिभाषित न किया जा सके, यदि दोनों में फर्क किया जा सके तो neural network को train किया जा सकता है
Google, Anthropic, OAI, और DeepSeek जैसी प्रमुख AI कंपनियों को भी इसी दिशा में बढ़ते हुए समझा जा सकता है
AI उद्योग में यह सहमति मानी जाती है कि केवल pure language statistics से जो हासिल होना था, वह लगभग निकल चुका है
- अधिकांश LLMs को trillions of tokens पर train किया गया है
- इसे quadrillions of tokens तक बढ़ाने पर भी अतिरिक्त लाभ बहुत बड़ा न हो सकता है
- next-token prediction reasoning से मिलता-जुलता है, लेकिन अपने-आप reasoning तक पहुँचने के बजाय अगले token की भविष्यवाणी में दक्ष बनाता है
instruction tuning और RLHF को next-token prediction क्षेत्र से question-answer reasoning क्षेत्र की ओर बढ़ने के तरीकों के रूप में समझा जा सकता है
Chain of Thought, reasoning manifold के reasoning क्षेत्र की ओर अधिक स्पष्ट रूप से जाने का तरीका है
- o3 या Gemini 2.5 जैसे models में Thinking… के रूप में दिखने वाली प्रक्रिया को reasoning trace कहा जाता है
- बहुत सारे queries चलाने पर अच्छे और खराब reasoning trace में फर्क किया जा सकता है
- उदाहरण के लिए, 10 लाख queries में से 10 हज़ार बहुत अच्छे trace मिलें, तो उनका उपयोग करके ऐसा नया model train किया जा सकता है जो केवल बेहतर trace बनाए
इस प्रक्रिया को दोहराने पर पिछले model से अगले model को bootstrap किया जा सकता है
- यदि दो reasoning traces में से कौन बेहतर है, यह तय किया जा सके, तो reasoning manifold पर आगे बढ़ते रहना संभव है
- इसे इस तरह भी देखा जा सकता है कि 10 हज़ार अच्छे samples को किसी काल्पनिक अधिक उन्नत model का output मानकर मौजूदा model को distill-train किया जाए
इस approach के लिए यह कहा जाता है कि AGI तक पहुँचने के लिए यह पर्याप्त था, लेकिन यह दावा कि AGI पहले से मौजूद है, एक विवादास्पद टिप्पणी के साथ आता है
ASI के लिए इसे पर्याप्त नहीं माना जाता
- सबसे अच्छे reasoning को चुन पाने की क्षमता ही सीमा बन जाती है
- अच्छे reasoning trace इकट्ठा करना महँगा और समय-साध्य है
- बहुत से बुद्धिमान लोग पूरे दिन चुनते रहें, तब भी नतीजे subjective और noisy हो सकते हैं

DeepSeek R1, reinforcement learning, और model बनाने वाले models

DeepSeek R1 और अन्य reinforcement learning approaches इस दिशा में उभरे कि अच्छा reasoning इंसान सीधे न चुने
DeepSeek approach अच्छे reasoning के लिए quantitative heuristics बनाने पर केंद्रित है
- ऐसे unit tests या math problems बनाए जा सकते हैं जिन्हें AI को पास करना हो
- यदि code test पास कर ले या math problem सही हल कर दे, तो उस output को बनाने वाला reasoning trace, गलत output बनाने वाले trace से बेहतर माना जा सकता है
- reasoning trace का subjective analysis अलग से ज़रूरी नहीं होता
यह माना जाता है कि केवल RL के सहारे reasoning tasks के समूह में काफ़ी अच्छा करने वाला model train करने में सफलता मिली है
लेकिन केवल RL approach से ASI तक पहुँचना संभव नहीं माना जाता
- RL model भी अंततः asymptotic limits से टकराते हैं
- उसके बाद RL model द्वारा बनाए गए reasoning traces को curate करके एक बिल्कुल अलग दूसरे model को fine-tune किया जाता है
- नतीजतन, DeepSeek को RL से ज़्यादा इस रूप में देखना उचित है कि यह मनुष्यों की तुलना में कम लागत पर बहुत सारे high-quality reasoning trace बनाने का तरीका है
यह नज़रिया है कि खराब और अच्छे reasoning में फर्क करने वाला system बनाना, शुरू से अच्छा reasoning करने वाला system बनाने से आसान है
neural network स्वयं भी manifold के रूप में व्यक्त किया जा सकता है
- neural network विशेष तरीके से व्यवस्थित weights की संख्यात्मक सूची है
- सभी parameters को खोलकर vector बनाया जाए, तो उसे सतह पर एक point से map किया जा सकता है
- कुछ regions semantic segmentation, कुछ text translation, और कुछ autoencoding से मेल खा सकते हैं
- अंतिम output weights को tensor के रूप में आसानी से व्यक्त किया जा सकता है, इसलिए output पर सीधे backprop लागू किया जा सकता है
image generation की diffusion पद्धति को model generation पर भी लागू करने का प्रस्ताव दिया जाता है
- diffusion में image में चरणबद्ध रूप से noise जोड़ा जाता है, और फिर model को उस noise-adding प्रक्रिया को उल्टा करना सिखाया जाता है
- Hugging Face के कई pretrained transformer layer checkpoints में noise जोड़कर diffusion training set बनाया जा सकता है
- यदि pretrained model के description को text condition के रूप में दिया जाए, तो text description से दूसरे pretrained model को diffusion द्वारा बनाने वाले model की कल्पना की जा सकती है
- "Spanish to English" जैसे prompt देने पर, बिना अलग training के एक पूरी तरह trained model निकालने जैसी संभावना सुझाई जाती है
अभी अधिकांश models random initialization से शुरू होते हैं, लेकिन दूसरे models बनाने वाला diffusion model random initialization से बेहतर हो सकता है और training time को काफ़ी घटा सकता है
डीप लर्निंग अभी भी कुछ हद तक अनौपचारिक क्षेत्र बना हुआ है क्योंकि models क्या करते हैं और वे क्यों काम करते हैं, इसकी मजबूत working theory की कमी है; embedding space को topologically समझने से कई concepts आपस में जुड़ते हैं

1 टिप्पणियां

GN⁺ 2025-05-21

Hacker News की राय

चूंकि यह लेख मेरे 2014 के ब्लॉग पोस्ट (https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/) पर आधारित है, इसलिए एक टिप्पणी छोड़ रहा हूं
neural networks को समझने के तरीके के रूप में मैंने topology को सचमुच बहुत मेहनत से इस्तेमाल करने की कोशिश की थी, और follow-up पोस्ट भी लिखे थे: https://colah.github.io/posts/2014-10-Visualizing-MNIST/, https://colah.github.io/posts/2015-01-Visualizing-Representa...
कुछ जगहों पर topological नजरिया उपयोगी था, लेकिन neural network के अंदर क्या हो रहा है, इसे 10 साल से ज्यादा समय तक पकड़े रहने के बाद भी उससे कोई बहुत बड़ी उपलब्धि नहीं मिली
कहीं ज्यादा सफल दिशा linear representation hypothesis थी—कि “concepts/features, neural network की directions के अनुरूप होते हैं”—और उन जुड़े हुए concepts के network यानी circuits की अवधारणा थी
संबंधित लेखों में https://distill.pub/2020/circuits/zoom-in/, https://transformer-circuits.pub/2022/mech-interp-essay/inde..., https://transformer-circuits.pub/2025/attribution-graphs/bio... शामिल हैं
- neural networks को समझने के तरीकों को लेकर एक आम गलतफहमी अक्सर दिखती है: यह विचार कि LLM असल में बस थोड़ा बेहतर n-gram model हैं, और यह कि क्योंकि वे सिर्फ next token prediction करते हैं, इसलिए model को बेवकूफ होना चाहिए
  मुझे आश्चर्य है कि Karpathy के RNN लेख[2] पर प्रसिद्ध प्रतिक्रिया[1] ने भाषा neural networks को n-gram models के बराबर मानने की सोच बनाने में कुछ भूमिका निभाई थी या नहीं
  Stochastic Parrots पेपर[3] भी LLM और n-gram models को कुछ हद तक समान मानता है, कुछ इस तरह कि “मुख्य रूप से n-gram models को ध्यान में रखा गया था, लेकिन निष्कर्ष अभी भी उपयुक्त और प्रासंगिक हैं”
  ऐसा लगता है कि neural networks के सचमुच अच्छे होने से पहले एक दौर था जब दोनों ज्यादा मिलते-जुलते थे
  [1] https://nbviewer.org/gist/yoavg/d76121dfde2618422139
  [2] https://karpathy.github.io/2015/05/21/rnn-effectiveness/
  [3] https://dl.acm.org/doi/pdf/10.1145/3442188.3445922
- मैं कई वर्षों से circuits वाली दिशा को follow कर रहा हूं, और linear representation hypothesis बहुत भरोसेमंद लगती है
  Toy Models of Superposition की review draft भी मैंने अपने notes में संभाल रखी है
  हालांकि circuits मुझे कम convincing लगते हैं, क्योंकि उनका analysis खास तौर पर Transformer architecture से बहुत बंधा हुआ लगता है
  linear representation hypothesis शायद architecture पर निर्भर करती है। GAN, VAE, CLIP आदि manifolds को explicitly model करते हुए दिखते हैं
  सरल models भी optimization pressure की वजह से पर्याप्त रूप से मिलती-जुलती features को उसी linear direction में मोड़कर डाल देंगे
  simple model द्वारा similar features को orthogonal directions में रखने के empirical evidence और manifold hypothesis को साथ मिलाना मुश्किल है, लेकिन अंततः यह optimized loss function से ज्यादा जुड़ा हुआ लगता है
  Toy Models of Superposition में MSE इस्तेमाल किया जाता है, जिससे model असल में autoencoder regression/compression task सीखता है, इसलिए साथ दिखाई देने वाली features के बीच interference pattern का महत्वपूर्ण होना स्वाभाविक है
  इसके विपरीत, contrastive loss जैसे दूसरे objectives में वही interference minimization behavior दिखाई नहीं देगा, ऐसा लगता है
- 2011 में topology पहली बार पढ़ने के बाद मैंने real-world समस्याओं पर topology को “apply” करने की कई कोशिशें कीं, और मेरा अनुभव भी मिलता-जुलता था
  अब तो मैं “real-world data smooth, low-dimensional manifold के करीब होता है” जैसे आम वाक्यांश से भी हिचकता हूं
  मैं ठीक से जांचना चाहता हूं कि यह कथन वास्तविक data पर कितनी हद तक सही है, और natural datasets को efficiently संभालने के लिए इस्तेमाल होने वाली dimensionality reduction methods के कारण यह कितना distort होता है, लेकिन समय कम है
- physics में यह बात दिलचस्प है कि अलग-अलग global symmetries या topological manifolds समान metric structure, यानी local geometry, को satisfy कर सकते हैं
  उदाहरण के लिए, Einstein field equations का वही metric tensor solution topologically अलग manifolds पर मौजूद हो सकता है
  इसके उलट, Ising Model के solutions देखें तो वही lattice topology कई अलग-अलग solutions रख सकती है, और अगर system critical point के आसपास हो तो lattice topology खुद महत्वपूर्ण नहीं भी होती
  यह केवल एक analogy है, लेकिन यह संकेत देती है कि dynamics की दिलचस्प details system की topology में embedded नहीं होतीं। समस्या इससे ज्यादा जटिल है
- पुराने लेख पर कुछ छोटी HN चर्चाएं हुई थीं
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=19132702 - फरवरी 2019, 25 comments
  Neural Networks, Manifolds, and Topology (2014) - https://news.ycombinator.com/item?id=9814114 - जुलाई 2015, 7 comments
  Neural Networks, Manifolds, and Topology - https://news.ycombinator.com/item?id=7557964 - अप्रैल 2014, 29 comments
अगर यह सचमुच topology होती, तो similarity search के लिए manifold को मोड़ने की ज़रूरत नहीं पड़ती। यह metric वाली geometry के ज़्यादा करीब है
असल दुनिया की तरह ही, हमें चीज़ों की तुलना कर पाना ज़रूरी है
training के दौरान भी manifold के topological transformations होते हैं, इसलिए जिज्ञासा है कि training के दौरान topology कैसे evolve होती है
लगता है शुरुआत में यह बहुत तेज़ी से बदलती होगी, फिर stabilize होती होगी, और उसके बाद geometric fine-tuning चलता होगा
संबंधित papers में Topology and geometry of data manifold in deep learning(https://arxiv.org/abs/2204.08624), Topology of Deep Neural Networks(https://jmlr.org/papers/v21/20-345.html), Persistent Topological Features in Large Language Models(https://arxiv.org/abs/2410.11042), Deep learning as Ricci flow(https://www.nature.com/articles/s41598-024-74045-9) शामिल हैं
- अगर आपने GAN या VAE के साथ काम किया है, तो इस सवाल का सचमुच जवाब दिया जा सकता है। जवाब मोटे तौर पर “हाँ” के करीब है
  training के दौरान अलग-अलग checkpoints पर GAN को देखकर, high-dimensional space के अलग-अलग points कैसे move करते हैं, यह UMAP या t-SNE जैसे tools से देखा जा सकता है
  यह भी सही है कि शुरुआत की तेज़ changes के बाद stabilization और geometric fine-tuning होती है, लेकिन शुरुआती changes पर learning rate और optimizer selection का भी असर पड़ता है
- अगर ज़ोर देकर कहना हो, तो मुझे यह applied linear algebra के ज़्यादा करीब लगता है। बस ऐसा कहने पर यह उतना exotic नहीं सुनाई देता
लेख अपने आप में अच्छा था, लेकिन दो point sets के बीच बाँटने वाली separating surface खोजने के idea को “topology” क्यों कहा जा रहा है, यह समझ नहीं आया
इसमें कुछ ऐसा वाक्य आता है कि “English-Spanish translation या image-text transformation सीखने पर, bread को pan के करीब और बिल्ली की तस्वीर को cat शब्द के करीब वाली topology सीखता है”, लेकिन यह उन चीज़ों के ज़्यादा करीब है जिन्हें topology deal नहीं करती
points “करीब” या “दूर” हैं—यह concept topology नहीं, बल्कि metric के क्षेत्र में आता है
किसी topological space में अगर दो points करीब हों, तो space को stretch करके वही topological space बनाए रखते हुए भी उन दो points को दूर किया जा सकता है
coffee cup और donut एक जैसे हैं वाली मज़ाक की असली बात यही है
कुल मिलाकर यह points को पास-पास रखने वाली किसी algebraic variety जैसी चीज़ खोजने जैसा दिखता है, यानी algebraic geometry का real-world application। आखिरकार यह geometry और points के बीच distance की समस्या लगती है
- “यह topology के दायरे की चीज़ नहीं है” कहना 100% सही है
  हालांकि लेख topology और deep learning दोनों पर है, इसलिए बस उम्मीद है कि स्पष्ट भ्रम इन दोनों में से एक, यानी topology तक ही सीमित रहे
- उस वाक्य में “topology” को थोड़ा ज़्यादा बोलचाल के अर्थ में इस्तेमाल किया गया था। सही में “surface” कहना चाहिए था
- loose definition में देखें तो topology सचमुच उन spaces का अध्ययन मानी जा सकती है जिनमें किसी तरह की करीबी और दूरी की अवधारणा होती है। metric न हो तब भी ऐसा है
  point-set topology में neighborhood का central concept किसी point के पास होने के idea को capture करता है, और continuity या sequence convergence जैसी चीज़ों को define करने देता है जिन्हें closeness की अवधारणा चाहिए
  Wikipedia [0] भी बताता है कि open sets के concept के ज़रिए “पास”, “मनमाने रूप से छोटा”, और “दूर-दूर” को precise बनाया जा सकता है
  open sets की definition बदलें तो continuous functions, compact sets और connected sets भी बदल जाते हैं, और open sets की definition के हर ऐसे choice को topology कहा जाता है
  metric space topological spaces की एक अहम class है, जिसमें point pairs के बीच non-negative real-valued distance, यानी metric, define किया जा सकता है
  इसका मतलब यह नहीं कि topology neural networks को समझने का सबसे अच्छा lens है, और लेखक ने भी comments में कहा था कि उनका विचार बदल गया। यहाँ बस गलतफहमी सुधारना चाहता था
  [0] https://en.wikipedia.org/wiki/General_topology
title जैसा अभी है, वैसा banal और गलत है, और लेख अपने आप में पढ़ने में अच्छा था
topology geometry से distance, angle, direction, और बिना फाड़े की जाने वाली हर तरह की stretching हटाने के बाद बची हुई बहुत छोटी structure है
ऐसे कठोर deformations के बाद भी जो minimum चीज़ valid बचती है, वही है
machine learning में topological concepts उपयोगी हैं, यह सही है, लेकिन scale, distance, angle जैसी चीज़ें आम तौर पर data के बारे में बहुत ज़रूरी information देती हैं
अगर tabby cat और tiger में फर्क करना हो और size को ignore कर दें, तो यह बेवकूफी होगी
topology खासकर तब उपयोगी होती है जब length, distance, angle या arbitrary deformation पर भरोसा नहीं किया जा सकता
ऐसे cases होते हैं, लेकिन deep learning को applied topology कहना बेतुका और लगभग मूर्खतापूर्ण है
- input data unreliable manifold पर होता है। pixel space में Coca-Cola can की image और stop sign की image का करीब होना अपने आप में कोई prior meaning नहीं रखता
  neural network ठीक वही कठोर transformations लागू करता है
- details में जाएँ तो pure topology में जो चीज़ें मायने नहीं रखतीं, उनमें से बहुत-सी यहाँ अहम हो जाती हैं। layer count से लेकर quantization/fp resolution तक असर डालते हैं
- “topology” शब्द की एक legitimate dictionary definition भी है जिसमें आपके बताए conditions बिल्कुल नहीं हैं। लगता है आप यह बात चूक गए कि इसकी दो definitions हैं
share करने के लिए धन्यवाद, और मैं भी learning को manifold के नज़रिए से देखने की तरफ झुकता हूँ। यह एक powerful representation है
“काफी high-dimensional space में यह reasoning से अलग पहचान में नहीं आता” वाले हिस्से पर मैंने काफी diary लिखी है और HN पर भी “probabilistic reasoning manifold” नाम से एक post लिखा था
यह manifold दिए गए input set से decontextualized pattern space सीखकर बनता है
sampling की inherent stochasticity की वजह से असली reasoning axioms नहीं, बल्कि probabilities के रूप में व्यक्त होती है
manifold पर fixed points या attractors खोजकर axioms खोजे जा सकते हैं, लेकिन अंततः हम input set से बना हुआ probabilistic manifold ही देख रहे होते हैं
हालांकि मुझे नहीं लगता कि इस “reasoning” को input data से अलग किया जा सकता है
पर्याप्त रूप से advanced reasoning manifold में हर जगह मिलने वाली “meta reasoning” जैसी structures मिल सकती हैं, लेकिन ऐसी highly decontextualized structures उचित recontextualization के बिना पूरी तरह बेकार हो सकती हैं
आखिरकार, किसी प्रकार के input को process करने में उपयोगी manifold बनने के लिए, उस input के patterns को किसी learnable underlying rule का पालन करना होगा

अगर decontextualization ही सीखना है—यानी input के पहलुओं को context-स्वतंत्र संबंधों में तोड़ना—तो recontextualization उसका दूसरा आधा है: बहुत अमूर्त और कभी-कभी व्यक्त न किए जा सकने वाले context-स्वतंत्र संबंधों को किसी नए क्षेत्र में उपयोगी analysis में बदलने की क्षमता
पूरी comment: https://news.ycombinator.com/item?id=42871894

मैं सोच रहा हूँ कि क्या बात सामान्य inference की हो रही है, यानी propositions के representation पर काम करने वाली मानसिक प्रक्रिया के रूप में inference की
अगर ऐसा है, तो “असली inference axioms से नहीं, probabilities से व्यक्त होता है” वाली बात समझना मुश्किल है
inference की एक विशेषता यह है कि वह उस तरह काम नहीं करता
इसकी संभावना बहुत कम है कि जानवरों में अपने द्वारा represent किए गए propositions पर non-probabilistic तरीके से काम करने की क्षमता बिल्कुल न हो। यह सही inference के लिए जरूरी है, और इसे उपलब्ध कराना भी अपेक्षाकृत मामूली क्षमता है
उदाहरण के लिए, “अगर मकड़ी boxA के अंदर है, तो वह बाकी हर जगह नहीं है” जैसी बात
डेटा असल में manifold पर नहीं होता। यह डेटा के बारे में सोचने का सिर्फ एक approximation है
deep learning में जो लगभग सब कुछ उपयोगी रहा है, शायद 100% भी, वह topology के बारे में बिल्कुल सोचे बिना आया
deep learning किसी चीज़ का applied रूप होने से ज्यादा, ज़्यादातर trial-and-error और experiments से विकसित हुआ एक empirical field है
theory से आई थोड़ी intuition जरूर थी, लेकिन वह theory topology नहीं थी
- मैं इससे बिल्कुल सहमत नहीं हूँ। trial-and-error बहुत है, यह सही है, लेकिन deep learning topology, geometry, game theory, calculus, statistics आदि समेत कई गणितीय क्षेत्रों की theories के मिश्रण के ज्यादा करीब है
  सबसे बुनियादी backpropagation भी weights पर chain rule लागू करना ही है
  फर्क यह है कि deep learning इतना accessible हो गया, और ठीक-ठीक कहें तो profitable field बन गया, कि कई practitioners formalism की origins सीखे बिना ही विषय सीख सकते हैं
  आखिरकार वे दूसरे क्षेत्रों में बहुत पहले से मौजूद theories और techniques को उनकी origins जाने बिना इस्तेमाल करते हैं या “reinvent” कर देते हैं
- theory से आई “intuition” मुझे बाद की लगती है। deep learning कोई method बना देता है, उसके बाद ही दूसरे scientific fields के researchers deep learning approach और अपने पुराने methods के बीच समानताएँ पहचानते हैं
  उदाहरण के लिए, एक लेख है जिसमें पता चला कि GPT असल में वही computational problem है जिसे लेखक physics में पहले ही हल कर चुका था: https://ondrejcertik.com/blog/2023/03/fastgpt-faster-than-py...
- deep learning में 10 साल से ज्यादा काम करने के नाते, यह बात काफी गलत लगती है। डेटा manifold पर रहता है, यह self-evident है, और deep learning applications पर भी लागू होता है
  उदाहरण के लिए मेरे लेख में link किया गया Chris Olah का 2014 का blog है: https://colah.github.io/posts/2014-03-NN-Manifolds-Topology/
  embedding space को “space” कहने की वजह है
  GAN, VAE, contrastive loss—all ऐसे vector manifolds बनाने की समस्या हैं जिनमें घूमकर अलग-अलग तरह का डेटा बनाया जा सके
- यह alchemy है
  deep learning अपने मौजूदा रूप में hypothetical underlying theory से वैसा ही संबंध रखता है जैसा alchemy का chemistry से था
  कुछ सौ साल बाद, हमारे बाद की सभ्यता के Inuktitut-भाषी high school students सीखेंगे कि “deep learning” नाम का अजीब शब्द किसी पुरानी lingua franca का अवशेष था
- अगर definition को approximation error की अनुमति देने जितना ढीला कर दें, तो डेटा को manifold पर माना जा सकता है। उदाहरण के लिए Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf) देखा जा सकता है
“इतना AGI तक पहुँचने के लिए काफी था” वाला वाक्य पढ़ते ही credibility तेजी से गिर गई
कुल मिलाकर ideas ठीक हैं, लेकिन लेख काफी vague है, खासकर reasoning से जोड़ने वाला हिस्सा
इस क्षेत्र में https://arxiv.org/abs/1402.1869 जैसा गंभीर technical work है, जिसने इस idea को expand किया है और अधिक concrete बनाया है
deep neural networks में मिलने वाली एक और topology network topology है। इसका मतलब network structure है—यानी nodes कैसे जुड़े हैं और data कैसे flow करता है
autoencoders, convolutional neural networks(CNN), generative adversarial networks(GAN) जैसे biology-inspired जाने-माने उदाहरण पहले से हैं
लेकिन brain की topology और functional connectivity के बारे में अभी बहुत कुछ सीखना बाकी है
आगे individual layers/nodes की internal structure और specialized networks के आपस में जुड़ने व interact करने के तरीकों, दोनों में नई structures खोजे जाने की संभावना बड़ी है
brain किसी single network पर निर्भर नहीं करता; वह समानांतर में कई networks चलाता है, जिन्हें अक्सर “Big 7” कहा जाता है, और उन्हें गहराई से interconnect करता है
Default Mode Network(DMN), Central Executive Network(CEN), Limbic Network आदि इसमें शामिल हैं
असल में, एक ही neuron कई networks का हिस्सा होकर अलग-अलग functions कर सकता है
artificial systems में हमने अभी इस complexity को पर्याप्त रूप से replicate नहीं किया है, और ऐसी “network topology” से सीखने और inspiration लेने के लिए अभी बहुत कुछ है
इसलिए “Topology is all you need” :-)
“जब तक आप अच्छे और बुरे में फर्क कर सकते हैं, neural network को train करके उससे topology खुद व्यवस्थित करवाई जा सकती है” वाली premise समस्या है
करीब 10 साल पहले मैंने एक project देखा था जिसमें face photos से biological sex guess करने के लिए network train किया जा रहा था
bias कम करने के लिए makeup, moustache, hair आदि को सावधानी से remove किया गया था, लेकिन accuracy करीब 70~80% थी
उस समय यह बेहतरीन result जैसा लगा और वे 99% target कर रहे थे
paper पढ़ने के बाद मैंने सबसे पहले ऐसे papers खोजे जिनमें इंसान मिलती-जुलती photos से biological sex पहचानते हों
इंसान भी उससे बहुत बेहतर नहीं थे, और human व machine के बीच फर्क करीब 1~2% था
project चलाने वालों से मैंने पूछा कि उन्होंने कैसे साबित किया कि सिर्फ photo से ऐसा distinction करना संभव है, लेकिन वे सवाल ही नहीं समझ पाए और बस मानकर चल रहे थे कि यह संभव है
आखिरकार वे results improve नहीं कर पाए। हो सकता है उन्होंने neural network को ठीक से train नहीं किया हो, लेकिन sex markers हटाने पर कई faces बस androgynous हो सकते हैं
यह किस्सा मैंने इसलिए दिया क्योंकि उनकी assumption मेरी नजर में काफी reasonable लगती थी

ज़्यादातर स्थितियों में चेहरा देखकर अंदाज़ा लगाया जा सकता है कि किसी की पैंट के अंदर क्या है, इसलिए माना गया कि चेहरे में वह जानकारी होगी
लेकिन जब पाठ्यपुस्तकें हर साल फिर से लिखी जाती हैं, “ज्ञान की half-life” की गणना करने की कोशिश होती है, दर्शनशास्त्र जैसा विषय भी खत्म नहीं हुआ है, और रोज़ाना इस पर राजनीतिक-वैचारिक बहस चलती रहती है कि सबसे अच्छा क्या है, तब यह मान लेना कि हम अच्छे और बुरे को किसी तरह अलग कर सकते हैं, बेहद, बेहद अतार्किक है

आखिरकार “अच्छे” और “बुरे” के बीच ऐसी कोई रेखा मौजूद है, यह मान लेना भी तर्कसंगत नहीं है
वह diagram भ्रमित करता है जो दावा करता है कि AGI/ASI next token prediction, chat model, CoT model जैसी manifold पर मौजूद points हैं
पीछे वाली तीन चीज़ें एक ही manifold का हिस्सा हैं, यह शायद साबित किया जा सकता है, लेकिन AGI/ASI को भी वहीं रखने का आधार क्या है, समझ नहीं आता
क्या ऐसा नहीं हो सकता कि CoT कर सकने वाले models, चाहे जितनी भी topological manipulation की जाए, उस प्रक्रिया तक कभी न पहुँचें जिसे AGI माना जा सके
उदाहरण के लिए, हमारे हिसाब से AGI के सबसे करीब मानव बुद्धि है, जिसे autoregressive model की discrete processing के उलट बेहद जटिल sensory और internal feedback loops तथा continuous processing की ज़रूरत होती है
एक गैर-विशेषज्ञ की सहज समझ से, LLMs उन systems की श्रेणी में बिल्कुल नहीं लगते जो intelligence या consciousness पैदा कर सकते हैं
- संभव है। AGI/ASI की परिभाषा कमजोर है। निजी तौर पर मैं मानता हूँ कि हम पहले ही AGI तक पहुँच चुके हैं, हालांकि बहुत से लोग सहमत नहीं होंगे
  यह कहना कि मानव बुद्धि को जटिल sensory/internal feedback loops और continuous processing की ज़रूरत होती है, मेरे हिसाब से neural networks और biological networks के असल में काफी मिलते-जुलते तरीकों को ओझल कर देता है
  मैंने connectomics research काफी की है; उदाहरण के लिए, चूहे के olfactory system में किन neurons की firing होती है, इसके आधार पर एक तरह का feature vector जैसा कुछ उभरता है
  अगर neurons का कोई खास समूह fire करे तो उसका अर्थ “chocolate” या “lemon” जैसा होता है
  और सामान्य तौर पर neuronal representations, embedding representations से कुछ हद तक मिलती-जुलती लगती हैं, और यह कल्पना भी की जा सकती है कि कहाँ कौन-से neurons fire करते हैं, उसके आधार पर embedding space बनाया जाए
  embeddings के ऊपर की हर चीज़ “सिर्फ” processing ही है