- Deep Learning को टोपोलॉजिकल transformations की एक श्रृंखला के रूप में समझा जा सकता है, जो डेटा को अर्थपूर्ण तरीकों से बदलती है
- Neural network उच्च-आयामी space में डेटा को transform करके ऐसे topology generator की तरह काम करता है, जो मूल रूप से अलग न किए जा सकने वाले डेटा को अलग करने योग्य बना देता है
- डेटा उच्च-आयामी manifold पर मौजूद होता है, और अर्थपूर्ण classification, translation, inference tasks के लिए neural network उस manifold की संरचना को सीखता है
- नवीनतम AI research में inference manifold पर बेहतर बिंदुओं की ओर बढ़ने के लिए कई तरह की supervised learning और reinforcement learning (जैसे RLHF) तकनीकें लाई गई हैं
- Neural network स्वयं, image, text, inference logic जैसी सभी प्रकार की जानकारी को manifold के रूप में व्यक्त किया जा सकता है, और neural network एक सार्वभौमिक topology discoverer की तरह काम करता है
Deep Learning और टोपोलॉजी का संबंध
- टोपोलॉजी गणित की वह शाखा है जो वस्तुओं के रूपांतरण की प्रक्रिया में अपरिवर्तित रहने वाले गुणों का अध्ययन करती है
- Deep learning neural network input data पर कई आयामों में linear और nonlinear transformations (e.g. matrix multiplication, tanh) को बार-बार लागू करके धीरे-धीरे डेटा के distribution और structure को बदलते हैं
- Neural network की हर layer का operation एक geometric transformation के रूप में समझा जा सकता है, और जैसे-जैसे ये transformations जमा होते जाते हैं, जटिल डेटा संरचनाओं को अलग और classify करना संभव हो जाता है
- यही विशेषता विभिन्न datasets में उन जटिल classes को भी अलग पहचानने योग्य बनाती है, जिन्हें मूल रूप से एकल रेखा या समतल से अलग नहीं किया जा सकता था
आयाम विस्तार और डेटा पृथक्करण
- दो-आयामी समतल पर एक-दूसरे पर चढ़े हुए और अलग न किए जा सकने वाले डेटा को भी उच्च आयामों में ले जाने पर आसानी से अलग किया जा सकता है
- Neural network, मनुष्यों के विपरीत, मनचाहे ऊँचे आयामों में computation कर सकते हैं, इसलिए वे बहुत जटिल डेटा patterns को भी संभाल सकते हैं
- उदाहरण के लिए, तस्वीरों में कुत्ता और बिल्ली जैसी classification समस्या को भी उच्च-आयामी ऐसी संरचना (manifold) में पुनर्गठित किया जा सकता है, जिसे गणितीय रूप से अलग किया जा सके
Deep neural network का अर्थ और भूमिका
- Neural network एक "टोपोलॉजी बनाने वाला उपकरण" है, जो input data को अर्थपूर्ण संरचना में पुनर्व्यवस्थित करता है
- Loss function यह परिभाषित करता है कि डेटा के कौन-से गुण सीखे जाएँ, और classification, translation, prediction जैसे अलग-अलग कार्यों के अनुरूप उपयुक्त surface (topology) बनाने देता है
- सभी अर्थपूर्ण डेटा (text, image, sound आदि) को उच्च-आयामी numerical vectors (embedding vectors) के रूप में संग्रहीत किया जाता है, जिससे इस space के भीतर लचीले गणितीय operations संभव होते हैं
Manifold और अर्थ का निरूपण
- रंग, image, शब्द, यहाँ तक कि furniture classification जैसी सभी जानकारी और अवधारणाएँ किसी विशिष्ट उच्च-आयामी manifold नामक space पर मौजूद होती हैं
- उदाहरण के लिए, RGB image के सभी pixel values को एक विशाल vector के रूप में व्यक्त किया जा सकता है, जिससे image manifold पर अर्थपूर्ण transformations और similarity का विश्लेषण संभव होता है
- Embedding operations के माध्यम से अर्थ की दृष्टि से संबंधित concepts (जैसे "king" - "man" + "woman" = "queen") को एक-दूसरे के पास रखा जा सकता है
Neural network, inference, और learning strategies का manifold-आधारित दृष्टिकोण
- मानव inference को भी उच्च-आयामी manifold पर clusters के रूप में मॉडल किया जा सकता है, और neural network इनके साथ चलते हुए क्रमशः बेहतर inference की ओर बढ़ते हैं
- आज के large language models (LLM) की सीमा यह है कि केवल language statistics (next-token prediction) के आधार पर मानव-स्तरीय inference तक पहुँचना संभव नहीं है
- इसे पार करने के लिए supervised learning, RLHF, Chain-of-Thought, और उच्च-गुणवत्ता वाले reasoning traces के संग्रह जैसे कई reinforcement learning-आधारित approaches का उपयोग किया जा रहा है
- हाल के robust reasoning models के लिए Deepseek R1 जैसे papers में वस्तुनिष्ठ मानदंडों (जैसे unit tests, गणित प्रश्नों के सही उत्तर) के आधार पर 'अच्छे inference' को स्वचालित रूप से चुनने की कोशिश की गई है, ताकि मानव मूल्यांकन की सीमाओं और लागत की समस्या को पार किया जा सके
Neural network और model स्वयं की manifold संरचना का उपयोग
- Neural network के सभी parameters (weights) को भी एक विशाल vector के रूप में व्यक्त किया जा सकता है, और इन्हें अलग-अलग semantic spaces पर मौजूद manifold के रूप में समझा जा सकता है
- Image generation के लिए diffusion model की अवधारणा को neural network parameter space तक बढ़ाकर, मौजूदा pretrained models की विभिन्न विशेषताओं का कुशल पुन:उपयोग किया जा सकता है, या तेज initialization और नए models के निर्माण को संभव बनाया जा सकता है
- Model embedding space को explore करने वाली तकनीकों में प्रगति भविष्य में और तेज़ तथा अधिक प्रभावी AI development को संभव बना सकती है
निष्कर्ष और निहितार्थ
- Deep learning का क्षेत्र अब भी काफी अनौपचारिक और intuition-आधारित है, लेकिन टोपोलॉजिकल सोच जटिल models के काम करने के सिद्धांत को समझने में बहुत मदद करती है
- Embedding spaces और manifold structures की समझ जितनी व्यापक होगी, उतना ही अधिक व्यावहारिक और व्यवस्थित AI development और analysis संभव होगा
1 टिप्पणियां
Hacker News की राय
2014 की मेरी ब्लॉग पोस्ट पर आधारित इस लेख के बारे में, मैंने neural network को समझने के साधन के रूप में topology का बहुत गंभीरता से उपयोग करने की कोशिश की थी। उसके नतीजे मैंने नीचे दिए गए दो follow-up लेखों में साझा किए थे
neural network के अंदरूनी हिस्से को समझने की प्रक्रिया में कुछ जगह topological दृष्टिकोण उपयोगी लगा, लेकिन लगभग 10 साल की खोजबीन के बाद मुझे लगा कि topological approach ने बहुत बड़ी मदद नहीं की
जो चीज़ें ज़्यादा असरदार रहीं, वे ये थीं
संबंधित पढ़ाई के लिए मैं नीचे के लेख recommend करता हूँ
neural network को समझने के तरीकों के संदर्भ में, मैं अक्सर नीचे दिए गए भ्रमों के बारे में सोचता हूँ
Karpathy की RNN post पर लोकप्रिय प्रतिक्रियाओं में, या 'stochastic parrot' पेपर में, अक्सर LLM और n-gram model को लगभग एक जैसा मानने का संकेत दिखता है। पहले के समय में दोनों approaches कुछ अधिक मिलती-जुलती लग सकती थीं, लेकिन हाल के models के बहुत आगे बढ़ जाने के बाद यह समानता अब ठीक से नहीं बैठती
मैं अपने उस अनुभव को याद कर रहा हूँ जिसमें मैंने वास्तविक स्थितियों में topology लागू करने की कोशिश की थी। 2011 में topology पहली बार सीखने के बाद से अब तक बीच-बीच में इसे आज़माया है, लेकिन "वास्तविक data smooth और low-dimensional manifolds के क़रीब आता है" — इस आम दावे को लेकर मैं संशय में हूँ। मैं यह और गहराई से देखना चाहता हूँ कि क्या वास्तविक data में सचमुच यह गुण होता है, या फिर हम efficiency के लिए dimensionality reduction methods का उपयोग करके जानबूझकर इसे विकृत कर देते हैं; अफ़सोस, मेरे पास समय नहीं है
तुम्हें लंबे समय से 'circuits' पर लिखते देखना मुझे दिलचस्प लगा है। linear representation hypothesis मुझे ख़ास तौर पर काफ़ी persuasive लगी, इसलिए मैंने Toy Models of Superposition पर एक शुरुआती review draft भी लिखा था। लेकिन 'circuits' analysis मुझे Transformer architecture पर बहुत ज़्यादा केंद्रित लगती है, इसलिए वह कुछ कम आकर्षक लगी।
GAN, VAE, CLIP जैसे models तो मानो साफ़ तौर पर manifolds को model कर रहे हों। साधारण models भी optimization के दौरान मिलते-जुलते features को एक ही direction में समेट सकते हैं, लेकिन कभी-कभी empirically ऐसा भी दिखता है कि समान features orthogonal directions में स्थित हो जाते हैं। शायद इसका संबंध optimize किए जा रहे loss function से ज़्यादा है
Toy Models of Superposition में MSE उपयोग होता है, इसलिए वह autoencoder regression/compression task जैसा व्यवहार करता है। साथ-साथ आने वाले features के बीच interference pattern महत्वपूर्ण हो जाते हैं। लेकिन अगर objective contrastive loss हो, तो मुझे लगता है यह interference-minimizing behavior अलग होगा
मैं अपनी पुरानी पोस्ट पर हुई Hacker News चर्चाएँ भी साझा करना चाहता हूँ
Neural Networks, Manifolds, and Topology (2014)
physics में यह बात दिलचस्प है कि अलग-अलग global symmetries के साथ भी (topological manifolds) एक जैसी metric structure (local geometry) संभव हो सकती है। उदाहरण के लिए, Einstein field equations में एक ही metric tensor solution topologically अलग manifolds पर भी मौजूद हो सकता है।
उल्टा, Ising Model के solutions को देखें तो एक ही lattice topological structure पर कई solutions हो सकते हैं, और critical point के पास lattice topology शायद उतनी महत्वपूर्ण भी न रहे।
यह बस एक साधारण analogy है, लेकिन यह संकेत देती है कि dynamics की अहम बारीकियाँ किसी system की topology में नहीं बसी होतीं। कहानी इससे कहीं ज़्यादा जटिल है
अगर topology सचमुच मुख्य चीज़ होती, तो हम manifolds को flatten करके similarity search आसान बनाने की कोशिश नहीं करते। असल में केंद्र में 'geometry' और उसके अनुरूप measure है। वास्तविक जीवन में भी हम ऐसी संरचना चाहते हैं जिसमें चीज़ों की तुलना की जा सके
neural network training के दौरान भी manifolds topologically deform होते हैं। इससे यह सवाल उठता है: "training के दौरान topology कैसे बदलती है?" निजी तौर पर मैं कल्पना करता हूँ कि शुरुआत में topology बहुत उथल-पुथल से गुज़रती है, फिर धीरे-धीरे स्थिर होती है, और उसके बाद geometric fine-tuning चलती है। संदर्भ के लिए ये papers देखे जा सकते हैं
अगर आपने GAN या VAE का इस्तेमाल किया है, तो topology में होने वाला यह बदलाव वास्तव में देखा जा सकता है। training के दौरान अलग-अलग checkpoints पर UMAP, TSNE जैसे tools से देखा जा सकता है कि high-dimensional space में points कैसे move करते हैं
जो प्रक्रिया तुमने कल्पना की — "शुरुआत में उग्र बदलाव, फिर stabilization, और फिर geometric fine-tuning" — वह वास्तव में सही बैठती है। इस शुरुआती उग्र बदलाव पर learning rate, optimizer के चुनाव जैसी चीज़ों का भी बड़ा असर होता है
सख्ती से देखें तो यहाँ जिस चीज़ की बात हो रही है, उसे applied linear algebra कहना ज़्यादा सही होगा, लेकिन ऐसा कहने से बात कुछ कम रोचक लगती है
अभी का शीर्षक घिसा-पिटा और ग़लत है। फिर भी सामग्री पढ़ने में दिलचस्प लगी
topology वह गणित है जो distance, angle, direction जैसी geometric पाबंदियाँ हटा देने पर बचने वाली न्यूनतम संरचना का अध्ययन करती है। यानी इतने तीव्र deformation के बाद भी जो मूल संबंध बने रहते हैं, उन्हीं को देखने का नज़रिया topological होता है
machine learning में topological concepts उपयोगी हो सकते हैं, लेकिन व्यवहार में scale, distance, angle जैसी geometric जानकारी data की प्रकृति के लिए कहीं अधिक अहम होती है। उदाहरण के लिए, अगर कोई tabby cat और tiger में फ़र्क करने में scale को नज़रअंदाज़ करे, तो नतीजा हास्यास्पद होगा
topological approach तब उपयोगी होती है जब अविश्वसनीय जानकारी बहुत ज़्यादा हो; यह कहना कि deep learning topology पर आधारित है, अतिशयोक्ति है
जैसा तुमने कहा, topology तब उपयोगी होती है जब distance, angle, length जैसी चीज़ों पर भरोसा न किया जा सके — लेकिन वास्तव में हम ऐसे ही data से डील करते हैं। image pixel space में cola can और stop sign का कुछ हद तक पास होना अर्थहीन है। neural network वास्तव में वही 'violent deformations' करते हैं जिनकी तुम बात कर रहे हो
implementation के स्तर पर आते ही वे बारीक चीज़ें बहुत अहम हो जाती हैं जिनकी चिंता शायद 'अगर यह सच में topology होती' तो करनी ही नहीं पड़ती — जैसे layers की संख्या, quantization, floating-point resolution आदि
'topology' शब्द की शब्दकोशीय रूप से दो परिभाषाएँ मौजूद हैं। जिन गुणों को तुमने आधार मान लिया, topology को सिर्फ़ उन्हीं तक सीमित करना कुछ परिभाषाओं तक ही सीमित दृष्टिकोण है
मुझे समझ नहीं आता कि इस लेख में separating surfaces खोजने के विचार को 'topology' क्यों कहा जा रहा है।
उदाहरण के लिए, "अगर translation सीखी जाए तो model bread और pan, cat की तस्वीर और cat शब्द को पास-पास रखने वाली topology सीखता है" जैसी व्याख्या दी गई है, लेकिन 'पास' और 'दूर' की यही भाषा तो topology से काफ़ी दूर है
topological space में दो बिंदु पास हों, तब भी उस space को खींचकर उसी 'same topology' के भीतर उन दोनों को काफ़ी दूर किया जा सकता है ("coffee mug और donut की topology एक जैसी है" वाले मज़ाक का यही सार है)
वास्तव में algebraic geometry वाला दृष्टिकोण — यानी points किसी algebraic variety के आसपास स्थित हों — यहाँ ज़्यादा उपयुक्त लगता है। आख़िर में महत्वपूर्ण चीज़ geometry और distance ही हैं
अगर topology की ढीली परिभाषा लेनी हो, तो मैं कहूँगा कि 'distance' के बिना भी 'पास और दूर' की अवधारणा (neighborhood) को संभालने वाले mathematical spaces का अध्ययन topology है। open sets की अलग-अलग परिभाषाएँ चुनना ही topology चुनना है, और उसी से continuity, compactness, connectedness जैसे गुण तय होते हैं।
metric spaces, topological spaces का एक उदाहरण हैं।
लेकिन इससे यह नहीं निकलता कि neural network को समझने के लिए topology हमेशा सबसे अच्छा दृष्टिकोण है। मूल लेखक भी अब अलग राय रखता है
मैं बस यह ग़लतफ़हमी दूर करना चाहता था। https://en.wikipedia.org/wiki/General_topology देखें
मैं 100% सहमत हूँ कि यह topology से कोई ख़ास संबंध नहीं रखता। अगर कोई लेख topology और deep learning दोनों पर है, तो उम्मीद है कि भ्रम कम-से-कम topology वाले हिस्से तक ही सीमित रहे
मैंने अभी 'topology' शब्द थोड़ा idiomatic तरीके से इस्तेमाल किया था। अधिक सटीक शब्द 'surface' होना चाहिए था
मुझे लगता है कि learning को manifold दृष्टिकोण से देखना एक शक्तिशाली अभिव्यक्ति है
high-dimensional spaces में reasoning खुद लगभग अलग चीज़ लगती ही नहीं
मैं ऐसी 'probabilistic reasoning manifolds' पर diary entries और news comments में बहुत लिख चुका हूँ।
patterns के space से बने manifolds मूलतः probabilistic learning से बनते हैं, और वास्तविक reasoning propositions के बजाय probabilities के आधार पर होती है। fixed points या attractors ढूँढ़कर कुछ 'axioms' निकाले जा सकते हैं, लेकिन अंततः हम input data से बने probabilistic manifold का ही विश्लेषण कर रहे होते हैं
reasoning और data आपस में उलझे हुए हैं, इसलिए इन्हें पूरी तरह अलग नहीं किया जा सकता
non-contextual relations को सीखना (decompose करना) — यही 'decontextualization' है। लेकिन इसके साथ-साथ नए situations या domains में meaningful analysis के लिए 'recontextualization' भी ज़रूरी है।
लंबी व्याख्या के लिए https://news.ycombinator.com/item?id=42871894 देखें
अगर जानवर propositional statements को बिल्कुल भी non-probabilistic तरीके से handle नहीं कर सकते, तो इसका मतलब होगा कि वे logical reasoning कर ही नहीं सकते; यह वास्तविक जानवरों की reasoning क्षमता की व्याख्या नहीं कर पाता
उदाहरण: "अगर मकड़ी box A में गई है, तो वह दूसरे box में नहीं है" जैसी साधारण logical structure वाली reasoning
वास्तविक data सचमुच manifold पर मौजूद नहीं होता। यह बस data के बारे में सोचना आसान बनाने के लिए इस्तेमाल किया जाने वाला एक approximation है
deep learning की लगभग सारी उपयोगी उपलब्धियाँ topology से असंबंधित हैं। deep learning एक empirical field है, जो experiment, trial-and-error, और थोड़ी-बहुत mathematical insight (और वह भी topology नहीं) के सहारे तेज़ी से आगे बढ़ा है
मैं इस दावे से पूरी तरह असहमत हूँ। trial-and-error ज़रूर बहुत है, लेकिन topology, geometry, game theory, calculus, statistics आदि असंख्य mathematical theories की संयुक्त भूमिका भी है। backpropagation खुद chain rule ही है
यह field इतनी mainstream और profitable हो चुकी है कि बहुत से practitioners इसकी theoretical roots जाने बिना भी इसे आसानी से उपयोग कर लेते हैं
आख़िरकार हम नई theories और techniques गढ़ते हुए भी अक्सर दूसरे क्षेत्रों के पुराने सिद्धांतों को अनजाने में 'rediscover' करके इस्तेमाल कर रहे होते हैं
"ये सारी insights मूल रूप से topology नहीं थीं" — इस बात पर मेरा मानना है कि ऐसी 'mathematical intuition' ज़्यादातर बाद में लगाई जाती है। deep learning में कोई breakthrough आने के बाद physics या mathematics के शोधकर्ता अपने क्षेत्र की विधियों से उसकी समानता बाद में पहचानते हैं
उदाहरण के तौर पर एक लेख है कि GPT लगभग उसी algorithm जैसा है जिसे मैं पहले physics problems हल करने में इस्तेमाल करता था
https://ondrejcertik.com/blog/2023/…
मैं deep learning क्षेत्र में 10 साल से अधिक समय से हूँ, और "data manifold पर नहीं होता" यह दावा ग़लत है। embedding space को 'space' यूँ ही नहीं कहा जाता। GAN, VAE, contrastive loss जैसी चीज़ें वास्तव में vector manifold structures बनाती हैं जिन पर चला या manipulate किया जा सकता है
अगर approximation error तक की अनुमति देने वाली परिभाषा लें, तो कहा जा सकता है कि वास्तविक data manifold पर स्थित है। संदर्भ paper: Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning(https://aclanthology.org/2021.acl-long.568.pdf)
मुझे लगता है deep learning अभी के चरण में कुछ वैसा है जैसे कभी alchemy हुआ करती थी
यानी chemistry आने से पहले का alchemy, जिसमें कोई theoretical foundation मौजूद नहीं थी। कभी ऐसा भी हो सकता है कि भविष्य की मानवता सिर्फ़ 'deep learning' शब्द को ही बचाकर रखे और उसे पुरानी भाषा के अवशेष की तरह देखे
"इस स्तर तक तो हम AGI पहुँच चुके हैं" — यह वाक्य पढ़कर मेरी विश्वसनीयता की भावना अचानक काफ़ी गिर गई
कुल मिलाकर लेख के विचार दिलचस्प थे, लेकिन reasoning से जोड़ने वाला हिस्सा और गहरी technical चर्चा की कमी के कारण यह कुछ fluffy लगा। इससे कहीं ज़्यादा ठोस research पहले से मौजूद है (उदा. https://arxiv.org/abs/1402.1869)
DNN में बहुत चर्चा की जाने वाली topology का एक और प्रकार network topology है। यानी nodes कैसे जुड़े हैं और data कैसे flow करता है, उसकी संरचना
autoencoder, CNN, GAN आदि सभी को biological inspiration मिली है
अभी भी हमें brain की topology और उसकी functional connectivity से बहुत कुछ सीखना है
आगे चलकर individual layers/nodes के भीतर, या specialized networks के बीच connection और interaction structures के स्तर पर बिल्कुल नई architectures आने की काफ़ी संभावना है
मानव मस्तिष्क भी वास्तव में एक network नहीं, बल्कि "Big 7" जैसे कई networks का parallel और interlinked संचालन है। DMN(Default Mode Network), CEN(Central Executive Network), Limbic Network आदि कई networks मौजूद हैं, और कई बार एक neuron एक साथ कई networks का हिस्सा होता है
artificial intelligence में हम अभी तक इस जटिलता को पूरी तरह reproduce नहीं कर पाए हैं, इसलिए network topologies से सीखने की संभावनाएँ बहुत व्यापक हैं
"Topology is all you need" इस बात से मैं सहमत हूँ
mathematical topology geometric objects और transformations से डील करती है, लेकिन computing में abstract objects के बीच relations को define करने वाली 'topology' की अवधारणा भी महत्वपूर्ण है
उदाहरण के लिए, graph data structure में objects (vertices) के सेट और उनके बीच relations (edges) के सेट को store किया जाता है, और इस तरह graph खुद एक discrete topology structure बन जाता है
network data structure भी इसी तरह का होता है, लेकिन हर edge के साथ एक value अतिरिक्त रूप से store होती है। यानी vertices (objects) का सेट, उनके बीच relations (edges), और हर edge पर एक value (weight) हो सकती है। अंततः artificial neural network को भी इसी दिशा में समझा जा सकता है, और वह discrete topology पर निर्मित संरचना है
लेखक के diagram में AGI/ASI को next token prediction, chat, CoT models जैसी चीज़ों के साथ एक manifold के भीतर एक point की तरह दिखाया गया है, यह मुझे उलझाऊ लगा। बाद की तीनों श्रेणियाँ तो साफ़ तौर पर जुड़ी हुई एक ही family में दिखती हैं, लेकिन AGI/ASI को भी उसमें शामिल करने के लिए पर्याप्त आधार है या नहीं, इस पर संदेह है
अगर CoT-आधारित models चाहे जितनी topological manipulation कर लें, फिर भी AGI जैसी 'intelligence' तक कभी पहुँच ही न सकें, तो क्या होगा — यह जिज्ञासा है
उदाहरण के लिए, मानव बुद्धि में highly developed sensory/internal feedback और continuous processing अनिवार्य हो सकते हैं, जबकि GPT-जैसे autoregressive models मूलतः discrete हैं
गैर-विशेषज्ञ के नज़रिये से एक सहज भावना यह भी है कि LLM शायद उस family के systems से काफ़ी अलग किस्म की चीज़ है जो 'intelligence' या 'consciousness' पैदा करती है
सच कहूँ तो मुझे लगता है कि हम AGI तक पहुँच चुके हैं, लेकिन बहुत से लोग इससे सहमत नहीं होंगे
यह बात उठी थी कि मानव बुद्धि का सार high-level sensory/feedback loops या continuous processing में है; connectomics पर काफ़ी काम करने के अनुभव से मुझे यह भी लगता है कि biological और neural networks की समानताएँ नज़रअंदाज़ नहीं की जा सकतीं
उदाहरण के लिए, mouse के olfactory system में जब कुछ neurons का set सक्रिय होता है, तो कोई विशेष smell ('chocolate', 'lemon' आदि) पहचानी जाती है। यह feature vector से काफ़ी मिलता-जुलता ढाँचा है
मस्तिष्क में neural representations भी embedding representations से कुछ समानता रखती हैं। मानो कौन-से neurons fire हुए, उसी के आधार पर एक embedding space बन रहा हो।
embeddings पर जो कुछ होता है, वह "उससे परे" कुछ नहीं, बल्कि अतिरिक्त processing ही है