Versor: मैट्रिक्स multiplication की जगह geometric rotation (Rotor) का उपयोग करने वाला PyTorch framework

(github.com/Concode0)

26 पॉइंट द्वारा concode0 2026-02-13 | 10 टिप्पणियां | WhatsApp पर शेयर करें

डीप लर्निंग की शानदार उपलब्धियों के पीछे हमेशा 'matrix multiplication (Wx+b)' रहा है। लेकिन Versor इस मानक पर सवाल उठाता है। इसका तर्क है कि "मैट्रिक्स डेटा को प्रोसेस करने की प्रक्रिया में manifold को फाड़ने या मोड़ने जैसी विकृतियां पैदा करते हैं।"

Versor इस "Linear Algebra Ceiling" को पार करने के लिए विकसित किया गया geometric algebra-आधारित PyTorch framework है। यह matrix की जगह Rotor का उपयोग करके डेटा की मूल topological structure को संरक्षित रखने वाला एक नया deep learning paradigm प्रस्तुत करता है।

मुख्य दर्शन: Unbending (सीधा करना) के बाद Filtering (छांटना)

Versor का दृष्टिकोण सिर्फ "dimension कम किए बिना सब कुछ साथ ले जाना" नहीं है। इसकी असल बात है, "डेटा को बिगाड़े बिना पहले align करना, फिर केवल ज़रूरी जानकारी को साफ़-सुथरे तरीके से निकालना।"

Unbending (Rotor)

सामान्य matrix shear और stretch के साथ काम करते हैं, लेकिन Rotor का sandwich product एक isometry है। जैसे किसी मुड़े-तुड़े कागज़ को इस्त्री करके सीधा किया जाए, वैसे ही यह डेटा की दूरी और कोणों को पूरी तरह संरक्षित रखते हुए उसे घुमाकर फैलाता है।
Geometric Filtering (BladeSelector)

जब डेटा को ज्यामितीय रूप से सही तरीके से सीधा कर दिया जाता है, तब जानकारी किसी खास axis (Basis Blade) या grade में align हो जाती है। इस समय BladeSelector noise को हटाकर केवल मुख्य geometric information (जैसे vector components) को छोड़ता है और dimension घटाता है। यह ज़बरदस्ती दबाकर dimension कम करने वाले पारंपरिक projection से गुणात्मक रूप से अलग तरह का compression है।

मुख्य विशेषताएं

Metric-Agnostic Kernel: Euclidean (Cl(3,0)) से spacetime (Cl(1,3)) और conformal geometry (Cl(4,1)) तक, सिर्फ signature बदलने पर वही code काम करता है।
White-Box AI: training parameters कोई अज्ञात संख्याएं नहीं, बल्कि "rotation planes (Bivector)" हैं। मॉडल ने डेटा को "किस plane में कितना घुमाकर align किया" यह समझा जा सकता है।
उच्च प्रदर्शन के साथ lightweight: O(n) scaling को support करता है, और M4 CPU पर भी real-time inference (5.8ms/मॉलिक्यूल) संभव है।

हाल में अकादमिक जगत में चर्चा में रहे GATr जैसे मॉडल यदि transformer संरचना के भीतर GA का उपयोग करने वाला 'architectural approach' अपनाते हैं, तो Versor computation की सबसे छोटी इकाई से ही Rotor को लागू करके spatial distortion को जड़ से रोकने वाली 'geometric essence' पर ध्यान देता है। इसी वजह से यह बहुत कम parameters में भी real-time inference देने वाली lightweight क्षमता हासिल करता है।

बेंचमार्क प्रदर्शन

QM9 (molecular properties): 3D Euclidean geometry (Cl(3,0)) लागू करने पर, एकल 4090 GPU पर केवल 1 घंटे की training से MAE 14.42 meV हासिल।
Motion Alignment (UCI-HAR): उच्च-आयामी motion data को केवल rotation के ज़रिए linearly separable latent space में align करके accuracy ~100% हासिल।
Semantic Disentanglement (NLP): 20 Newsgroups dataset में geometric separation के माध्यम से 100% Grade Purity हासिल। (Grade Purity 100% का मतलब है कि जटिल रूप से उलझा हुआ डेटा बिना noise के केवल 'vector' components के रूप में पूरी तरह अलग और align हुआ, जो geometric structure learning की सफलता को गणितीय रूप से सिद्ध करता है।)

क्या यह overfitting नहीं है?

तेज़ convergence और उच्च accuracy की वजह से ऐसा संदेह हो सकता है, लेकिन यह मजबूत geometric inductive bias की देन है।

सामान्य matrix (n x n) की degrees of freedom बहुत ज़्यादा होती हैं, इसलिए वे noise तक सीख लेते हैं,
लेकिन Versor का Rotor गणितीय रूप से सिर्फ 'rotation' की अनुमति देता है।
क्योंकि इसकी संरचना shear या stretch कर ही नहीं सकती, इसलिए मॉडल डेटा की मूल structure के अलावा कुछ और सीखना चाहे भी तो नहीं सीख सकता। इसी कारण कम parameters में भी इसका generalization प्रदर्शन बेहतर रहता है।

Versor PyTorch के ऊपर चलता है, इसलिए उससे मिलते-जुलते interface का उपयोग वैसे ही किया जा सकता है। और अभी नए tasks और metrics पर सक्रिय रूप से काम चल रहा है, इसलिए फीडबैक का स्वागत है।

10 टिप्पणियां

kunggom 2026-02-17

क्या आप समझा सकते हैं कि आपने जो प्रोजेक्ट साझा किया है, उसका नीचे दिए गए पेपर की सामग्री से क्या संबंध है?

Versor: A Geometric Sequence Architecture
https://arxiv.org/abs/2602.10195
https://github.com/VersorAI/Versor

नाम भी बिल्कुल वही है और इस्तेमाल किए गए कॉन्सेप्ट भी मिलते-जुलते लगते हैं, लेकिन यह मेरा विशेषज्ञता का क्षेत्र नहीं है, इसलिए मैं ठीक से समझ नहीं पा रहा हूँ कि इनका आपस में किस तरह संबंध है।
अलग-अलग डेमो देखकर लगता है कि शायद यह ऐसा मामला है जहाँ लगभग एक ही समय पर मिलते-जुलते आइडिया साथ-साथ सामने आए हों, और इसी वजह से मैं पूछना चाहता हूँ कि क्या इस क्षेत्र का नवीनतम रुझान खुद इसी दिशा में बढ़ रहा है?

concode0 2026-02-17

रुचि दिखाने के लिए धन्यवाद। आपने जिस पेपर के बारे में पूछा, उससे मैं पहले से ही परिचित हूँ, और मैंने स्वयं उसका विस्तृत तकनीकी समीक्षा की है.
समीक्षा के परिणामस्वरूप, मैंने उस पेपर में किए गए performance metrics के दावों की भौतिक असंभवता और data manipulation सहित गंभीर research misconduct के कई संकेतों की पुष्टि की है। इसके अनुसार, मैंने लेखकों के संबद्ध संस्थान QMUL (Queen Mary University of London) की research ethics committee को औपचारिक रिपोर्ट जमा कर दी है।
फिलहाल मुझे विश्वविद्यालय की ओर से उत्तर मिला है कि रिपोर्ट विधिवत प्राप्त कर ली गई है और औपचारिक जांच प्रक्रिया (Triage stage) शुरू कर दी गई है। इसलिए, इस पेपर को केवल ऐसा मामला समझने के बजाय कि विचार संयोग से मिल गए, कृपया इसे ऐसा मामला समझें जिसमें research ethics से जुड़ी खामियां पाई गई हैं और जिसकी औपचारिक जांच चल रही है।
मूल प्रोजेक्ट के मूल्य को पहचानने और प्रश्न छोड़ने के लिए एक बार फिर धन्यवाद।

kunggom 2026-02-18

अच्छा। खैर, उम्मीद है कि सब कुछ स्वाभाविक रूप से ठीक हो जाएगा।

junghan0611 2026-02-16

ओह, दिलचस्प है।

villcenter1 2026-02-14

क्या इसके लिए बेहतरीन जैसे अस्पष्ट संकेतकों के बजाय संख्याओं से साबित किए जा सकने वाले परिणाम हैं?

concode0 2026-02-14

फ़ीडबैक के लिए धन्यवाद। हो सकता है कि मुख्य लेख में दिए गए आँकड़े कुछ अपरिचित लगे हों, इसलिए आपको वे 'अस्पष्ट' महसूस हुए हों, लेकिन Versor को पूरी तरह संख्यात्मक प्रमाण के आधार पर विकसित किया गया है। एक बार फिर मुख्य मेट्रिक्स का सार साझा कर रहा हूँ.

QM9 टास्क में एकल 4090 पर 1 घंटे से कम समय में 14.42 meV हासिल किया गया। यह उन मौजूदा SOTA मॉडलों की तुलना में, जिन्हें कई दिनों तक बड़े क्लस्टर पर गणना की आवश्यकता होती है, संसाधन दक्षता में कई गुना बेहतर होने का प्रमाण है।

CPU वातावरण (M4) में भी 5.8ms/molecule की inference speed दर्ज की गई, जिससे अन्य मॉडलों की तुलना में इसकी दक्षता की पुष्टि हुई।

UCI-HAR टास्क में भी geometric alignment के जरिए 100% accuracy और Grade Purity हासिल की गई। यह सिर्फ साधारण सांख्यिकीय अनुमान नहीं, बल्कि डेटा की topological structure को पूरी तरह align कर देने का सबसे स्पष्ट संख्यात्मक प्रमाण है।

Versor "geometric constraints" नामक एक गणितीय वास्तविकता को सिद्ध कर रहा है। आगे प्रकाशित होने वाले benchmark में भी हम संख्याओं के साथ जवाब देंगे, इसलिए कृपया रुचि बनाए रखें।

skageektp 2026-02-15

आपने आँकड़े भी अच्छी तरह बताए हैं, लेकिन अगर उनकी तुलना भी बता दें तो अच्छा होगा। समान hardware पर मिलती-जुलती चीज़ चलाने पर speed कितनी तेज़ हुई, यह जानने की उत्सुकता ज़्यादा होती है; speed 'कितनी' है, इससे अकेले में न तो ठीक से अंदाज़ा लगता है और न ही बहुत से लोगों को इसमें खास दिलचस्पी होती है।

concode0 2026-02-15

तुलनात्मक डेटा निश्चित रूप से शामिल किया जाएगा। हालांकि, मेरा मानना था कि पहले से प्रस्तुत single GPU प्रति घंटा दक्षता के आँकड़े ही आर्किटेक्चर की नवोन्मेषिता को समझाने के लिए पर्याप्त हैं। यदि आप अधिक सहज तुलना चाहते हैं, तो कृपया जल्द ही अपडेट होने वाले ग्राफ़ का इंतज़ार करें।

heal9179 2026-02-13

मुझे यह तरीका सच में बहुत अच्छा लग रहा है
मुझे लगा था कि algebraic topology वाला पक्ष शायद ज़्यादा सार्थक होगा, लेकिन यह पक्ष उससे कहीं अधिक सरल है

concode0 2026-02-13

सहानुभूति जताने के लिए आपका सचमुच बहुत धन्यवाद। मैंने भी अपने शोध के दौरान algebraic topology वाले approach पर विचार किया था, लेकिन अंततः engineering के नज़रिए से मैं इस निष्कर्ष पर पहुँचा कि geometric algebra की स्पष्टता deep learning के साथ कहीं बेहतर मेल खाती है। उस 'सरलता' की अहमियत को आपने पहचाना, इसी वजह से मैं अपने approach को लेकर और भी अधिक आश्वस्त होकर जा रहा हूँ।