हमने ICLR में स्वीकृत एक नया generative model विकसित किया है

(discrete-distribution-networks.github.io)

2 पॉइंट द्वारा GN⁺ 2025-10-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Discrete Distribution Networks(DDN) एक नवोन्मेषी generative model है, जिसके सिद्धांत और विशेषताएँ नई हैं
DDN में Split-and-Prune optimization algorithm के माध्यम से विशिष्ट प्रयोगात्मक परिणाम और 1D discrete representation की क्षमता मिलती है
यह hierarchical structure के आधार पर continuous distribution का भी approximation करता है, और Zero-Shot conditional generation जैसी रोचक विशेषताएँ दिखाई गई हैं
DDN image generation, style transfer आदि विभिन्न वास्तविक कार्यों में उपयोग की संभावना दिखाता है
scalability, efficiency और natural adaptability के मामले में इसमें मौजूदा generative models की तुलना में स्पष्ट अंतर है

DDN: Discrete Distribution Networks का अवलोकन

यह महत्वपूर्ण क्यों है?

DDN (Discrete Distribution Networks) एक बिल्कुल नया दृष्टिकोण है, जो मौजूदा generative models से पूरी तरह अलग है। इसमें सरल सिद्धांत, विशिष्ट hierarchical structure, और Zero-Shot conditional generation जैसी विशेषताएँ हैं। यह GAN और Diffusion से अलग तरीके से काम करता है, इसलिए शोध और वास्तविक उपयोग—दोनों में कई नई संभावनाएँ खोलता है।

मुख्य बिंदुओं का सारांश

DDN एक नया generative model है, जो hierarchical discrete distribution structure के माध्यम से data distribution का approximation करता है
यह Split-and-Prune optimization तकनीक प्रस्तावित करता है, और Zero-Shot Conditional Generation तथा 1D discrete latent representation जैसी अलग पहचान वाली विशेषताओं का प्रयोगात्मक सत्यापन करता है, जो मौजूदा generative models में कठिन हैं
DDN हर layer पर एक साथ कई samples बनाता है, और उनमें से लक्ष्य के सबसे निकट वाले sample को चुनकर अगली layer के condition के रूप में उपयोग करता है
layers की संख्या बढ़ने पर output का representation space exponential रूप से फैलता है, और परिणामस्वरूप लक्ष्य के समान sample उत्पन्न होता है
विभिन्न प्रयोगों (CIFAR-10, FFHQ, style transfer, super-resolution आदि) के माध्यम से यह दिखता है कि यह मौजूदा तरीकों की तुलना में सादगी, generalization performance, और वास्तविक उपयोग-योग्यता में मजबूत है

DDN के density estimation प्रयोग

2D probability density approximation प्रक्रिया का प्रदर्शन
- बायाँ: DDN के सभी samples जिन्हें वह वर्तमान में generate कर सकता है
- दायाँ: target probability density map
- विभिन्न target distributions (blur_circles, QR_code, spiral आदि) को क्रमवार लागू करते हुए निरंतर optimization
- Optimizer: Gradient Descent और Split-and-Prune का एक साथ उपयोग
- Split-and-Prune लागू करने पर KL divergence वास्तविक samples से भी कम हो जाता है

शोधपत्र के मुख्य योगदान

अधिक सरल और efficient नया generative model—DDN प्रस्तावित
Split-and-Prune optimization algorithm और व्यावहारिक तकनीकों का उपयोग
Gradient-रहित Zero-Shot conditional generation, विशिष्ट 1D discrete representation आदि गुणों का सत्यापन
ICLR review में इसे "मौजूदा generative models से बहुत अलग और शोध की दिशा को विस्तृत करने वाला" बताया गया
DDN का सिद्धांत: हर layer में अनेक discrete samples बनाना, लक्ष्य के सबसे निकट परिणाम को चुनकर उसे hierarchical तरीके से refine करना

संरचना और कार्य-विधि

Hierarchical discrete distribution structure

हर layer पिछली layer से चुने गए sample को input के रूप में लेकर कई samples generate करती है
उनमें से केवल वही परिणाम अगली layer को भेजा जाता है, जो वर्तमान training sample (सही उत्तर) के सबसे निकट हो
यह प्रक्रिया दोहरने पर परिणाम अधिक refined होता जाता है और target distribution के करीब पहुँचता है
layers बढ़ने पर generated output का representation space exponential रूप से बढ़ता है
network स्वयं एक साथ कई samples generate करके distribution को सीधे व्यक्त कर सकता है

Image reconstruction और latent representation

हर layer के outputs अलग-अलग images बनाते हैं, और अंतिम लक्ष्य के समान परिणाम ही अगली layer तक भेजे जाते हैं
sampler की भूमिका: target से सबसे मिलती-जुलती image चुनना
generation task में random sampling के माध्यम से diversity को अधिकतम करना
DDN के latent variables को tree structure के रूप में समझा जा सकता है, और हर sample tree के अंत (leaf node) पर map होता है

प्रयोगात्मक परिणामों के उदाहरण

विभिन्न 2D distributions (spiral, QR_code आदि) का approximation
Split-and-Prune के माध्यम से KL divergence न्यूनतम करना, dead nodes और density shift जैसी समस्याओं को कम करना
CIFAR-10, FFHQ आदि में GAN और Diffusion आधारित models की तुलना में विशिष्ट generation तरीका और efficiency की पुष्टि

Zero-Shot conditional generation का समर्थन

DDN बिना gradient के Zero-Shot conditional generation कर सकता है
उदाहरण: CLIP black-box का उपयोग करके text-to-image generation
style transfer, super-resolution जैसी pixel-आधारित न होकर भी विभिन्न conditions को प्रभावी ढंग से संभालता है

Training और दो model paradigms

training के दौरान हर Discrete Distribution Layer(DDL) में sample selection के बाद Adam+Split-and-Prune से optimization
Single Shot Generator: हर layer के पास स्वतंत्र weights होते हैं
Recurrence Iteration: सभी layers weights साझा करती हैं

विभिन्न उपयोग के उदाहरण

चेहरे की images का random generation

प्रशिक्षित DDN के आधार पर चेहरे की images generation के परिणाम, जिनमें diversity और quality की पुष्टि होती है

Conditional image coloring / edge-color transformation

किसी विशेष image के आधार पर style को अधिकतम निकटता से ग्रहण करना और condition को भी संतुष्ट करना
generated image resolution 256x256

Hierarchical generation visualization (MNIST आदि)

generation के हर चरण के intermediate/final results का visualization
बड़ी image draft होती है, और छोटी image refined final result होती है

भविष्य की शोध दिशा और उपयोग की संभावनाएँ

hyperparameter tuning, exploratory experiments, और theoretical analysis के माध्यम से DDN के performance में सुधार की संभावना
ImageNet-स्तर की जटिल समस्याओं तक विस्तार, और वास्तविक सेवा-योग्य model का निर्माण
super-resolution, image coloring, depth estimation, pose estimation, robotics आदि कई कार्यों में उपयोग
- Diffusion आधारित models की तुलना में एक forward-pass में multi-sample output
- uncertainty estimation जैसे उपयोगों में efficiency और constraints लागू करना आसान
- end-to-end differentiability के कारण मौजूदा discrimination/reward learning के साथ जोड़ने पर efficiency बढ़ सकती है
non-generative tasks (unsupervised clustering, data compression आदि) में भी उपयोग
DDN की design ideas को मौजूदा generative models (जैसे Diffusion) पर लागू करने वाले आगे के शोध (जैसे Diffusion और 1D discrete latent space का संयोजन)
language modeling में tokenizer के बिना binary string को सीधे model करना जैसी नई दिशा का प्रस्ताव

अक्सर पूछे जाने वाले प्रश्न

Q1: GPU memory की आवश्यकता बढ़ती है?

मौजूदा GAN Generator की तुलना में थोड़ी बढ़ती है, लेकिन बड़ा अंतर नहीं है
training के समय केवल चुने गए samples के लिए ही gradient store किया जाता है, बाकी तुरंत हटा दिए जाते हैं, इसलिए memory पर दबाव सीमित रहता है
generation चरण में केवल एक random sample generate किया जाता है, सभी samples नहीं, इसलिए अतिरिक्त resource उपयोग बहुत कम होता है

Q2: mode collapse की समस्या?

नहीं। हमेशा लक्ष्य के सबसे समान परिणाम पर ही loss लागू होता है, जिससे diversity सुनिश्चित होती है
प्रयोगों में test set reconstruction performance (recovery ability) भी अच्छी रही
हालांकि, बहुत high-dimensional data जिसे DDN की अपनी complexity संभालना कठिन हो, उसमें blurry samples दिखाई दे सकते हैं

1 टिप्पणियां

GN⁺ 2025-10-11

Hacker News की राय

लेखक इस बात से खुशी जता रहे हैं कि उन्हें ICLR reviews उपयोगी लगे; इसे वे ICLR की सभी paper reviews को सार्वजनिक करने की नीति के सफलतापूर्वक काम करने का एक उदाहरण मानते हैं
इसका फ़ायदा यह है कि reviewers गुमनाम रूप से लेखकों के लिए इस बात का एक तरह का "मूल्यांकन-पत्र" छोड़ जाते हैं कि उन्होंने paper को कैसे समझा, और पारंपरिक अकादमिक जगत के बाहर के लोग भी paper के accept/reject होने के पीछे की चर्चा देख सकते हैं
इस paper की review link यहाँ है
rejected papers की पूरी सूची यहाँ देखी जा सकती है
- जब भी मेरा paper ICLR में reject हुआ, मैं कम-से-कम यह बता सकता था कि कौन-सा reviewer paper के मुख्य विचार को समझ नहीं पाया
paper की Fig.18 में कहा गया है कि Taiji-DDN प्राचीन चीनी दर्शन के Taiji जैसा है
यह हिस्सा थोड़ा अटपटा लगा
branching structure तो एक बहुत आम अवधारणा है, इसलिए इसे किसी खास प्राचीन कहावत या दार्शनिक संदर्भ से जोड़ना थोड़ा अजीब लगा
- मेरी निजी राय में, वे बस इस अनोखे naming को मज़ेदार ढंग से समझाना चाहते थे
  मुझे इसमें कुछ भी अंधविश्वासी या अजीब नहीं लगा
ICLR में single-author paper का accept होना देखना, खासकर तब जब वह इतना innovative method पेश करता हो, काफ़ी प्रभावशाली लगता है
यह structure काफ़ी दिलचस्प लगा
debugging आसान होने का फ़ायदा है, लेकिन sampler का उपयोग होने और Mixture-of-Experts(MoE) style router न होने की वजह से हर layer में K-1 operations प्रभावी रूप से बेकार चले जाते हैं
मेरे हिसाब से MoE और x0-target latent diffusion model का संयोजन इसका सबसे नज़दीकी analogy है, और असली innovation router नहीं बल्कि guided sampler और split-and-prune optimizer हैं
मुझे लगता है कि इससे training आसान हो जाती है
- क्योंकि sampling probability input से स्वतंत्र होकर 1/K है, inference के समय हर layer में K intermediate operations सभी करने की ज़रूरत नहीं होती; पहले से तय किया जा सकता है कि कौन-सा operation इस्तेमाल होगा और वही चलाया जा सकता है
  यह बात paper के नीचे दिए गए Common Questions About DDN सेक्शन के Q1 में है
- लगता है आपने paper को थोड़ा ग़लत समझा है
  यहाँ कोई Experts नहीं हैं; output बस distribution से random sample को approximate करने का काम करता है
  यहाँ latent diffusion नहीं है, बल्कि GAN जैसी convolution का उपयोग है
  inference में sample index पहले चुन लिया जाता है, इसलिए बेकार computation नहीं होता—यही बात विशेष रूप से बताई गई है
वाकई शानदार concept है
paper के abstract के नीचे दिए गए examples देखकर हैरानी हुई कि model कई जगह काफ़ी accurate परिणाम देता है
उदाहरण के लिए, row 2 column 3 की hairline, row 2 columns 7/8/9/11 की shirt color, rows 4/6 की पूरी lipstick, और row 6 column 4 में चेहरे और बालों की position/shape
खासकर row 6 column 4 के नीचे-बाएँ लाल हिस्से में यह बहुत रोचक है कि model ने मानो पहचान लिया कि वहाँ कुछ लाल है और सही जगह पर लाल blob रख दिया
यह dataset bias (जैसे lipstick) या मेरी selective observation भी हो सकती है, लेकिन लाल shoulder strap के मामले में मैं सोच रहा हूँ कि यह data leakage, overfitting, या बस संयोग है
मैंने भी एक मिलती-जुलती architecture (हालाँकि method अलग था) पर काम किया है, जिसमें cross-attention और learned queries की hierarchy बनाई थी, और attention matrix पर L1 लगाकर sparsity बढ़ाई थी
discrete hierarchical representations सच में बहुत दिलचस्प हैं
हर layer का activation pattern हर input के लिए किसी parse tree की तरह काम करता है, जिससे image को छोटे integer sequence में प्रभावी ढंग से compress किया जा सकता है
मैं इस हिस्से में विशेषज्ञ नहीं हूँ, इसलिए पूछ रहा हूँ: अगर network सिर्फ 1x1 convolution से बना हो, तो क्या pixels के बीच कोई information exchange ही नहीं होगा?
अगर ऐसा है, तो क्या इसका मतलब यह नहीं कि हर pixel पूरी तरह independent है, और फिर परिणाम inconsistent नहीं होंगे?
- यह इस case पर लागू नहीं होता, लेकिन वास्तव में ऐसी architectures मौजूद हैं जो pixels को आपस में independent तरीके से generate करती हैं
  वे किसी भी arbitrary pixel या image element को बाकी सब generate किए बिना बना सकती हैं; ये implicit होती हैं
  उदाहरण के तौर पर NeRF, single-pixel GAN, और MAE हैं; papers के links यह paper, यह paper, यह paper हैं
  यह इसलिए संभव है क्योंकि model को सभी संभावित data को एक अर्थ में "याद" रखने वाला माना जा सकता है, और independent generation बस उस "memory" के किसी खास हिस्से को निकालने जैसा है
  latent space एक अपरिवर्तित, Platonic object जैसा है, इसलिए उसके हर point को भौतिक रूप से अलग-अलग generate करना अजीब नहीं है
  जैसे arbitrary points को y=mx+b जैसी function से generate किया जा सकता है, वैसे ही image generation भी किसी जटिल function के input भर हैं
  यह विचार सिर्फ images तक सीमित नहीं है; natural language भी कुछ हद तक independent तरीके से generate की जा सकती है, और इसे इस code तथा मेरे प्रस्ताव यहाँ में आगे बढ़ाया जा सकता है
- DDN में 1x1 convolution सिर्फ Discrete Distribution Layer(DDL) की output layer में इस्तेमाल होता है
  DDL के बीच के neural network blocks ही मुख्य operations और parameters का स्रोत हैं, और उनमें standard 3x3 convolution का उपयोग किया जाता है
दिलचस्प है
कुछ दिन पहले मैंने symbolic transform matrices का इस्तेमाल करके deep graph reaction systems को parallelize करने वाली diffusion research की थी; काफ़ी लोग इसी सामान्य दिशा में जा रहे हैं
मुझे लगता है कि अगले 1-2 साल में diffusion-based models code generation में अग्रणी हो सकते हैं
बहुत बढ़िया, मैंने पहले representation learning पर काफ़ी समय लगाया था, इसलिए MNIST digit grid ने पुरानी यादें ताज़ा कर दीं
मुझे यह सच में दिलचस्प और नया approach लगता है, और मैं जानना चाहूँगा कि इसे scale करके non-image domains में लगाने पर performance कैसी रहती है
आगे की research को कहाँ follow किया जा सकता है, यह भी जानना चाहूँगा
- दिलचस्पी लेने के लिए धन्यवाद
  आगे के research results मैं GitHub और Twitter(X) दोनों पर पोस्ट करूँगा
यह सच में बहुत अच्छी research लग रही है, इसलिए मैंने इसे अपनी reading list में जोड़ लिया
इसे Hacker News पर साझा करने के लिए धन्यवाद