4 पॉइंट द्वारा GN⁺ 2025-11-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Diffusion model एक ऐसा generative model architecture है जो उस प्रक्रिया को परिभाषित करता है जिसमें डेटा धीरे-धीरे noise में बदलता है, और फिर उसे उलटकर noise से डेटा उत्पन्न किया जाता है
  • मॉडल का मुख्य भाग समय के साथ बदलने वाले velocity field को सीखना है, ताकि एक सरल distribution को data distribution में बदलने वाला continuous generative path बनाया जा सके
  • तीन प्रमुख दृष्टिकोण हैं: variational, score-based, और flow-based; ये क्रमशः denoising, probability gradient learning, और continuous transformation के रूप में समझाए जाते हैं
  • इसी आधार पर controllable generation, efficient sampling, और समयों के बीच direct mapping (flow-map) जैसी विस्तारित शोध दिशाओं पर चर्चा की जाती है
  • diffusion models के गणितीय सिद्धांत और उनकी विभिन्न formulations को एकीकृत रूप से समझने के लिए इसकी मूलभूत सैद्धांतिक पुस्तक के रूप में महत्ता पर ज़ोर दिया गया है

Diffusion model की बुनियादी अवधारणा

  • diffusion model दो भागों से बना होता है: डेटा को धीरे-धीरे noise से दूषित करने वाली forward process और उसे उलटकर noise से डेटा बनाने वाली reverse process
    • forward process data distribution को एक सरल noise distribution से जोड़ने वाले continuous intermediate distributions के एक समूह को परिभाषित करती है
    • reverse process उन्हीं intermediate distributions को पुनर्स्थापित करते हुए noise को डेटा में बदलती है
  • मॉडल का लक्ष्य इस reverse process को सीखना है, ताकि noise से data तक के transformation path को पुनः निर्मित किया जा सके

तीन गणितीय दृष्टिकोण

  • Variational View
    • variational autoencoder (VAE) से प्रेरित होकर, यह noise को चरण-दर-चरण हटाने वाले छोटे restoration objective (denoising objective) को सीखता है
    • हर चरण की restoration मिलकर कुल मिलाकर noise को डेटा में बदलती है
  • Score-Based View
    • यह energy-based model (Energy-Based Model) में निहित है और data distribution के gradient को सीखता है
    • यह उस दिशा की गणना करता है जिसमें sample को अधिक probability वाले क्षेत्र की ओर ले जाया जाए
  • Flow-Based View
    • normalizing flow की तरह, यह generation process को velocity field के साथ noise से डेटा तक जाने वाले continuous path के रूप में व्याख्यायित करता है

साझा संरचना और गणितीय आधार

  • इन तीनों दृष्टिकोणों में एक समानता है: सभी time-dependent velocity field को सीखते हैं
    • यह velocity field एक सरल prior distribution को data distribution तक पहुँचाने का काम करता है
    • sampling को differential equation हल करके noise को डेटा में बदलने की प्रक्रिया के रूप में व्यक्त किया जाता है
  • इसी गणितीय ढाँचे के ऊपर efficient sampling के लिए numerical analysis techniques, controllable generation (guidance), और मनचाहे समय-बिंदुओं के बीच direct mapping (flow-map) जैसी बातें चर्चा में आती हैं

लक्षित पाठक और उद्देश्य

  • पाठक वे शोधकर्ता, postgraduate छात्र, और practitioner हैं जिनके पास deep learning और generative modeling का बुनियादी ज्ञान है
  • उद्देश्य diffusion models की theoretical foundation और विभिन्न formulations के बीच संबंधों को स्पष्ट रूप से समझाना है
  • इसके माध्यम से पाठकों को मौजूदा models को आत्मविश्वास के साथ लागू करने और नए research directions खोजने की बुनियाद मिलती है

प्रस्तावना और संरचना का अवलोकन

  • diffusion models अब machine learning, computer vision, natural language processing जैसे कई क्षेत्रों में केंद्रीय generative paradigm बन चुके हैं
  • यह पुस्तक विशाल शोध-साहित्य को theoretical principles, learning objectives, sampler design, और mathematical ideas के दृष्टिकोण से व्यवस्थित करती है
  • मुख्य संरचना
    • Part A & B: diffusion models की बुनियाद और तीनों दृष्टिकोणों की उत्पत्ति व उनके संबंधों का संक्षेप
    • आगे के अध्यायों में efficient sampling, controllable generation, और standalone generative models तक विस्तार पर चर्चा
  • हर अध्याय को अलग-अलग भी पढ़ा जा सकता है, और जिन पाठकों को बुनियादी अवधारणाओं की जानकारी है वे VAE, EBM, Normalizing Flow से जुड़े प्रारंभिक भागों को छोड़ सकते हैं

आभार

  • University of Seoul और KIAS के Professor Do-Hyun Kwon ने अध्याय 7 के कुछ हिस्सों की समीक्षा की और गणितीय सटीकता व अभिव्यक्ति सुधारने में योगदान दिया
  • उनकी feedback और चर्चाओं से अंतिम पांडुलिपि की गुणवत्ता बेहतर हुई

1 टिप्पणियां

 
GN⁺ 2025-11-11
Hacker News की राय
  • अगर आप वीडियो से सीखना पसंद करते हैं, तो Stefano Ermon के CS236 Deep Generative Models लेक्चर की सिफारिश है
    सभी लेक्चर YouTube playlist में देखे जा सकते हैं, और लेक्चर सामग्री official site पर व्यवस्थित है

    • यह अफसोस की बात है कि Stanford अब यह CS236 कोर्स नहीं चलाता। इसे खुले हुए पहले ही 2 साल हो चुके हैं
  • यह सोचकर हैरानी होती है कि क्या यह पोस्ट कुछ दिन पहले मेरे द्वारा डाली गई पोस्ट की duplicate post तो नहीं है
    पिछली पोस्ट का लिंक

    • हाँ, यह duplicate है, लेकिन कुछ मामलों में इसकी अनुमति होती है
      HN FAQ के अनुसार, जिन लेखों पर 1 साल से ज़्यादा समय तक ध्यान नहीं गया हो, उन्हें सीमित रूप से फिर से पोस्ट किया जा सकता है
      और, moderation से जुड़े सवाल टिप्पणियों की जगह hn@ycombinator.com पर भेजने चाहिए
  • दस्तावेज़ में "Fokker-Planck" खोजा तो यह 97 बार मिला
    मुझे लगा, इतना काफी है कि इसे पढ़ा जाए

    • लेकिन मुझे तो सिर्फ 26 बार मिला। इसका पैमाना क्या है? हँसी आती है :D
  • क्या किसी के पास transformer पर भी इसी दायरे और गहराई वाली कोई सामग्री है, यह जानने की जिज्ञासा है

  • इसमें गणित इतना ज़्यादा है कि सच कहूँ तो थोड़ा डर लग रहा है

    • “scared” नहीं, “scated” होना चाहिए क्या, ऐसा मज़ाक किया गया
  • यह लेख पढ़ते हुए लगता है कि आजकल का AI वास्तव में बुद्धिमान होने से ज़्यादा brute force के करीब है
    शायद मानव मस्तिष्क भी पूरी ज़िंदगी brute-force करने वाली मशीन ही हो
    लेकिन artificial intelligence आखिरकार artificial flavor की तरह बिना आत्मा का नतीजा लगता है

    • लगता है शायद आप physicist हैं। RG flow को उल्टा चलाने की प्रक्रिया में भी अपनी तरह की खूबसूरती है
      statistics की ताकत गहरी संरचना और चयन पर आधारित होती है
    • “हमेशा” कहना बहुत निर्णायक है। कभी न कभी यह बेहतर भी हो सकता है
    • मेरा मानना है कि intelligence वही manifold है जिसे ऐसे brute-force algorithms सीखते हैं
      इंसान पूरी ज़िंदगी brute-force नहीं करते, लेकिन evolution ने अरबों साल में उसकी संरचना बनाई है
      और उसके ऊपर लाखों सालों में एक meta-learning algorithm को संपीड़ित कर दिया है
  • 470 पेज?! यह तो इतना ज़्यादा है कि एक पल के लिए दिमाग सुन्न हो गया 😆