1 पॉइंट द्वारा GN⁺ 2024-07-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Diffusion Forcing

Diffusion Forcing का परिचय

  • "Diffusion Forcing" नाम "teacher forcing" और "diffusion models" से लिया गया है
  • Diffusion Forcing next-token prediction model और full-sequence diffusion model, दोनों की प्रमुख खूबियों का उपयोग कर सकता है
  • एक ही training के साथ यह अलग-अलग sampling time पर लचीले ढंग से काम कर सकता है

Diffusion Forcing कैसे काम करता है

  • sequence diffusion को train किया जाता है, लेकिन हर token पर अलग noise level लागू किया जाता है
  • diffusion के noise को masking के अलग-अलग स्तरों के रूप में देखा जा सकता है
  • sampling time पर sequence के अलग-अलग हिस्सों में अलग noise level इस्तेमाल करके लचीला व्यवहार हासिल किया जा सकता है

वीडियो prediction

  • Diffusion Forcing का उपयोग करने वाला वीडियो prediction स्थिर और सुसंगत परिणाम देता है
  • DMLab और Minecraft dataset में Diffusion Forcing ने मौजूदा तरीकों से बेहतर प्रदर्शन दिखाया

sliding window के बिना infinite rollout stabilization

  • Diffusion Forcing, trained maximum sequence length से कहीं लंबे वीडियो roll out कर सकता है
  • sliding window के बिना RNN को roll out किया जा सकता है
  • DMLab और Minecraft dataset में 2000 से अधिक frames तक rollout संभव है

Diffusion Planning

  • Diffusion Forcing test time guidance का उपयोग करके planner के रूप में इस्तेमाल किया जा सकता है
  • हर token को [a_t, o_{t+1}] के रूप में परिभाषित करके causal relationship को स्पष्ट रूप से model किया जाता है
  • नया observation मिलने के बाद posterior inference के जरिए update किया जा सकता है

दीर्घकालिक imitation learning

  • कई वास्तविक कार्य Markov property नहीं रखते और long-term memory की आवश्यकता होती है
  • robot arm द्वारा दो fruit slots को swap करने वाले कार्य में सफल परिणाम दिखाए गए
  • Diffusion Forcing test time पर unseen distractors के प्रति robust तरीके से काम कर सकता है

GN⁺ की राय

  • Diffusion Forcing next-token prediction model और full-sequence diffusion model के फायदों को जोड़कर flexible sampling संभव बनाता है
  • वीडियो prediction और rollout में यह मौजूदा तरीकों से बेहतर प्रदर्शन दिखाता है, जिससे व्यावहारिक उपयोग की संभावना बढ़ती है
  • दीर्घकालिक imitation learning में इसकी सफलता, Diffusion Forcing की मजबूत feedback control क्षमता को दिखाती है
  • Diffusion Forcing का stabilization effect अलग-अलग sequence length में इसके उपयोग की संभावना बढ़ाता है
  • नई तकनीक अपनाते समय model complexity और computation cost पर विचार करना चाहिए

1 टिप्पणियां

 
GN⁺ 2024-07-06
Hacker News राय
  • sequence masking आइडिया और diffusion model को मिलाने वाला एक नया approach प्रस्तावित किया गया है

    • हर pixel के 'अनिश्चितता' स्तर को ट्रैक करके उसे diffusion model के 'noise' स्तर के रूप में इस्तेमाल किया जाता है
    • इमेज के कुछ खास हिस्सों को पहले तय किया जा सकता है, इसलिए इसका उपयोग maze solving जैसी चीज़ों में हो सकता है
    • इसका उपयोग robotic arm को नियंत्रित करने में भी किया गया है
    • शीर्षक इस आइडिया को कम करके दिखाता है; यह मूल रूप से 'fractional masking' करने का तरीका है
    • codebase को लेकर बहुत जिज्ञासा है; जैसे maze tracking task और video extension task को कैसे सेटअप किया जाता है, robotic arm को कैसे जोड़ा जाता है, आदि
    • architecture खुद भी और रिसर्च व व्याख्या की मांग करता है
  • यह जानने की उत्सुकता है कि क्या कोई ऐसा research या tool है जो बिना नई pre-training के मौजूदा text generation LLMs को diffusion techniques के साथ जोड़ सके

    • Tree of Thoughts और MCTS जैसे मिलते-जुलते approaches हैं, लेकिन तलाश कुछ ऐसी चीज़ की है जो token-level generation के ज्यादा करीब हो
    • यह भी जिज्ञासा है कि क्या यह छोटे GPT / Phi 3 / Gwen models के साथ काम कर सकता है
  • Russ diffusion पर रिसर्च कर रहे हैं; यह robotics में बहुत लागू होने योग्य लगता है

  • इस क्षेत्र में काम करने वाले व्यक्ति के रूप में, यह रिसर्च बहुत ही दुरूह ढंग से प्रस्तुत की गई है

    • यह स्पष्ट नहीं है कि हल की जाने वाली समस्या क्या है, और क्या यह कोई नया generative model प्रस्तावित कर रही है
  • यह जानना है कि क्या training time के बारे में कुछ छूट गया; हर token पर noise जोड़ने से क्या training बहुत धीमी हो जाती है

    • शानदार पेपर है
  • रिसर्च बहुत शानदार है, लेकिन यह जानना है कि इसे 'diffusion forcing' क्यों कहा जाता है