Diffusion Forcing
Diffusion Forcing का परिचय
- "Diffusion Forcing" नाम "teacher forcing" और "diffusion models" से लिया गया है
- Diffusion Forcing next-token prediction model और full-sequence diffusion model, दोनों की प्रमुख खूबियों का उपयोग कर सकता है
- एक ही training के साथ यह अलग-अलग sampling time पर लचीले ढंग से काम कर सकता है
Diffusion Forcing कैसे काम करता है
- sequence diffusion को train किया जाता है, लेकिन हर token पर अलग noise level लागू किया जाता है
- diffusion के noise को masking के अलग-अलग स्तरों के रूप में देखा जा सकता है
- sampling time पर sequence के अलग-अलग हिस्सों में अलग noise level इस्तेमाल करके लचीला व्यवहार हासिल किया जा सकता है
वीडियो prediction
- Diffusion Forcing का उपयोग करने वाला वीडियो prediction स्थिर और सुसंगत परिणाम देता है
- DMLab और Minecraft dataset में Diffusion Forcing ने मौजूदा तरीकों से बेहतर प्रदर्शन दिखाया
sliding window के बिना infinite rollout stabilization
- Diffusion Forcing, trained maximum sequence length से कहीं लंबे वीडियो roll out कर सकता है
- sliding window के बिना RNN को roll out किया जा सकता है
- DMLab और Minecraft dataset में 2000 से अधिक frames तक rollout संभव है
Diffusion Planning
- Diffusion Forcing test time guidance का उपयोग करके planner के रूप में इस्तेमाल किया जा सकता है
- हर token को [a_t, o_{t+1}] के रूप में परिभाषित करके causal relationship को स्पष्ट रूप से model किया जाता है
- नया observation मिलने के बाद posterior inference के जरिए update किया जा सकता है
दीर्घकालिक imitation learning
- कई वास्तविक कार्य Markov property नहीं रखते और long-term memory की आवश्यकता होती है
- robot arm द्वारा दो fruit slots को swap करने वाले कार्य में सफल परिणाम दिखाए गए
- Diffusion Forcing test time पर unseen distractors के प्रति robust तरीके से काम कर सकता है
GN⁺ की राय
- Diffusion Forcing next-token prediction model और full-sequence diffusion model के फायदों को जोड़कर flexible sampling संभव बनाता है
- वीडियो prediction और rollout में यह मौजूदा तरीकों से बेहतर प्रदर्शन दिखाता है, जिससे व्यावहारिक उपयोग की संभावना बढ़ती है
- दीर्घकालिक imitation learning में इसकी सफलता, Diffusion Forcing की मजबूत feedback control क्षमता को दिखाती है
- Diffusion Forcing का stabilization effect अलग-अलग sequence length में इसके उपयोग की संभावना बढ़ाता है
- नई तकनीक अपनाते समय model complexity और computation cost पर विचार करना चाहिए
1 टिप्पणियां
Hacker News राय
sequence masking आइडिया और diffusion model को मिलाने वाला एक नया approach प्रस्तावित किया गया है
यह जानने की उत्सुकता है कि क्या कोई ऐसा research या tool है जो बिना नई pre-training के मौजूदा text generation LLMs को diffusion techniques के साथ जोड़ सके
Russ diffusion पर रिसर्च कर रहे हैं; यह robotics में बहुत लागू होने योग्य लगता है
इस क्षेत्र में काम करने वाले व्यक्ति के रूप में, यह रिसर्च बहुत ही दुरूह ढंग से प्रस्तुत की गई है
यह जानना है कि क्या training time के बारे में कुछ छूट गया; हर token पर noise जोड़ने से क्या training बहुत धीमी हो जाती है
रिसर्च बहुत शानदार है, लेकिन यह जानना है कि इसे 'diffusion forcing' क्यों कहा जाता है