• Alibaba का इमेज जनरेशन मॉडल, जो Nano Banana Pro-स्तर का प्रदर्शन दिखाता है, Apache 2.0 लाइसेंस के तहत ओपन सोर्स है
  • Single-Stream Diffusion Transformer पर आधारित 6B पैरामीटर वाला कुशल इमेज जनरेशन मॉडल
  • यह तीन वर्ज़न में आता है, और Z-Image-Turbo सिर्फ 8-step inference में प्रतिस्पर्धी मॉडलों जैसी क्वालिटी हासिल करता है, साथ ही 16GB VRAM वातावरण में भी चलता है
  • Z-Image-Edit प्राकृतिक भाषा निर्देशों पर आधारित इमेज एडिटिंग फीचर देता है, और Z-Image-Base को कम्युनिटी fine-tuning के लिए बेस मॉडल के रूप में जारी किया जाएगा
  • मॉडल S3-DiT architecture अपनाता है, जो text, visual और VAE tokens को एक single sequence में एकीकृत करके parameter efficiency को अधिकतम करता है
  • Decoupled-DMD और DMDR algorithms के जरिए कम steps में भी high-quality images बनाता है, और ओपन सोर्स मॉडलों में शीर्ष स्तर का प्रदर्शन दर्ज करता है

Z-Image परिचय

  • Z-Image एक फाउंडेशन इमेज जनरेशन मॉडल है, जिसमें efficiency और performance दोनों हैं, और यह single-stream diffusion transformer संरचना का उपयोग करता है
  • यह 6 अरब parameters पर आधारित है और Z-Image-Turbo, Z-Image-Base, Z-Image-Edit नाम के तीन variant models देता है
    • Z-Image-Turbo: सिर्फ 8 NFE के साथ high-quality images बनाता है, और H800 GPU पर 1 सेकंड से कम inference latency देता है
    • Z-Image-Base: non-distilled base model, जो कम्युनिटी-आधारित fine-tuning और custom development को सपोर्ट करता है
    • Z-Image-Edit: इमेज एडिटिंग के लिए विशेष रूप से तैयार वर्ज़न, जो प्राकृतिक भाषा आधारित इमेज ट्रांसफॉर्मेशन देता है

मुख्य फीचर्स और प्रदर्शन

  • Z-Image-Turbo फोटो-स्तर की यथार्थवादी इमेज और अंग्रेज़ी-चीनी bilingual text rendering को सटीक रूप से संभालता है
  • Prompt Enhancer फीचर के जरिए reasoning और world knowledge आधारित वर्णन क्षमता को मजबूत करता है
  • Z-Image-Edit creative image transformation और निर्देशों की सटीक समझ को सपोर्ट करता है
  • Alibaba AI Arena की Elo-आधारित human preference evaluation में ओपन सोर्स मॉडलों में शीर्ष स्तर का प्रदर्शन दर्ज किया

मॉडल आर्किटेक्चर (S3-DiT)

  • Scalable Single-Stream DiT(S3-DiT) संरचना अपनाई गई है
    • text, visual semantic tokens और image VAE tokens को एक sequence में जोड़ा जाता है
    • पारंपरिक dual-stream संरचना की तुलना में parameter efficiency को अधिकतम करता है
  • यह संरचना text-image integrated representation learning को संभव बनाती है

मुख्य algorithms

  • Decoupled-DMD

    • Decoupled-DMD वह मुख्य distillation algorithm है, जो Z-Image में 8-step inference को संभव बनाता है
    • मौजूदा DMD(Distribution Matching Distillation) को CFG augmentation(CA) और distribution matching(DM), इन दो mechanisms में विभाजित किया गया है
      • CA distillation process का मुख्य engine है
      • DM output stability और quality बनाए रखने के लिए regularization की भूमिका निभाता है
    • इन दोनों mechanisms को अलग करके optimize करने से कम steps में भी high-performance image generation हासिल होता है
  • DMDR

    • DMDR(Distribution Matching Distillation with Reinforcement Learning) एक post-processing technique है, जो DMD को reinforcement learning(RL) के साथ जोड़ती है
    • RL, DMD के प्रदर्शन को अधिकतम करता है, और DMD, RL को regularize करता है — यानी दोनों एक-दूसरे के पूरक हैं
    • इससे semantic alignment, aesthetic quality, structural consistency बेहतर होते हैं, और high-frequency detail expression मजबूत होती है

कम्युनिटी और ecosystem support

  • Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism के जरिए inference acceleration support
  • stable-diffusion.cpp: C++ आधारित इंजन, जिससे 4GB VRAM वातावरण में भी Z-Image चल सकता है
  • LeMiCa: training के बिना timestep-level inference acceleration देता है
  • ComfyUI ZImageLatent: आधिकारिक resolution के लिए सरल latent interface देता है

सारांश

  • Z-Image एक high-performance open source image generation model है, जो efficient architecture(S3-DiT) और innovative distillation techniques(Decoupled-DMD, DMDR) को जोड़ता है
  • Z-Image-Turbo तेज inference और high quality दोनों एक साथ देता है, और consumer-grade GPU पर भी चल सकता है
  • Z-Image-Edit प्राकृतिक भाषा आधारित सटीक इमेज एडिटिंग को सपोर्ट करता है
  • Alibaba AI Arena में इसने ओपन सोर्स मॉडलों के बीच शीर्ष स्तर का human preference score दर्ज किया
  • Z-Image ecosystem कई कम्युनिटी प्रोजेक्ट्स के साथ integrated है और एक general-purpose generative model platform के रूप में विस्तार कर रहा है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.