9 पॉइंट द्वारा xguru 2024-02-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Stable Diffusion 3 अभी तक का सबसे उन्नत टेक्स्ट-टू-इमेज मॉडल है, जो मल्टी-पॉइंट/मल्टी-थीम prompts, इमेज क्वालिटी और टेक्स्ट स्पेलिंग क्षमता में उल्लेखनीय सुधार देता है
  • अभी व्यापक रूप से उपलब्ध नहीं है, लेकिन Early Preview के लिए वेटलिस्ट साइन-अप शुरू कर दी गई है
  • यह प्रीव्यू चरण, पिछली मॉडलों की तरह, परफॉर्मेंस और सेफ्टी सुधारने के लिए आवश्यक insights निकालने में महत्वपूर्ण है

मॉडल रेंज और तकनीक

  • Stable Diffusion 3 मॉडल सूट 800M से 8B parameters के रेंज में आता है
  • यह एप्रोच कोर वैल्यू से मेल खाती है और सभी के लिए access आसान करने के लक्ष्य के साथ उपयोगकर्ताओं की क्रिएटिव जरूरतों के लिए सबसे उपयुक्त स्केलेबिलिटी तथा क्वालिटी विकल्प प्रदान करती है
  • SD3 में Diffusion Transformer architecture और Flow Matching को combine किया गया है
  • विस्तृत तकनीकी रिपोर्ट जल्द ही जारी की जाएगी

सुरक्षित और जिम्मेदार AI प्रैक्टिस

  • यह सुरक्षित और जिम्मेदार AI practices को बेहद अहम मानता है।
  • Stable Diffusion 3 के misuse को रोकने के लिए वाजिब safety measures लागू किए जा रहे हैं, जो मॉडल ट्रेनिंग के शुरुआत से लेकर testing, evaluation और deployment तक लगातार चलते रहते हैं
  • शुरुआती प्रीव्यू के लिए कई safety layers लागू किए जा रहे हैं
  • शोधकर्ताओं, विशेषज्ञों और community के साथ निरंतर सहयोग के जरिए, मॉडल के सार्वजनिक रिलीज़ के साथ और अधिक innovation की उम्मीद की जा रही है

प्रतिबद्धता और क्रिएटिविटी को सक्षम बनाना

  • जनरेटिव AI को खुला, सुरक्षित और व्यापक रूप से accessible बनाने की प्रतिबद्धता दृढ़ है
  • Stable Diffusion 3 के जरिए व्यक्तियों, डेवलपर्स और कंपनियों को अपनी रचनात्मकता आगे बढ़ाने के लिए अनुकूलनशील समाधान देने का लक्ष्य है
  • यदि Stable Diffusion 3 रिलीज़ से पहले अन्य इमेज मॉडल का commercial use करना हो तो आप Stability AI की सदस्यता पेज पर जाकर या developer platform के ज़रिए API access ले सकते हैं

1 टिप्पणियां

 
xguru 2024-02-23

Hacker News टिप्पणी

  • नया diffusion transformer इस्तेमाल किया गया है, जिसमें flow-matching और अन्य सुधार शामिल हैं।

    • transformer सुधारों के साथ इसे और ज्यादा स्केल किया जा सकता है और मल्टी‑मोडल इनपुट संभाला जा सकता है।
    • बेहतर quality और safety देने के लिए इसे पूरी टूल इकोसिस्टम के साथ जल्द जारी किया जाएगा।
    • यह नवीनतम हार्डवेयर को leverage करने वाला नया बेस है और सभी साइज में उपलब्ध होगा।
    • वीडियो, 3D आदि संभव बनेंगे।
    • ज्यादा GPU की जरूरत पड़ेगी।
    • तकनीकी विवरण जल्द ही साझा किए जाएँगे।
    • पर्याप्त GPU और अच्छे डेटा हों तो Sora जैसी वीडियो जेनरेशन संभव होगी।
    • 8M से 8B parameters तक कई sizes में उपलब्ध होने से सभी तरह के GPU पर काम करेगा।
  • सुरक्षा पर इतना जोर शायद हालिया Gemini incident को देखते हुए मार्केटिंग का मौका गंवाने जैसा है।

    • safety इतनी कठोर लगती है कि अधिकांश images धुंधली आ रही हैं, और जो prompts पहले versions में ठीक काम करते थे, वे SDXL में blurry आते हैं।
    • अगर अगली version भी ऐसी ही रही तो मैं Stability API का इस्तेमाल बंद कर दूँगा।
    • क्या कोई दूसरा text-to-image service ऐसा है जो Stable Diffusion के आसपास की value/quality दे और ज्यादा blur न हो?
  • मौजूदा censorship माहौल को देखते हुए इस बार 'safety' का मतलब क्या निकलेगा, यह देखना दिलचस्प होगा।

    • DallE से गेम एसेट के लिए हथियार की image बनाने की कोशिश की तो काफी दिक्कत हुई।
  • रिलीज़ नोट का लगभग आधा हिस्सा यह बताने में गया है कि 'we are truly responsible and safe'।

  • डेमो images सभी 'artwork' हैं।

    • क्या model photos, technical drawings और अन्य graphic media भी अच्छे से generate कर पाता है, यह देखना चाहूँगा।
  • text/spelling में बड़ा सुधार है।

  • उन्होंने 'safety' वाला हिस्सा दोबारा लिखा लेकिन AI tool की जगह एक imaginary 'Big Knife' डाल दिया।

    • "हम सुरक्षित और जिम्मेदार knife-usage में भरोसा करते हैं। यानी हमने bad actors द्वारा Big Knife के misuse को रोकने के लिए reasonable steps लिए हैं।"