8 पॉइंट द्वारा GN⁺ 2024-08-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Black Forest Labs द्वारा विकसित सबसे बड़ा SOTA ओपन सोर्स text-to-image मॉडल
    • Stable Diffusion को विकसित करने वाली मूल टीम
  • 12B पैरामीटर के साथ रचनात्मकता और प्रदर्शन की सीमाओं का विस्तार करता है, और Midjourney जैसी image generation क्षमताएँ प्रदान करता है

3 मॉडलों में उपलब्ध

  • FLUX.1 [dev]: non-commercial license के तहत open source किया गया बेस मॉडल। कम्युनिटी इसके आधार पर निर्माण कर सकती है
  • FLUX.1 [schnell]: बेस मॉडल का distilled version, जो अधिकतम 10 गुना तेज़ काम करता है। Apache 2 license.
  • FLUX.1 [pro]: केवल API के माध्यम से उपलब्ध private version

प्रमुख विशेषताएँ

  • बेहतर image quality: high-resolution में शानदार visuals बना सकता है
  • उन्नत human anatomy और photorealism: बेहद वास्तविक और शारीरिक रूप से सटीक images बना सकता है
  • बेहतर prompt adherence: input के आधार पर अधिक सटीक और प्रासंगिक images बना सकता है
  • उत्कृष्ट speed: Flux Schnell की speed और efficiency, high-demand applications के लिए आदर्श

fal का integration

  • fal के state-of-the-art inference engine के integration से Flux मॉडल को eager torch की तुलना में अधिकतम 2 गुना तेज़ चलाया जा सकता है
  • तेज़ processing time के साथ बेहतरीन quality और detail बनाए रखता है

GN⁺ का सार

  • Flux, Black Forest Labs द्वारा विकसित नया text-to-image मॉडल है, जो रचनात्मकता और प्रदर्शन के लिए नया मानक स्थापित करता है
  • अलग-अलग variant models के माध्यम से विभिन्न use cases के लिए अनुकूलित solutions प्रदान करता है
  • बेहतर image quality और यथार्थवादी अभिव्यक्ति के कारण high-demand applications के लिए उपयुक्त है
  • fal के inference engine के माध्यम से और भी तेज़ तथा अधिक efficient model execution संभव है
  • समान क्षमताओं वाले अन्य प्रोजेक्ट्स में DALL-E और Midjourney शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-08-02
Hacker News की राय
  • burkay from fal.ai: यह मॉडल fal ने नहीं बनाया है, बल्कि Black Forest Labs ने बनाया है

    • fal.ai इस मॉडल को एक optimized inference engine पर चलाता है, जिससे यह बहुत तेज़ काम करता है
    • आप इस मॉडल को playground में आज़मा सकते हैं
    • [schnell] मॉडल Apache लाइसेंस के तहत Hugging Face पर open source के रूप में उपलब्ध है
    • text rendering बहुत तेज़ और बेहतरीन है, और इसमें एक text encoder है जो text और position को बेहतर ढंग से संभाल सकता है
    • text rendering बेहतर होने पर training data के text watermark अधिक स्पष्ट दिखाई देते हैं
    • मॉडल को आज़माने के लिए लिंक दिए गए हैं
      • FLUX.1 [schnell]: Apache 2.0, open weights, step distillation
      • FLUX.1 [dev]: non-commercial, open weights, guided distillation (login आवश्यक)
      • FLUX.1 [pro]: closed source, SOTA, raw data (केवल API के माध्यम से उपयोग संभव)
  • एक अन्य उपयोगकर्ता: ज़्यादातर comparisons नए मॉडल को ठीक से test नहीं करते

    • मौजूदा बाज़ार में prompt adherence के मामले में DALL-E 3 सबसे अच्छा है, लेकिन complex concepts में अभी भी कमज़ोर है और censorship भी बहुत है
    • Flux और DALL-E 3 की तुलना में Flux प्रभावशाली और उच्च-प्रदर्शन वाला निकला
    • comparison के नतीजे ब्लॉग पर पोस्ट किए गए हैं
  • एक अन्य उपयोगकर्ता: ideogram के prompts का उपयोग करके test किया, और Flux ने बहुत अच्छी images बनाई

    • ideogram इस्तेमाल किया है, लेकिन उसके filters पसंद नहीं आए
    • अगर इसे local पर चला सकें, तो image quality और prompt adherence के मामले में यह बहुत क़रीब है
    • जब text जटिल होता है, तो यह उसे साफ़ तौर पर लिख नहीं पाता
    • उदाहरण के तौर पर ideogram image का prompt दिया गया है
    • stable diffusion models का इस्तेमाल बहुत पहले बंद कर दिया था, क्योंकि तकनीक इतनी जटिल हो गई कि मज़ा ख़त्म हो गया
    • filters के बिना local पर चल सकने वाला ideogram जैसा system चाहिए
    • यह मॉडल बहुत अच्छा है
  • एक अन्य उपयोगकर्ता: हर नए मॉडल को देखते समय यह जाँचता हूँ कि क्या वह engineering diagrams बना सकता है

    • यह मॉडल अभी engineering diagrams को अच्छी तरह संभाल नहीं पाता
    • उम्मीद है कि AI कंपनियाँ engineering diagram की समस्या हल करेंगी
    • संभव है कि यह मौजूदा training dataset में शामिल ही न रहा हो
    • synthetic dataset/benchmark बनाना चाहता हूँ
  • एक अन्य उपयोगकर्ता: signup process झंझटभरा है

    • Github account बनाते समय अभी error आ रहा था, इसलिए दो बार कोशिश करनी पड़ी और दो browsers इस्तेमाल करने पड़े
  • एक अन्य उपयोगकर्ता: venture funding पाने वाले startups बिना किसी business model के लगातार मुफ्त मॉडल जारी कर रहे हैं

    • open source का समर्थन करता हूँ, लेकिन चिंता है कि यह लंबे समय में sustainable नहीं होगा
  • एक अन्य उपयोगकर्ता: गुणवत्ता प्रभावशाली है

  • एक अन्य उपयोगकर्ता: spatial relations को यह अच्छी तरह नहीं संभाल पाता

    • "उल्टा घर" -> सामान्य घर
    • "कुत्ते के ऊपर बैठा घोड़ा" -> घोड़ा और कुत्ता साथ-साथ दिखते हैं
    • "उल्टा Lockheed Martin F-22 Raptor" -> गलत परिणाम