Flux - 12B पैरामीटर वाला ओपन सोर्स Text-To-Image मॉडल

(blog.fal.ai)

8 पॉइंट द्वारा GN⁺ 2024-08-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Black Forest Labs द्वारा विकसित सबसे बड़ा SOTA ओपन सोर्स text-to-image मॉडल
- Stable Diffusion को विकसित करने वाली मूल टीम
12B पैरामीटर के साथ रचनात्मकता और प्रदर्शन की सीमाओं का विस्तार करता है, और Midjourney जैसी image generation क्षमताएँ प्रदान करता है

3 मॉडलों में उपलब्ध

FLUX.1 [dev]: non-commercial license के तहत open source किया गया बेस मॉडल। कम्युनिटी इसके आधार पर निर्माण कर सकती है
FLUX.1 [schnell]: बेस मॉडल का distilled version, जो अधिकतम 10 गुना तेज़ काम करता है। Apache 2 license.
FLUX.1 [pro]: केवल API के माध्यम से उपलब्ध private version

प्रमुख विशेषताएँ

बेहतर image quality: high-resolution में शानदार visuals बना सकता है
उन्नत human anatomy और photorealism: बेहद वास्तविक और शारीरिक रूप से सटीक images बना सकता है
बेहतर prompt adherence: input के आधार पर अधिक सटीक और प्रासंगिक images बना सकता है
उत्कृष्ट speed: Flux Schnell की speed और efficiency, high-demand applications के लिए आदर्श

fal का integration

fal के state-of-the-art inference engine के integration से Flux मॉडल को eager torch की तुलना में अधिकतम 2 गुना तेज़ चलाया जा सकता है
तेज़ processing time के साथ बेहतरीन quality और detail बनाए रखता है

GN⁺ का सार

Flux, Black Forest Labs द्वारा विकसित नया text-to-image मॉडल है, जो रचनात्मकता और प्रदर्शन के लिए नया मानक स्थापित करता है
अलग-अलग variant models के माध्यम से विभिन्न use cases के लिए अनुकूलित solutions प्रदान करता है
बेहतर image quality और यथार्थवादी अभिव्यक्ति के कारण high-demand applications के लिए उपयुक्त है
fal के inference engine के माध्यम से और भी तेज़ तथा अधिक efficient model execution संभव है
समान क्षमताओं वाले अन्य प्रोजेक्ट्स में DALL-E और Midjourney शामिल हैं

1 टिप्पणियां

GN⁺ 2024-08-02

Hacker News की राय

burkay from fal.ai: यह मॉडल fal ने नहीं बनाया है, बल्कि Black Forest Labs ने बनाया है
- fal.ai इस मॉडल को एक optimized inference engine पर चलाता है, जिससे यह बहुत तेज़ काम करता है
- आप इस मॉडल को playground में आज़मा सकते हैं
- [schnell] मॉडल Apache लाइसेंस के तहत Hugging Face पर open source के रूप में उपलब्ध है
- text rendering बहुत तेज़ और बेहतरीन है, और इसमें एक text encoder है जो text और position को बेहतर ढंग से संभाल सकता है
- text rendering बेहतर होने पर training data के text watermark अधिक स्पष्ट दिखाई देते हैं
- मॉडल को आज़माने के लिए लिंक दिए गए हैं
  - FLUX.1 [schnell]: Apache 2.0, open weights, step distillation
  - FLUX.1 [dev]: non-commercial, open weights, guided distillation (login आवश्यक)
  - FLUX.1 [pro]: closed source, SOTA, raw data (केवल API के माध्यम से उपयोग संभव)
एक अन्य उपयोगकर्ता: ज़्यादातर comparisons नए मॉडल को ठीक से test नहीं करते
- मौजूदा बाज़ार में prompt adherence के मामले में DALL-E 3 सबसे अच्छा है, लेकिन complex concepts में अभी भी कमज़ोर है और censorship भी बहुत है
- Flux और DALL-E 3 की तुलना में Flux प्रभावशाली और उच्च-प्रदर्शन वाला निकला
- comparison के नतीजे ब्लॉग पर पोस्ट किए गए हैं
एक अन्य उपयोगकर्ता: ideogram के prompts का उपयोग करके test किया, और Flux ने बहुत अच्छी images बनाई
- ideogram इस्तेमाल किया है, लेकिन उसके filters पसंद नहीं आए
- अगर इसे local पर चला सकें, तो image quality और prompt adherence के मामले में यह बहुत क़रीब है
- जब text जटिल होता है, तो यह उसे साफ़ तौर पर लिख नहीं पाता
- उदाहरण के तौर पर ideogram image का prompt दिया गया है
- stable diffusion models का इस्तेमाल बहुत पहले बंद कर दिया था, क्योंकि तकनीक इतनी जटिल हो गई कि मज़ा ख़त्म हो गया
- filters के बिना local पर चल सकने वाला ideogram जैसा system चाहिए
- यह मॉडल बहुत अच्छा है
एक अन्य उपयोगकर्ता: हर नए मॉडल को देखते समय यह जाँचता हूँ कि क्या वह engineering diagrams बना सकता है
- यह मॉडल अभी engineering diagrams को अच्छी तरह संभाल नहीं पाता
- उम्मीद है कि AI कंपनियाँ engineering diagram की समस्या हल करेंगी
- संभव है कि यह मौजूदा training dataset में शामिल ही न रहा हो
- synthetic dataset/benchmark बनाना चाहता हूँ
एक अन्य उपयोगकर्ता: signup process झंझटभरा है
- Github account बनाते समय अभी error आ रहा था, इसलिए दो बार कोशिश करनी पड़ी और दो browsers इस्तेमाल करने पड़े
एक अन्य उपयोगकर्ता: venture funding पाने वाले startups बिना किसी business model के लगातार मुफ्त मॉडल जारी कर रहे हैं
- open source का समर्थन करता हूँ, लेकिन चिंता है कि यह लंबे समय में sustainable नहीं होगा
एक अन्य उपयोगकर्ता: गुणवत्ता प्रभावशाली है
एक अन्य उपयोगकर्ता: spatial relations को यह अच्छी तरह नहीं संभाल पाता
- "उल्टा घर" -> सामान्य घर
- "कुत्ते के ऊपर बैठा घोड़ा" -> घोड़ा और कुत्ता साथ-साथ दिखते हैं
- "उल्टा Lockheed Martin F-22 Raptor" -> गलत परिणाम

Flux - 12B पैरामीटर वाला ओपन सोर्स Text-To-Image मॉडल

3 मॉडलों में उपलब्ध

प्रमुख विशेषताएँ

fal का integration

GN⁺ का सार

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय