4 पॉइंट द्वारा GN⁺ 2025-08-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Krea 1 का पहला इमेज मॉडल FLUX.1 Krea नाम के ओपन-वेट्स संस्करण के रूप में सार्वजनिक किया गया
  • पहले के इमेज जेनरेशन मॉडल्स से अलग, इसे स्पष्ट सौंदर्यात्मक रुचि और फोटो-रियलिज़्म पर फोकस करके "AI जैसा न दिखने वाली" तस्वीरें बनाने के उद्देश्य से डिज़ाइन किया गया है
  • यह विश्लेषण किया गया कि मौजूदा बेंचमार्क और वैल्यूएशन मीट्रिक्स वास्तविक उपयोगकर्ता की अपेक्षित एस्थेटिक सेंस से अलग पड़ जाते हैं, इसलिए इसे दूर करने हेतु प्रत्यक्ष रूप से क्यूरेट किया गया डेटा और opinionated aesthetics अर्थात् रुचि-केंद्रित एस्थेटिक बायस लागू किया गया
  • प्रि-ट्रेनिंग (pre-training) और पोस्ट-ट्रेनिंग (post-training) को अलग चरणों में रखकर विविधता सुनिश्चित करने वाला और स्पष्ट शैली में कंवर्ज़ होने वाला चरण व्यवस्थित तरीके से लागू किया गया
  • आगे चलकर पर्सनलाइज़ेशन/पर्सनलाइज़ेशन-टिल्ट रिसर्च और अधिक व्यापक विजुअल डोमेन व क्रिएटर सपोर्ट फीचर्स को मजबूत करने की योजना है

FLUX.1 Krea ओपन सोर्स रिलीज़

  • Krea 1 Black Forest Labs के साथ संयुक्त रूप से ट्रेन्ड (trained) पहला इमेज जेनरेशन मॉडल है, जिसका लक्ष्य बेहतर एस्थेटिक कंट्रोल और इमेज क्वालिटी प्रदान करना है
  • FLUX.1 Krea [dev] को ओपन-वेट्स के रूप में जारी किया गया है और यह मौजूदा FLUX.1-dev इकोसिस्टम के साथ पूरी तरह कम्पैटिबल है
  • यह मॉडल फोटो-रियलिस्टिक और एस्थेटिक दोनों एंगल्स को मैक्सिमाइज़ करते हुए, विशिष्ट एस्थेटिक रुचि को दर्शाने के लिए opinionated aesthetics दिशा अपनाता है

"AI Look" फेनोमेनन और लिमिटेशन

  • पुराने AI-जनित इमेज अक्सर अतिशय धुंधला बैकग्राउंड, वैक्स जैसे स्किन टोन और सपाट कंपोज़िशन जैसी तथाकथित "AI look" प्रवृत्ति दिखाते हैं
  • बेंचमार्क ऑप्टिमाइज़ेशन और टेक्निकल मीट्रिक्स पर ज़्यादा फोकस होने से वास्तविक जैसी टेक्सचर, शैली विविधता और क्रिएटिव आउटपुट की बलि चढ़ जाती है
  • वास्तविक यूज़र प्रेफरेंस को पकड़ न पाने वाले मौजूदा वैल्यूएशन मॉडल की सीमा
    • प्रि-ट्रेनिंग चरण में इस्तेमाल होने वाले Fréchet Inception Distance (FID) और CLIP Score मॉडल की कुल प्रदर्शन क्षमता नापने में मददगार हैं
    • अकैडमिक और इंडस्ट्री दोनों में DPG, GenEval, T2I-Compbench, GenAI-Bench जैसे कई बेंचमार्क इस्तेमाल होते हैं, लेकिन ये मुख्यतः प्रॉम्प्ट मैच, स्पैशल रिलेशन और एट्रिब्यूट कॉम्बिनेशन ही मापते हैं
    • एस्थेटिक वैल्यूएशन मॉडल के तौर पर LAION-Aesthetics, Pickscore, ImageReward, HPSv2 मौजूद हैं, पर ज्यादातर CLIP बेस्ड हैं और इनकी रिज़ॉल्यूशन व पैरामीटर काउंट सीमित रहती है
    • उदाहरण के लिए LAION-Aesthetics में महिला चेहरे, धुंधले बैकग्राउंड, चमकीले रंग वाली इमेज के प्रति झुकाव पाया जाता है; ऐसे क्राइटेरिया से डेटा फिल्टर करने पर मॉडल में इम्प्लिसिट बायस इम्प्लांट हो सकता है
  • एस्थेटिक वैल्यूएशन मीट्रिक्स और फ़िल्टर खराब इमेज हटाने में उपयोगी हैं, लेकिन अगर ट्रेनिंग डेटा सिलेक्शन पर बहुत ज़्यादा निर्भरता हो तो मॉडल स्वयं में बायस कैप्चर कर सकता है
  • नया Vision-Language Model-आधारित वैल्यूएशन आता दिख रहा है, फिर भी सौंदर्य पसंद अभी भी सब्जेक्टिव है, इसलिए इसे किसी एक नंबर में कन्वर्ट करना कठिन है

प्रि-ट्रेनिंग(Pre-training) और पोस्ट-ट्रेनिंग(Post-training) स्ट्रक्चर

  • प्रि-ट्रेनिंग (Pre-training)

    • प्रि-ट्रेनिंग में मॉडल को स्टाइल, ऑब्जेक्ट्स, पर्सन, लोकेशन आदि विज़ुअल वर्ल्ड का व्यापक ज्ञान दिया जाता है ताकि डाइवर्सिटी (mode coverage) मैक्सिमाइज़ हो सके
    • "खराब" डेटा भी शामिल किया जाता है ताकि मॉडल अनचाही ट्रेट्स (जैसे अजीब उंगलियाँ, ब्लर) भी सीख ले
    • प्रि-ट्रेनिंग मॉडल की मैक्सिमम क्वालिटी कैप और स्टाइल विविधता तय करती है
  • पोस्ट-ट्रेनिंग (Post-training)

    • पोस्ट-ट्रेनिंग में मॉडल डिस्ट्रीब्यूशन को पसंदीदा स्टाइल पर फोकस(mode collapsing) करके, "AI look" की जगह स्पष्ट एस्थेटिक दिशा में कन्वर्ज़ किया जाता है
    • यह Supervised Finetuning (SFT) और RLHF (preference-based reinforcement learning) के दो चरणों में होता है
      • SFT: सीधे क्यूरेट किए गए हाई-गुणवत्ता डेटा सेट और Krea-1 की सिंथेटिक इमेज का उपयोग
      • RLHF: इन-हाउस प्रेफरेंस डेटा के आधार पर कई बार ऑप्टिमाइज़ करके एस्थेटिक्स और स्टाइल को फाइन-ट्यून किया जाता है
    • डेटा की मात्रा नहीं, बल्कि डेटा की क्वालिटी निर्णायक कारक है (केवल 1M से कम हाई-गुणवत्ता डेटा से भी पर्याप्त)
    • opinionated approach वाली एस्थेटिक प्रेफरेंस लेबलिंग लागू की गई, ताकि केवल सार्वजनिक प्रेफरेंस डेटा पर निर्भर रहने से होने वाली मोनो-टोन परिणाम और AI look की तरफ रीग्रेशन की समस्या से बचा जा सके

मॉडल पाइपलाइन और एक्सपेरिमेंटल इनसाइट्स

  • flux-dev-raw नाम के 12B parameter वाले guidance-distilled बेस मॉडल का इस्तेमाल किया गया, जो पहले से बहुत अधिक फ़ाइन-ट्यून किए ओपन मॉडल्स से अलग है
  • RLHF चरण में TPO (preference optimization) तकनीक लगाकर एस्थेटिक सेंस और स्टाइलाइजेशन फीचर को और मजबूत किया गया
  • कठोर फिल्टरिंग वाले हाई-गुणवत्ता इन-हाउस प्रेफरेंस डेटा को कई बार लगाकर मॉडल आउटपुट को बारीकी से कैलिब्रेट किया गया
  • मुख्य खोजें

    • 1. डेटा की मात्रा से अधिक क्वालिटी ज़्यादा महत्वपूर्ण है। 1M से कम डेटा से भी अर्थपूर्ण पोस्ट-ट्रेनिंग संभव है। क्वांटिटेटिव डाइवर्सिटी बायस-रिडक्शन और स्टैबिलिटी के लिए तो मदद करती है, लेकिन सबसे अहम है क्यूरेटेड हाई-गुणवत्ता डेटा
    • 2. स्पष्ट रुचि-केंद्रित डेटा कलेक्शन की जरूरत है। पॉपुलर ओपन डेटासेट अनजाने बायस, "AI look" में रीग्रेशन और सादा कंपोज़िशन/कलर बायस जैसी समस्याओं को जन्म दे सकते हैं
      • टेक्स्ट रेंडरिंग, एनाटॉमी, स्ट्रक्चर जैसे objective लक्ष्य के लिए डेटा डाइवर्सिटी मदद करती है, जबकि एस्थेटिक जैसे subjective लक्ष्य के लिए मिश्रण की बजाय specialized डेटा ज़्यादा एफिशिएंट होता है
      • कई एस्थेटिक डिस्ट्रीब्यूशन को मिक्स करने पर कोई भी पूरी तरह संतुष्ट नहीं होता, और कई यूज़र LoRA जैसे पोस्ट-प्रोसेसिंग विकल्प पर भरोसा करने लगते हैं

भविष्य के शोध दिशा और समापन

  • Krea 1 एस्थेटिक और क्वालिटी-फोकस्ड क्रिएटर्स के लिए पहला स्टेप है, और ओपन सोर्स कम्युनिटी के विस्तार की अपेक्षा की गई है
  • आगे कोर कंपिटेन्सी स्ट्रेंथनिंग, अधिक विविध विजुअल डोमेन सपोर्ट और पर्सनलाइज़ेशन/कंट्रोलर-बिलिटी रिसर्च के जरिये यूज़र्स की एस्थेटिक रुचि के हिसाब से मॉडल देने को लक्ष्य बनाया गया है
  • GitHub( https://github.com/krea-ai/flux-krea ) देखें

1 टिप्पणियां

 
GN⁺ 2025-08-02
Hacker News की राय
  • नमस्ते, सभी से मिलकर खुशी हुई। मैं Krea का सह-संस्थापक और CTO हूँ। हम लंबे समय से अपने मॉडल के weights सार्वजनिक करके HN कम्युनिटी के साथ साझा करना चाहते थे। आज मैं जितना संभव हो सके ऑनलाइन रहूँगा, इसलिए कोई भी सवाल हो तो जवाब दूँगा
    • क्या Flux 'Kontext' वर्ज़न, यानी editing model, को सपोर्ट करने की कोई योजना है? Prompt-based image editing की उपयोगिता बहुत बड़ी लगती है। Open-weight वर्ज़न की quality अभी नहीं देखी, लेकिन demo बहुत प्रभावशाली था। वैसे, यह मॉडल भी 12B आकार का है
    • इस रिलीज़ का उद्देश्य क्या है, यह जानने की जिज्ञासा है। क्या इसका कोई व्यावसायिक लक्ष्य है, या यह सचमुच सिर्फ योगदान की भावना से किया गया है?
    • हमें English के अलावा दूसरी भाषाओं को भी सपोर्ट करने वाला मॉडल चाहिए
    • P(.|photo) vs P(.|minimal) उदाहरणों के बारे में जानना चाहता हूँ कि व्यवहार में इस टकराव का फैसला कैसे किया जाता है। मेरी राय में photo realism डिफ़ॉल्ट होना चाहिए। उदाहरण के लिए, अगर user "किताब पढ़ती बिल्ली" लिखता है, तो AI style या illustration की बजाय सचमुच की बिल्ली किताब पढ़ते हुए दिखनी चाहिए। अगर कोई अतिरिक्त संदर्भ न हो, तो 'बिल्ली' को photorealistic बिल्ली मानना स्वाभाविक लगता है। अगर user illustration जैसी कोई दूसरी style चाहता है, तो उसे prompt में साफ़ लिखना चाहिए। क्या इसमें कोई बारीकी है जो मैं मिस कर रहा हूँ?
  • यह एक अच्छी रिलीज़ है। मैंने 12b Txt2Img Krea मॉडल से थोड़ा परीक्षण किया। सबसे बड़ी ताकत इसकी तेज़ speed है (और शायद realism भी)। लेकिन unsurprisingly, <i>prompt adherence</i> के मामले में इसे सामान्य Flux.1D मॉडल से ऊँचा score नहीं मिला। परिणाम https://genai-showdown.specr.net पर देखे जा सकते हैं। दूसरी ओर, लगता है कि Wan 2.2+ आगे चलकर T2I क्षेत्र में बड़ी भूमिका निभा सकता है, लेकिन image diversity की कमी पूरी करने के लिए बहुत सारे LoRA की ज़रूरत पड़ सकती है
    • क्या आप उस URL को साझा कर सकते हैं जहाँ परीक्षण के परिणाम देखे जा सकें? और संदर्भ के लिए, यह मॉडल <i>aesthetics</i> पर अधिक केंद्रित था, केवल prompt accuracy पर नहीं। ख़राब samples को बहाना नहीं बना रहा, बस यह रेखांकित करना चाहता हूँ कि यह research goals में से एक था। अगर आप तथाकथित 'flux look' को हटाना चाहते हैं, तो यह एक ज़रूरी trade-off है। और कुछ लोग Wan 2.2 से base image बनाकर Krea से refine भी कर रहे हैं, जो काफ़ी दिलचस्प तरीका है
  • नमस्ते! मैं Krea-1 FLUX.1 का lead researcher हूँ। Krea, Krea-1 से distilled 12B Rectified Flow Model है, और इसे FLUX architecture के साथ compatible होने के लिए डिज़ाइन किया गया है। कोई technical सवाल हो तो मैं जवाब दे सकता हूँ
    • मेरा बैकग्राउंड पारंपरिक media production में है। Media को कई layers में बाँटकर जोड़ने का तरीका cost control और quality control के लिए बहुत महत्वपूर्ण है। लेकिन अभी AI image, video, और audio generation के तरीके इसे सपोर्ट नहीं करते। ForgeUI ने थोड़ी देर के लिए यह सपोर्ट दिया था, लेकिन फिर बंद हो गया। मेरा मानना है कि इसकी वजह यह है कि वे वास्तविक बड़े पैमाने की media production requirements को नहीं समझते। क्या आपकी टीम में कोई ऐसा व्यक्ति है जिसे असली फिल्म VFX, animation advertising, या multi-million-dollar production का अनुभव हो? अगर आप सचमुच सफल होना चाहते हैं, तो पारंपरिक media production workflows को ज़रूर सपोर्ट करना होगा। मौजूदा AI tools को अपनाया नहीं जा रहा, क्योंकि वे production tools या अपेक्षाओं के साथ बिल्कुल integrate नहीं होते
    • मॉडल की quality सचमुच शानदार है। खासकर यह बात प्रभावशाली लगी कि "flux-dev-raw एक guidance distilled model है, इसलिए आपने custom loss function बनाकर classifier-free guided distribution पर सीधे fine-tune किया।" अगर आप इस पर कुछ और विस्तार से बता सकें और fine-tuning tips दे सकें तो अच्छा होगा। Open-source AI art community में भी original distilled flux-dev को fine-tune करना बहुत कठिन माना जाता है, इसलिए जिज्ञासा है
    • इस काम के लिए बहुत धन्यवाद। क्या आप समझा सकते हैं कि "FLUX architecture के साथ compatible होने के लिए डिज़ाइन किया गया" का मतलब क्या है, और यह क्यों महत्वपूर्ण है?
  • 23.8GB का safetensor फ़ाइल आकार 12B parameter मॉडल के हिसाब से समझ में नहीं आ रहा। मैं समझता था कि 1B parameter के लिए 1GB VRAM चाहिए, तो क्या यह मॉडल 24GB VRAM इस्तेमाल करता है या 12GB? क्या मेरी समझ ग़लत है?
    • bfloat16 में गणना करें तो 1B x 16bit = 2GB, इसलिए 12B लगभग 24GB होना सही है। float32 से bfloat16 पर आने पर performance loss लगभग नहीं होता, इसलिए इसे bfloat16 में upload किया गया है
    • अलग-अलग parameters के लिए float size अलग हो सकती है। कई मॉडल FP8 (8bit/parameter) में वितरित किए जाते हैं, लेकिन यह मॉडल FP16 (16bit) है। अक्सर मॉडल FP16 में train करके बाद में FP8 या FP4 में quantize करके distribute किए जाते हैं
    • 8bit में quantized मॉडल के लिए 1B=1GB मान सकते हैं, लेकिन 16bit और 32bit के लिए इसकी 2 से 4 गुना memory चाहिए
  • एक साधारण prompt से दिलचस्प परिणाम मिला: "Octopus DJ spinning the turntables at a rave." DJ में दिखने वाले मानव हाथ काफ़ी उल्लेखनीय थे। किसी भी prompt से मैं उन हाथों को हटा नहीं पाया। जैसा paper में कहा गया है, मॉडल वाकई opinionated लगता है
    • जब मैंने "Octopus DJ with no fingers" prompt दिया, तो हाथ तो गायब हो गए, लेकिन साथ ही octopus की सारी मानवीय विशेषताएँ भी हट गईं, और सिर्फ़ एक साधारण octopus turntable चलाता हुआ रह गया
  • मुझे हमेशा जिस image की चाह रही है, वह Galton board है। ऊपर थोड़ी दूरी पर दो छेद हैं, जिनसे गेंदें गिरती हैं; एक तरफ़ नीली गेंदें, दूसरी तरफ़ लाल। नीचे दोनों रंग मिलकर ऐसी distribution बनाते हैं जिसमें columns एक bimodal normal distribution दिखाते हैं। संदर्भ image: https://imgur.com/a/DiAOTzJ (ऊपर दो spouts)। असल कोशिश के नतीजे: https://imgur.com/undefined, https://imgur.com/a/uecXDzI
    • क्या आपने कभी इसे असल दुनिया में बनाकर देखा है? मुझे double Galton board का कोई वीडियो नहीं मिला
  • hey hn! मैं Krea का cofounder हूँ। हमने FLUX Krea को कैसे train किया, इस पर एक blog post लिखी है, अगर ज़्यादा विस्तार चाहिए तो देखें: https://www.krea.ai/blog/flux-krea-open-source-release
    • थोड़ा off-topic सवाल है, लेकिन क्या आपने सच में वेबसाइट पर scrollbar छिपा दिया है? समझ नहीं आता ऐसा क्यों किया गया।
      .scrollbar-hide {
        -ms-overflow-style: none;
        scrollbar-width: none;
      }
      
  • क्या NVIDIA-optimized वर्ज़न उपलब्ध है? RTX-accelerated FLUX.1 Kontext की तरह: https://blogs.nvidia.com/blog/rtx-ai-garage-flux-kontext-nim-tensorrt/
    • FLUX.1 Krea के लिए हमने कोई अलग RTX-accelerated वर्ज़न नहीं बनाया। लेकिन मॉडल मौजूदा FLUX.1 dev codebase के साथ पूरी तरह compatible है। अलग ONNX export शायद उपलब्ध नहीं है। SVDQuant के साथ 4~8bit quantized वर्ज़न checkpoint को अधिक सामान्य hardware के लिए अनुकूल बनाने का अच्छा अगला कदम हो सकता है
  • संदर्भ लिंक:
  • सुझाव है कि कंपनियों के लिए ऐसा अच्छी तरह documented रास्ता उपलब्ध कराया जाए जिससे वे अपनी इच्छित output मिलने पर commercial use rights को स्पष्ट रूप से license कर सकें (आप जल्द ही समझ जाएँगे!)