• Krea 1 का पहला इमेज मॉडल FLUX.1 Krea नाम के ओपन-वेट्स संस्करण के रूप में सार्वजनिक किया गया
  • पहले के इमेज जेनरेशन मॉडल्स से अलग, इसे स्पष्ट सौंदर्यात्मक रुचि और फोटो-रियलिज़्म पर फोकस करके "AI जैसा न दिखने वाली" तस्वीरें बनाने के उद्देश्य से डिज़ाइन किया गया है
  • यह विश्लेषण किया गया कि मौजूदा बेंचमार्क और वैल्यूएशन मीट्रिक्स वास्तविक उपयोगकर्ता की अपेक्षित एस्थेटिक सेंस से अलग पड़ जाते हैं, इसलिए इसे दूर करने हेतु प्रत्यक्ष रूप से क्यूरेट किया गया डेटा और opinionated aesthetics अर्थात् रुचि-केंद्रित एस्थेटिक बायस लागू किया गया
  • प्रि-ट्रेनिंग (pre-training) और पोस्ट-ट्रेनिंग (post-training) को अलग चरणों में रखकर विविधता सुनिश्चित करने वाला और स्पष्ट शैली में कंवर्ज़ होने वाला चरण व्यवस्थित तरीके से लागू किया गया
  • आगे चलकर पर्सनलाइज़ेशन/पर्सनलाइज़ेशन-टिल्ट रिसर्च और अधिक व्यापक विजुअल डोमेन व क्रिएटर सपोर्ट फीचर्स को मजबूत करने की योजना है

FLUX.1 Krea ओपन सोर्स रिलीज़

  • Krea 1 Black Forest Labs के साथ संयुक्त रूप से ट्रेन्ड (trained) पहला इमेज जेनरेशन मॉडल है, जिसका लक्ष्य बेहतर एस्थेटिक कंट्रोल और इमेज क्वालिटी प्रदान करना है
  • FLUX.1 Krea [dev] को ओपन-वेट्स के रूप में जारी किया गया है और यह मौजूदा FLUX.1-dev इकोसिस्टम के साथ पूरी तरह कम्पैटिबल है
  • यह मॉडल फोटो-रियलिस्टिक और एस्थेटिक दोनों एंगल्स को मैक्सिमाइज़ करते हुए, विशिष्ट एस्थेटिक रुचि को दर्शाने के लिए opinionated aesthetics दिशा अपनाता है

"AI Look" फेनोमेनन और लिमिटेशन

  • पुराने AI-जनित इमेज अक्सर अतिशय धुंधला बैकग्राउंड, वैक्स जैसे स्किन टोन और सपाट कंपोज़िशन जैसी तथाकथित "AI look" प्रवृत्ति दिखाते हैं
  • बेंचमार्क ऑप्टिमाइज़ेशन और टेक्निकल मीट्रिक्स पर ज़्यादा फोकस होने से वास्तविक जैसी टेक्सचर, शैली विविधता और क्रिएटिव आउटपुट की बलि चढ़ जाती है
  • वास्तविक यूज़र प्रेफरेंस को पकड़ न पाने वाले मौजूदा वैल्यूएशन मॉडल की सीमा
    • प्रि-ट्रेनिंग चरण में इस्तेमाल होने वाले Fréchet Inception Distance (FID) और CLIP Score मॉडल की कुल प्रदर्शन क्षमता नापने में मददगार हैं
    • अकैडमिक और इंडस्ट्री दोनों में DPG, GenEval, T2I-Compbench, GenAI-Bench जैसे कई बेंचमार्क इस्तेमाल होते हैं, लेकिन ये मुख्यतः प्रॉम्प्ट मैच, स्पैशल रिलेशन और एट्रिब्यूट कॉम्बिनेशन ही मापते हैं
    • एस्थेटिक वैल्यूएशन मॉडल के तौर पर LAION-Aesthetics, Pickscore, ImageReward, HPSv2 मौजूद हैं, पर ज्यादातर CLIP बेस्ड हैं और इनकी रिज़ॉल्यूशन व पैरामीटर काउंट सीमित रहती है
    • उदाहरण के लिए LAION-Aesthetics में महिला चेहरे, धुंधले बैकग्राउंड, चमकीले रंग वाली इमेज के प्रति झुकाव पाया जाता है; ऐसे क्राइटेरिया से डेटा फिल्टर करने पर मॉडल में इम्प्लिसिट बायस इम्प्लांट हो सकता है
  • एस्थेटिक वैल्यूएशन मीट्रिक्स और फ़िल्टर खराब इमेज हटाने में उपयोगी हैं, लेकिन अगर ट्रेनिंग डेटा सिलेक्शन पर बहुत ज़्यादा निर्भरता हो तो मॉडल स्वयं में बायस कैप्चर कर सकता है
  • नया Vision-Language Model-आधारित वैल्यूएशन आता दिख रहा है, फिर भी सौंदर्य पसंद अभी भी सब्जेक्टिव है, इसलिए इसे किसी एक नंबर में कन्वर्ट करना कठिन है

प्रि-ट्रेनिंग(Pre-training) और पोस्ट-ट्रेनिंग(Post-training) स्ट्रक्चर

  • प्रि-ट्रेनिंग (Pre-training)

    • प्रि-ट्रेनिंग में मॉडल को स्टाइल, ऑब्जेक्ट्स, पर्सन, लोकेशन आदि विज़ुअल वर्ल्ड का व्यापक ज्ञान दिया जाता है ताकि डाइवर्सिटी (mode coverage) मैक्सिमाइज़ हो सके
    • "खराब" डेटा भी शामिल किया जाता है ताकि मॉडल अनचाही ट्रेट्स (जैसे अजीब उंगलियाँ, ब्लर) भी सीख ले
    • प्रि-ट्रेनिंग मॉडल की मैक्सिमम क्वालिटी कैप और स्टाइल विविधता तय करती है
  • पोस्ट-ट्रेनिंग (Post-training)

    • पोस्ट-ट्रेनिंग में मॉडल डिस्ट्रीब्यूशन को पसंदीदा स्टाइल पर फोकस(mode collapsing) करके, "AI look" की जगह स्पष्ट एस्थेटिक दिशा में कन्वर्ज़ किया जाता है
    • यह Supervised Finetuning (SFT) और RLHF (preference-based reinforcement learning) के दो चरणों में होता है
      • SFT: सीधे क्यूरेट किए गए हाई-गुणवत्ता डेटा सेट और Krea-1 की सिंथेटिक इमेज का उपयोग
      • RLHF: इन-हाउस प्रेफरेंस डेटा के आधार पर कई बार ऑप्टिमाइज़ करके एस्थेटिक्स और स्टाइल को फाइन-ट्यून किया जाता है
    • डेटा की मात्रा नहीं, बल्कि डेटा की क्वालिटी निर्णायक कारक है (केवल 1M से कम हाई-गुणवत्ता डेटा से भी पर्याप्त)
    • opinionated approach वाली एस्थेटिक प्रेफरेंस लेबलिंग लागू की गई, ताकि केवल सार्वजनिक प्रेफरेंस डेटा पर निर्भर रहने से होने वाली मोनो-टोन परिणाम और AI look की तरफ रीग्रेशन की समस्या से बचा जा सके

मॉडल पाइपलाइन और एक्सपेरिमेंटल इनसाइट्स

  • flux-dev-raw नाम के 12B parameter वाले guidance-distilled बेस मॉडल का इस्तेमाल किया गया, जो पहले से बहुत अधिक फ़ाइन-ट्यून किए ओपन मॉडल्स से अलग है
  • RLHF चरण में TPO (preference optimization) तकनीक लगाकर एस्थेटिक सेंस और स्टाइलाइजेशन फीचर को और मजबूत किया गया
  • कठोर फिल्टरिंग वाले हाई-गुणवत्ता इन-हाउस प्रेफरेंस डेटा को कई बार लगाकर मॉडल आउटपुट को बारीकी से कैलिब्रेट किया गया
  • मुख्य खोजें

    • 1. डेटा की मात्रा से अधिक क्वालिटी ज़्यादा महत्वपूर्ण है। 1M से कम डेटा से भी अर्थपूर्ण पोस्ट-ट्रेनिंग संभव है। क्वांटिटेटिव डाइवर्सिटी बायस-रिडक्शन और स्टैबिलिटी के लिए तो मदद करती है, लेकिन सबसे अहम है क्यूरेटेड हाई-गुणवत्ता डेटा
    • 2. स्पष्ट रुचि-केंद्रित डेटा कलेक्शन की जरूरत है। पॉपुलर ओपन डेटासेट अनजाने बायस, "AI look" में रीग्रेशन और सादा कंपोज़िशन/कलर बायस जैसी समस्याओं को जन्म दे सकते हैं
      • टेक्स्ट रेंडरिंग, एनाटॉमी, स्ट्रक्चर जैसे objective लक्ष्य के लिए डेटा डाइवर्सिटी मदद करती है, जबकि एस्थेटिक जैसे subjective लक्ष्य के लिए मिश्रण की बजाय specialized डेटा ज़्यादा एफिशिएंट होता है
      • कई एस्थेटिक डिस्ट्रीब्यूशन को मिक्स करने पर कोई भी पूरी तरह संतुष्ट नहीं होता, और कई यूज़र LoRA जैसे पोस्ट-प्रोसेसिंग विकल्प पर भरोसा करने लगते हैं

भविष्य के शोध दिशा और समापन

  • Krea 1 एस्थेटिक और क्वालिटी-फोकस्ड क्रिएटर्स के लिए पहला स्टेप है, और ओपन सोर्स कम्युनिटी के विस्तार की अपेक्षा की गई है
  • आगे कोर कंपिटेन्सी स्ट्रेंथनिंग, अधिक विविध विजुअल डोमेन सपोर्ट और पर्सनलाइज़ेशन/कंट्रोलर-बिलिटी रिसर्च के जरिये यूज़र्स की एस्थेटिक रुचि के हिसाब से मॉडल देने को लक्ष्य बनाया गया है
  • GitHub( https://github.com/krea-ai/flux-krea ) देखें

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.