• Janus-Pro: एकीकृत मल्टीमॉडल समझ और जनरेशन मॉडल का उन्नत संस्करण
  • यह मौजूदा Janus मॉडल का विकसित रूप है, जिसमें निम्नलिखित सुधार शामिल हैं
    • अनुकूलित प्रशिक्षण रणनीति
    • विस्तारित प्रशिक्षण डेटा
    • बड़े मॉडल स्केल तक विस्तार
  • लक्ष्य: मल्टीमॉडल समझ और टेक्स्ट-टू-इमेज जनरेशन प्रदर्शन को बेहतर बनाना, और जनरेशन स्थिरता को मजबूत करना

प्रमुख प्रदर्शन सुधार

मल्टीमॉडल समझ

  • Janus-Pro ने मल्टीमॉडल समझ बेंचमार्क (MMBench) में 79.2 का सर्वोच्च स्कोर दर्ज किया
  • मौजूदा मॉडलों (Janus, TokenFlow, MetaMorph) की तुलना में बेहतर प्रदर्शन हासिल किया
  • विज़ुअल एन्कोडिंग को अलग करके समझ और जनरेशन के बीच होने वाले टकराव को कम किया

टेक्स्ट-टू-इमेज जनरेशन

  • GenEval बेंचमार्क में 80% सटीकता के साथ DALL-E 3 (67%), SD3-Medium (74%) आदि से बेहतर प्रदर्शन
  • DPG-Bench में 84.19 अंक दर्ज किए, जो अन्य सभी मॉडलों से बेहतर हैं

मॉडल संरचना और सुधार

मॉडल आर्किटेक्चर

  • विज़ुअल एन्कोडिंग को मल्टीमॉडल समझ और जनरेशन के लिए अलग किया गया
  • उच्च-आयामी सैमान्टिक फीचर्स निकालने के लिए SigLIP encoder का उपयोग
  • इमेज डिकोडर इमेज को ID में बदलकर LLM इनपुट से जोड़ता है

अनुकूलित प्रशिक्षण रणनीति

  • चरणबद्ध प्रशिक्षण: पहले की 3-चरणीय रणनीति की अक्षमताओं में सुधार
    • ImageNet डेटा पर अधिक लंबे प्रशिक्षण समय का उपयोग (Stage I)
    • केवल टेक्स्ट-टू-इमेज डेटा पर केंद्रित प्रशिक्षण (Stage II)
  • डेटा अनुपात समायोजन: टेक्स्ट-टू-इमेज डेटा का अनुपात घटाकर मल्टीमॉडल समझ प्रदर्शन को मजबूत किया गया

डेटा और मॉडल विस्तार

  • डेटा विस्तार:
    • मल्टीमॉडल समझ के लिए 9 करोड़ सैंपल जोड़े गए
    • 7 करोड़ synthetic aesthetics डेटा के साथ टेक्स्ट-टू-इमेज जनरेशन डेटा को मजबूत किया गया
  • मॉडल विस्तार:
    • 1.5B से 7B स्केल तक विस्तार, जिससे प्रशिक्षण दक्षता और प्रदर्शन में बड़ा सुधार हुआ

प्रयोग और मूल्यांकन

प्रदर्शन तुलना

  • Janus-Pro-7B ने समान आकार के मॉडलों की तुलना में सर्वोत्तम प्रदर्शन दिखाया
    • मल्टीमॉडल समझ और जनरेशन में TokenFlow-XL (13B) जैसे बड़े मॉडलों को भी पीछे छोड़ा
  • जनरेट की गई इमेज की स्थिरता और सौंदर्य गुणवत्ता दोनों में सुधार हुआ

सीमाएँ

  • कम रिज़ॉल्यूशन (384 × 384) के कारण सूक्ष्म कार्यों (OCR आदि) में सीमाएँ हैं
  • टेक्स्ट-टू-इमेज जनरेशन के दौरान बारीक डिटेल की कमी

निष्कर्ष

  • Janus-Pro ने प्रशिक्षण रणनीति, डेटा और मॉडल आकार के संदर्भ में महत्वपूर्ण प्रगति हासिल की
  • मल्टीमॉडल समझ और टेक्स्ट-टू-इमेज जनरेशन दोनों में सर्वोच्च प्रदर्शन हासिल किया
  • भविष्य में रिज़ॉल्यूशन बढ़ाकर अधिक सूक्ष्म चुनौतियों को हल करने की योजना है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.