- Janus-Pro: एकीकृत मल्टीमॉडल समझ और जनरेशन मॉडल का उन्नत संस्करण
- यह मौजूदा Janus मॉडल का विकसित रूप है, जिसमें निम्नलिखित सुधार शामिल हैं
- अनुकूलित प्रशिक्षण रणनीति
- विस्तारित प्रशिक्षण डेटा
- बड़े मॉडल स्केल तक विस्तार
- लक्ष्य: मल्टीमॉडल समझ और टेक्स्ट-टू-इमेज जनरेशन प्रदर्शन को बेहतर बनाना, और जनरेशन स्थिरता को मजबूत करना
प्रमुख प्रदर्शन सुधार
मल्टीमॉडल समझ
- Janus-Pro ने मल्टीमॉडल समझ बेंचमार्क (MMBench) में 79.2 का सर्वोच्च स्कोर दर्ज किया
- मौजूदा मॉडलों (Janus, TokenFlow, MetaMorph) की तुलना में बेहतर प्रदर्शन हासिल किया
- विज़ुअल एन्कोडिंग को अलग करके समझ और जनरेशन के बीच होने वाले टकराव को कम किया
टेक्स्ट-टू-इमेज जनरेशन
- GenEval बेंचमार्क में 80% सटीकता के साथ DALL-E 3 (67%), SD3-Medium (74%) आदि से बेहतर प्रदर्शन
- DPG-Bench में 84.19 अंक दर्ज किए, जो अन्य सभी मॉडलों से बेहतर हैं
मॉडल संरचना और सुधार
मॉडल आर्किटेक्चर
- विज़ुअल एन्कोडिंग को मल्टीमॉडल समझ और जनरेशन के लिए अलग किया गया
- उच्च-आयामी सैमान्टिक फीचर्स निकालने के लिए SigLIP encoder का उपयोग
- इमेज डिकोडर इमेज को ID में बदलकर LLM इनपुट से जोड़ता है
अनुकूलित प्रशिक्षण रणनीति
- चरणबद्ध प्रशिक्षण: पहले की 3-चरणीय रणनीति की अक्षमताओं में सुधार
- ImageNet डेटा पर अधिक लंबे प्रशिक्षण समय का उपयोग (Stage I)
- केवल टेक्स्ट-टू-इमेज डेटा पर केंद्रित प्रशिक्षण (Stage II)
- डेटा अनुपात समायोजन: टेक्स्ट-टू-इमेज डेटा का अनुपात घटाकर मल्टीमॉडल समझ प्रदर्शन को मजबूत किया गया
डेटा और मॉडल विस्तार
- डेटा विस्तार:
- मल्टीमॉडल समझ के लिए 9 करोड़ सैंपल जोड़े गए
- 7 करोड़ synthetic aesthetics डेटा के साथ टेक्स्ट-टू-इमेज जनरेशन डेटा को मजबूत किया गया
- मॉडल विस्तार:
- 1.5B से 7B स्केल तक विस्तार, जिससे प्रशिक्षण दक्षता और प्रदर्शन में बड़ा सुधार हुआ
प्रयोग और मूल्यांकन
प्रदर्शन तुलना
- Janus-Pro-7B ने समान आकार के मॉडलों की तुलना में सर्वोत्तम प्रदर्शन दिखाया
- मल्टीमॉडल समझ और जनरेशन में TokenFlow-XL (13B) जैसे बड़े मॉडलों को भी पीछे छोड़ा
- जनरेट की गई इमेज की स्थिरता और सौंदर्य गुणवत्ता दोनों में सुधार हुआ
सीमाएँ
- कम रिज़ॉल्यूशन (384 × 384) के कारण सूक्ष्म कार्यों (OCR आदि) में सीमाएँ हैं
- टेक्स्ट-टू-इमेज जनरेशन के दौरान बारीक डिटेल की कमी
निष्कर्ष
- Janus-Pro ने प्रशिक्षण रणनीति, डेटा और मॉडल आकार के संदर्भ में महत्वपूर्ण प्रगति हासिल की
- मल्टीमॉडल समझ और टेक्स्ट-टू-इमेज जनरेशन दोनों में सर्वोच्च प्रदर्शन हासिल किया
- भविष्य में रिज़ॉल्यूशन बढ़ाकर अधिक सूक्ष्म चुनौतियों को हल करने की योजना है
अभी कोई टिप्पणी नहीं है.