DeepSeek ने Text-To-Image जनरेशन मॉडल Janus Pro जारी किया [PDF]

(github.com/deepseek-ai)

5 पॉइंट द्वारा GN⁺ 2025-01-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Janus-Pro: एकीकृत मल्टीमॉडल समझ और जनरेशन मॉडल का उन्नत संस्करण
यह मौजूदा Janus मॉडल का विकसित रूप है, जिसमें निम्नलिखित सुधार शामिल हैं
- अनुकूलित प्रशिक्षण रणनीति
- विस्तारित प्रशिक्षण डेटा
- बड़े मॉडल स्केल तक विस्तार
लक्ष्य: मल्टीमॉडल समझ और टेक्स्ट-टू-इमेज जनरेशन प्रदर्शन को बेहतर बनाना, और जनरेशन स्थिरता को मजबूत करना

प्रमुख प्रदर्शन सुधार

मल्टीमॉडल समझ

Janus-Pro ने मल्टीमॉडल समझ बेंचमार्क (MMBench) में 79.2 का सर्वोच्च स्कोर दर्ज किया
मौजूदा मॉडलों (Janus, TokenFlow, MetaMorph) की तुलना में बेहतर प्रदर्शन हासिल किया
विज़ुअल एन्कोडिंग को अलग करके समझ और जनरेशन के बीच होने वाले टकराव को कम किया

टेक्स्ट-टू-इमेज जनरेशन

GenEval बेंचमार्क में 80% सटीकता के साथ DALL-E 3 (67%), SD3-Medium (74%) आदि से बेहतर प्रदर्शन
DPG-Bench में 84.19 अंक दर्ज किए, जो अन्य सभी मॉडलों से बेहतर हैं

मॉडल संरचना और सुधार

मॉडल आर्किटेक्चर

विज़ुअल एन्कोडिंग को मल्टीमॉडल समझ और जनरेशन के लिए अलग किया गया
उच्च-आयामी सैमान्टिक फीचर्स निकालने के लिए SigLIP encoder का उपयोग
इमेज डिकोडर इमेज को ID में बदलकर LLM इनपुट से जोड़ता है

अनुकूलित प्रशिक्षण रणनीति

चरणबद्ध प्रशिक्षण: पहले की 3-चरणीय रणनीति की अक्षमताओं में सुधार
- ImageNet डेटा पर अधिक लंबे प्रशिक्षण समय का उपयोग (Stage I)
- केवल टेक्स्ट-टू-इमेज डेटा पर केंद्रित प्रशिक्षण (Stage II)
डेटा अनुपात समायोजन: टेक्स्ट-टू-इमेज डेटा का अनुपात घटाकर मल्टीमॉडल समझ प्रदर्शन को मजबूत किया गया

डेटा और मॉडल विस्तार

डेटा विस्तार:
- मल्टीमॉडल समझ के लिए 9 करोड़ सैंपल जोड़े गए
- 7 करोड़ synthetic aesthetics डेटा के साथ टेक्स्ट-टू-इमेज जनरेशन डेटा को मजबूत किया गया
मॉडल विस्तार:
- 1.5B से 7B स्केल तक विस्तार, जिससे प्रशिक्षण दक्षता और प्रदर्शन में बड़ा सुधार हुआ

प्रयोग और मूल्यांकन

प्रदर्शन तुलना

Janus-Pro-7B ने समान आकार के मॉडलों की तुलना में सर्वोत्तम प्रदर्शन दिखाया
- मल्टीमॉडल समझ और जनरेशन में TokenFlow-XL (13B) जैसे बड़े मॉडलों को भी पीछे छोड़ा
जनरेट की गई इमेज की स्थिरता और सौंदर्य गुणवत्ता दोनों में सुधार हुआ

सीमाएँ

कम रिज़ॉल्यूशन (384 × 384) के कारण सूक्ष्म कार्यों (OCR आदि) में सीमाएँ हैं
टेक्स्ट-टू-इमेज जनरेशन के दौरान बारीक डिटेल की कमी

निष्कर्ष

Janus-Pro ने प्रशिक्षण रणनीति, डेटा और मॉडल आकार के संदर्भ में महत्वपूर्ण प्रगति हासिल की
मल्टीमॉडल समझ और टेक्स्ट-टू-इमेज जनरेशन दोनों में सर्वोच्च प्रदर्शन हासिल किया
भविष्य में रिज़ॉल्यूशन बढ़ाकर अधिक सूक्ष्म चुनौतियों को हल करने की योजना है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.