EveryText: AI-जनरेटेड इमेज में बिना प्री-ट्रेनिंग दुनिया की सभी भाषाओं (लिपियों) को इमेज जनरेशन में शामिल/प्रदर्शित करने वाली तकनीक सार्वजनिक

(fantos-EveryText.hf.space)

5 पॉइंट द्वारा arxivgpt 2024-08-29 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

1. अवलोकन

AI तकनीक का विकास तेज़ी से आगे बढ़ रहा है, और इमेज जनरेशन के क्षेत्र में भी अभिनव प्रगति हो रही है। इसके केंद्र में "EveryText" नामक एक क्रांतिकारी तकनीक है। यह तकनीक "TBF('Text by Font') Image Model" पर आधारित है, जो AI-जनरेटेड इमेज में बिना प्री-ट्रेनिंग दुनिया की सभी भाषाओं (लिपियों) को इमेज जनरेशन में शामिल और प्रदर्शित करने में सक्षम बनाती है।

2. पृष्ठभूमि और आवश्यकता

हाल के वर्षों में AI इमेज जनरेशन तकनीक के विकास के साथ, MidjourneyV6 और FLUX जैसे प्लेटफ़ॉर्म ऐसे फ़ीचर देने लगे हैं जिनमें उपयोगकर्ता द्वारा डाला गया टेक्स्ट (जैसे: "HELLO WORLD") इमेज में दृश्यता और पठनीयता के साथ दिखाया जा सकता है। लेकिन ऐसी तकनीकें मुख्य रूप से अंग्रेज़ी तक सीमित थीं।

इस सीमा को पार करने के लिए चीन के Alibaba Group ने ऐसा सिस्टम लागू किया जो चीनी, जापानी और कोरियाई का भी समर्थन करता है। यह एक स्पष्ट संकेत है कि तकनीक अब दुनिया की सभी भाषाओं को संभालने की दिशा में विकसित हो रही है।

3. मौजूदा समस्याएँ

मौजूदा तरीकों में कई सीमाएँ और समस्याएँ थीं:

अलग से संपादन की आवश्यकता: मनचाहा टेक्स्ट इमेज में डालने के लिए अतिरिक्त एडिटिंग काम करना पड़ता था, जो समय और लागत दोनों के लिहाज़ से अक्षम था।
ट्रेनिंग पर निर्भरता: AI से इमेज बनाते समय किसी विशेष टेक्स्ट को दृश्य रूप में दिखाने के लिए LORA आदि का उपयोग कर इमेज ट्रेनिंग या लेबलिंग का काम अनिवार्य था।
रिसोर्स-इंटेंसिव: MidjourneyV6, FLUX और Alibaba Group के तरीके बहुत अधिक GPU संसाधन और समय मांगते थे।
सीमित शब्दावली: जो टेक्स्ट पहले से मौजूद नहीं था, उसे ट्रेन नहीं किया जा सकता था, इसलिए उसे व्यक्त करना कठिन था।
भाषाई सीमा: अंग्रेज़ी के अलावा दुनिया की सभी भाषाओं को संभालने के लिए बहुत बड़े संसाधनों की आवश्यकता थी।

4. समस्या समाधान के लिए अभिनव दृष्टिकोण

EveryText का मूल "ट्रेनिंग" के प्रति एक नया दृष्टिकोण है। जहाँ पुराने तरीकों में प्रत्यक्ष ट्रेनिंग की आवश्यकता होती थी, वहीं EveryText ने इस समस्या को "Font" का उपयोग करके हल किया।

Font as Pre-trained Model: हर टेक्स्ट पहले से ही "Font" द्वारा व्यावहारिक रूप से लेबलिंग सहित 'ट्रेंड' स्थिति में होता है। EveryText इस 'Font' को एक 'ट्रेंड मॉडलिंग' की तरह उपयोग करता है।
विविधता और सौंदर्य: विभिन्न भाषाई क्षेत्रों के कई "Font" लागू करके, इसने फ़ॉन्ट की समृद्धि और दृश्य सौंदर्य दोनों को एक साथ हासिल किया।
असीम अभिव्यक्ति: "Font" को "पहले से ट्रेनिंग पूरी हो चुके मॉडल" की तरह इस्तेमाल करने से, शब्दकोश में न होने वाले शब्द भी—यानी इनपुट/आउटपुट में संभव किसी भी अक्षर—को व्यक्त करना संभव हो गया।

5. सेवा का उपयोग कैसे करें

EveryText को कोई भी मुफ़्त में उपयोग कर सकता है। उपयोग का तरीका इस प्रकार है:

Prompt: इमेज जनरेशन के लिए मूल विवरण दर्ज करें।
Text for Image Generation: वह टेक्स्ट दर्ज करें जो इमेज में दिखाना है।
Text Position: इमेज के भीतर टेक्स्ट की स्थिति चुनें।
Text Size: टेक्स्ट का आकार समायोजित करें।
Select Font(Option): इच्छित फ़ॉन्ट चुनें।
Advanced Settings(Option): एडवांस्ड सेटिंग्स के ज़रिए इमेज जनरेशन प्रक्रिया को और बारीकी से नियंत्रित किया जा सकता है।
"START" बटन पर क्लिक करके इमेज जनरेट करें।

6. प्रतिस्पर्धी तकनीकों के साथ तुलना (अब तक कुछ मूल्यांकनकर्ताओं की व्यक्तिपरक राय)

-MidjourneyV6/ Flux: Only English समर्थन / इमेज क्वालिटी A+ / टेक्स्ट अभिव्यक्ति और पठनीयता A

-AnyText("Alibaba Group"): अंग्रेज़ी, चीनी, जापानी, कोरियाई समर्थन / इमेज क्वालिटी B / टेक्स्ट पहचान और पठनीयता C

-EveryText: दुनिया की सभी भाषाओं (लिपियों) का समर्थन / इमेज क्वालिटी A / टेक्स्ट पहचान और पठनीयता B+ -MidjourneyV6/ Flux: Only English समर्थन / इमेज क्वालिटी A+ / टेक्स्ट अभिव्यक्ति और पठनीयता A

EveryText दुनिया की सभी भाषाओं का समर्थन करते हुए भी उच्च इमेज क्वालिटी और बेहतर टेक्स्ट अभिव्यक्ति व पठनीयता प्रदान करता है।

7. निष्कर्ष

EveryText ने AI-जनरेटेड इमेज तकनीक के लिए एक नया क्षितिज खोला है। बिना प्री-ट्रेनिंग दुनिया की सभी भाषाओं को इमेज में स्वाभाविक रूप से एकीकृत करने वाला यह अभिनव दृष्टिकोण वैश्विक संचार और रचनात्मक अभिव्यक्ति की संभावनाओं का बहुत विस्तार करता है। आगे यह देखना रोचक होगा कि EveryText अलग-अलग क्षेत्रों में कैसे उपयोग और विकसित होता है।