GPTs के आधार पर AI द्वारा कहानी निर्माण से वीडियो तक पूरी तरह स्वचालित, बिना मानवीय हस्तक्षेप वाले प्रोडक्शन की चुनौती
(youtube.com)किसी के लिए भी storytelling बनाना बहुत महत्वपूर्ण है, लेकिन यह एक कठिन काम भी है.
आखिरकार, अच्छी कहानी रचना करना ही सबसे अहम है.
ChatGPT के आने से AI का उपयोग करके कहानी निर्माण में क्रांतिकारी बदलाव आया है, लेकिन अभी भी
मंज़िल काफी दूर है.
लगभग 1 साल पहले ChatGPT और Stable Diffusion का उपयोग करके एक बच्चों की कहानी की किताब बनाई थी,
और उसे Kakao Brunch पर प्रकाशित भी किया था. इस बार मैंने कुछ और अधिक multimodal
बनाने का फैसला किया.
लक्ष्य यह रखा कि शुरुआती सेटिंग के बाद "इंसान को अलग रखकर 99% से अधिक काम AI खुद अंतिम परिणाम तक
बनाए — यही unattended automation का मूल बिंदु हो".
बेशक, यह अनिवार्य है कि नई, रोचक और तार्किक कहानी कारण-परिणाम संबंध के साथ जुड़ी हो.
इसी के अनुसार, मैंने "बच्चों के YouTube content" को execution goal के रूप में तय किया.
बच्चों के लिए सेट करने के कारण थे:
- कहानी संभालना अपेक्षाकृत आसान होगा
- वीडियो की गुणवत्ता की तुलना में अपेक्षित प्रभाव बड़ा होगा
- बच्चों का content पहली बार बना रहा था, इसलिए इसे बनाकर देखना चाहता था
[ठोस execution plan (architecture) की कल्पना कर उसे सीधे build करना]
-
मेरा मानना था कि story generation logic को "consistency बनाए रखते हुए लगातार नए episode जोड़ने वाली
संरचना में design करना होगा, तभी continuity बनेगी". -
इसी के अनुसार, बच्चों के storytelling के लिए एक dedicated GPTs बनाया. (फिलहाल केवल मेरे लिए visible)
GPTs की instruction लगभग A4 के 1 पेज जितनी थी और बहुत विस्तार से सेट की गई थी ("उद्देश्य यह था कि पूरा concept और context
बना रहे").
Instruction में यह अनिवार्य किया गया कि हर लिखी गई सामग्री की शुरुआत और अंत में तय किए गए keywords ज़रूर इस्तेमाल हों (ताकि यह वीडियो पहली बार देखने वाला व्यक्ति भी concept और background को समझ सके, और अगले episode की प्रतीक्षा करे — इस उद्देश्य से किया गया textual setup).
मुख्य भाग natural समय-प्रवाह के अनुसार संकट, टकराव और समाधान की धुरी पर आगे बढ़े — इसके लिए कई detailed examples सेट किए गए, ताकि context बना रहे और नए episodes भी उसी rule का पालन करते हुए बनें.
*"Tori's Adventure" नाम के concept को "एक ऐसा लड़का जिसका चेहरा हर दिन सोकर उठने पर बदल जाता है" के रूप में सेट करने का कारण यह था कि image generation में seed consistency बनाए रखना कठिन होता है. इसलिए मैंने इस कमी को ही ताकत में बदलने का इरादा किया, और चूंकि हर बार नया episode बनता है, इसलिए यह और भी बेहतर लगा. -
GPTs में बनी script को Zapier के ज़रिए आगे processing और multimodal generation के लिए
Actions को API से जोड़ा.
*GPTs Actions configuration का विस्तृत तरीका मैंने Kakao Brunch पर जो लिंक लिखा है, उसे देखें
https://brunch.co.kr/@seawolf/9
- GPTs से कनेक्ट करने पर, GPTs मुझसे "नए episode का topical keyword" पूछे — ऐसा सेट किया. इंसान को केवल यही तय करना होता है. हालांकि इसे random भी किया जा सकता है.
'topic keyword' निकालने का तरीका instruction में सेट किए गए अनुसार इस प्रक्रिया का पालन करता है:
- search portal के माध्यम से वे नवीनतम 'keywords' निकालकर दिखाए जाएँ जिन्हें 'बच्चे' पसंद करते हैं (search keyword inflow आदि के आधार पर निर्णय). वास्तव में करके देखा तो game, play आदि ही भारी पड़े.
- दिखाए गए keywords में से पसंद का एक चुनें
- instruction में तय logic के अनुसार तुरंत एक पेज की नई और तार्किक कहानी output हो जाती है
- अधिकतर सामग्री पसंद आने लायक और नई होती है, लेकिन prompt के माध्यम से कुछ हिस्सों में बदलाव या deletion का अनुरोध किया जा सकता है.
- अंतिम रूप से तय text को यदि Actions के माध्यम से "मेरे email या API पर भेजो" कहा जाए, तो वह तुरंत भेज दिया जाता है और trigger हो जाता है.
-
अब GPTs से call होकर text value प्राप्त करने वाले Zapier में, मैंने जो sequence सेट किया है उसी क्रम में API call होते हैं, और data processing, fusion तथा generation होती है.
-
अंतिम वीडियो generation तक multimodal components (API और कई service platforms का उपयोग)
- optimized text script
- text-to-speech generation
- script corpus (आमतौर पर 1 से 3 वाक्य के एक chunk के रूप में परिभाषित) से
context और keywords अपने-आप निकालकर image generation - music, sound effects, emoji जैसी अतिरिक्त accessories भी context के अनुसार अपने-आप place होती हैं
- बनी हुई voice को subtitles के रूप में output करना
- अंतिम video rendering
- वैकल्पिक रूप से "multilingual language conversion"
- तैयार output डाउनलोड करके काम पूरा
- YouTube content के रूप में upload
समय मापने पर (और यह लगातार तेज़ हो रहा है),
- GPTs के माध्यम से नई कहानी बनाने की पूरी प्रक्रिया: 1 मिनट से कम
- Actions call के ज़रिए backend APIs की बाद की processing: लगभग 1~2 मिनट
- अंतिम multimodal video के auto-generation तक: लगभग 3 मिनट
- इस चरण में यदि इंसान चेक करके जिन हिस्सों में ज़रूरत हो वहाँ थोड़ा retouch कर दे,
तो quality बहुत बढ़ जाती है (सिर्फ simple retouch हो तो लगभग 3 मिनट) - अंतिम rendering: 3~5 मिनट (video size के अनुसार अलग)
यानी, 10 मिनट में 3D modeling background के साथ काफ़ी अच्छी, मज़बूत और मज़ेदार
बच्चों की एक वीडियो बन जाती है.
खर्च भी देखा जाए तो OPENAI सहित कुछ paid APIs की usage fee और hosting cost
सब मिलाकर भी 3 मिनट के भीतर की एक वीडियो बनाने की लागत के हिसाब से प्रति मिनट 1,000 won से कम होगी.
[तैयार नतीजा देखने के लिंक]
"Tori's Adventure" episode 1: K-POP star transformation (कोरियाई)
https://www.youtube.com/watch?v=m4U-pQPXQc8&t=15s
"Tori's Adventure" episode 1: K-POP star transformation (English version)
https://www.youtube.com/watch?v=CT3KHU7BvIs
"Tori's Adventure" episode 2: Superhero transformation (कोरियाई)
https://www.youtube.com/watch?v=U4n_W22zWaY&t=7s
"Tori's Adventure" episode 3: Santa Claus transformation (कोरियाई / 3D modeling version)
https://www.youtube.com/watch?v=wl2RWAqOXtY
मेरा मानना है कि इस प्रक्रिया में 90% से अधिक unattended automation हासिल हो चुका है.
इस प्रयोग के माध्यम से कई application क्षेत्रों की संभावना दिखी, और उसी जानकारी को
साझा करने के उद्देश्य से यह पोस्ट लिख रहा हूँ.
यदि आप और जानकारी चाहते हैं, तो community में शामिल हों.
[ community (KakaoTalk open chat) में शामिल होने का लिंक ]
https://open.kakao.com/o/gE6hK9Vf
1 टिप्पणियां
उम्मीद है कि यह कई लोगों के लिए थोड़ी-बहुत मददगार होगी।