प्रोस्यूमर का भविष्य: "AI Native" वर्कफ़्लो का उदय

xguru · 2024-02-19T11:05:01+09:00

काम के लिए इस्तेमाल होने वाले software को पसंद करने वाले लोग लगभग नहीं हैं सबसे अच्छे उत्पाद भी वास्तविक काम में लागू करने पर अक्सर उतने flexible या sophisticated नहीं होते, सीखने की curve तेज़ होती है और अपनाना कठिन होता है जनरेटिव AI ऐसे workflow को पूरी तरह बदलने का अवसर देता है, जिससे शुरुआत से ही बिल्कुल नए product बनाना संभव होता है AI-native workflow उपयोगकर्ताओं की मदद करते हैं ताकि वे पहले से किए जाने वाले काम को अधिक कुशलता से कर सकें ऐसे platform उपयोगकर्ता को low-level काम AI सहायक को देने देते हैं, जिससे high-level thinking पर ज्यादा समय दिया जा सकता है यह हर व्यक्ति को programmer, producer, designer या musician बनने के लिए नई technical और aesthetic skills unlock करने में मदद करता है creativity और technical कौशल के बीच का अंतर कम हो जाता है AI-आधारित workflow वाले 'expert-level मगर consumer-friendly' उत्पाद के साथ हर कोई next-gen prosumer बन सकता है (prosumer: वह व्यक्ति जो एक साथ producer और consumer दोनों की भूमिका निभाता है; Alvin Toffler ने इसे The Third Wave में इस्तेमाल किया था) GenAI नेटिव prosumer उत्पाद कैसे दिखते हैं? सभी Gen AI नेटिव workflow products का एक साझा गुण है कि वे state-of-the-art models को उपयोग के अनुकूल और प्रभावी UI में बदलते हैं उपयोगकर्ता product के पीछे की infrastructure में जाने से ज्यादा, product उनके काम में कैसे मदद करता है, इसमें रुचि लेते हैं Gen AI ने तकनीकी छलांगें दी हैं जो सचमुच उल्लेखनीय हैं, लेकिन सफल उत्पाद अब भी user और उसके pain points की गहरी समझ से शुरू होते हैं सफल उत्पाद: उपयोगकर्ता के pain points को गहराई से समझना, यह समझना कि AI से क्या abstract किया जा सकता है, निर्णय के वे बिंदु जहाँ approval चाहिए, और अधिकतम प्रभाव डालने वाली जगह यानी leverage point कहाँ है GenAI नेटिव prosumer उत्पादों की मुख्य विशेषताएँ blank page समस्या हल करने वाले generation tools natural language prompt से मीडिया बनाकर शुरुआत में मदद मिलती है या तो proprietary मॉडल से किया जाता है, या कई models को mix करके उपयोग होता है उदाहरण: Vizcom का rendering tool, Durable का website builder multimodal (और multimedia) combination कई creative प्रोजेक्ट में दो या अधिक content प्रकार चाहिए होते हैं: image और text, music और video, animation और voiceover आदि लेकिन अभी तक ऐसा कोई एक मॉडल नहीं है जो इन सभी asset प्रकारों को पैदा कर सके इसलिए ऐसा मौका बनता है कि उपयोगकर्ता एक ही जगह विभिन्न कंटेंट प्रकारों को generate, सुधार और combine कर सकें—यानी all-in-one workflow products उदाहरण: HeyGen के avatar (अपना avatar और ElevenLabs की TTS जोड़कर वास्तविकता के करीब बोलने वाला avatar बनाना) अधिक iteration संभव बनाने वाला intelligent editor 'एक ही बार में मिल जाने वाला' अंतिम परिणाम अक्सर मिलता ही नहीं AI की intrinsic randomness के कारण पहली रन में ठीक वही चीज़ मिलना और सही result पाना लगभग नामुमकिन होता है regenerate क्लिक करना या prompt बदलना जरूरी है, लेकिन यह समय लेने वाला और निराशाजनक process है AI generation की पहली लहर में कोई भी iteration allow नहीं था। वही prompt दोबारा चलाने पर पूरी तरह अलग output आता था अब ऐसे features दिखने लगे हैं जहाँ शुरुआत से दोबारा शुरू किए बिना पहले के output को लेकर refine किया जा सकता है उदाहरण: Midjourney के variation तथा upscale/zoom tools, Pika का specific area edit feature इन-प्रोडक्ट Refinement intelligent editing का दूसरा महत्वपूर्ण घटक है Refinement polishing का अंतिम 10% अक्सर good और great के बीच का फर्क होता है लेकिन (1) सुधारने के लिए चीज़ खोज निकालना, और (2) कहीं और जाए बिना सुधार करना काफी कठिन हो सकता है AI workflow products उपयोगकर्ता को सुधार के बिंदु identify करने के बाद खुद ही बेहतर करने में मदद देते हैं इसे Apple के photo पर 'auto retouch' जैसा समझ सकते हैं, बस इसे सभी चीज़ों पर लागू मानें उदाहरण: Krea का upscaling feature, ElevenLabs का audiobook workflow remix और transform हो सकने वाला Output हर content आगे के iteration के लिए संभावित शुरुआत बन सकता है अगर आपने Midjourney/ChatGPT में किसी और का prompt copy करके edit करके रन किया है, तो आप पहले से ही इसमें शामिल हैं जो platform इस flexibility का बेहतर इस्तेमाल करते हैं, वे अधिक powerful और sticky products बना सकते हैं शुरुआती creators के लिए यह बहुत मूल्यवान है क्योंकि वे वीडियो को ब्लॉग पोस्ट में बदल सकें या text manual को usage-animation वीडियो में बदल सकें, यानी कई media में conversion हो सके उदाहरण: Gamma publishing platform का मुख्य feature—prompt या uploaded file से deck, document या webpage बनाना और जरूरत पड़े तो format बदलना ऐसे products से यह भी संभव है कि workflow को expose करके अन्य users दोहरा सकें यह prompts या models की श्रृंखला हो सकती है, या कोई 'copy' button भी जिसमें कम technical users किसी output या aesthetics की नकल कर सकें उदाहरण: photographer-focused editing platform Imagen AI: हर फोटो ग्राफर की अलग शैली के हिसाब से model train करके आसान batch editing संभव साथ ही user platform पर प्रोफ़ाइल सार्वजनिक करने वाले top photographers की शैली में भी edit कर सकता है prosumer उत्पाद कैसे evolve करेंगे? next-generation prosumer tools अभी शुरुआती चरण में हैं existing tools के core asset-generation features अब इतना मजबूत हो चुके हैं कि meaningful workflow में जोड़े जा सकें, पर अधिकांश products अभी भी सिर्फ एक content type पर centered हैं और फीचर्स में काफी सीमित हैं अपेक्षित उत्पाद: अलग-अलग content modalities combine करने वाले editing tools वीडियो इसका शायद सबसे अच्छा उदाहरण होगा अभी एक AI short film बनाने के लिए Pika या Runway जैसे products में कई clips generate करने के बाद editing या sound mixing के लिए Capcut या Kapwing जैसे अलग platform पर जाना पड़ता है अगर इसी पूरी process के सभी steps एक ही platform पर हो जाएँ तो क्या होगा? अनुमान है कि कई next-gen products ज्यादा workflow functionality जोड़कर, अपनी model training, open-source models के उपयोग या अन्य players के साथ partnerships के जरिए अलग प्रकार की content creation तक expand करेंगे साथ ही संभव है कि अलग-अलग models को 'plugin' करने वाला नया standalone AI-native editor भी आए अन्य interaction modes लेने वाले उत्पाद text prompt हमेशा AI products से communicate करने का सबसे effective तरीका नहीं होता मनुष्य के brainstorming partner की तरह voice, sketch और reference image share करके काम करने की तरह, जनरेशन tools के साथ भी ऐसे modes की जरूरत है खासकर voice के प्रति भरोसा बढ़ रहा है क्योंकि इसमें उपयोगकर्ता ज्यादा nuanced और complex thoughts share कर सकता है (या text में संभव नहीं हो पाता) voice notes को email, blog post या tweet में बदलने वाले Oasis, TalkNotes, AudioPen जैसे products पहले ही आने लगे हैं आगे और ज्यादा workflow products में audio और video input source के रूप में उपलब्ध होंगे, जिससे users का काम करने का तरीका और गति बदल जाएगी ऐसे उत्पाद जो मानव और AI से बनी content को बराबरी से treat करें ऐसा tool जहां AI और human content साथ-साथ इस्तेमाल हो सके, बहुत ज़रूरी है; अभी अधिकांश products एक ही तरफ focus करते हैं। उदाहरण के लिए, कोई tool real photo retouch करने में बेहतर हो सकता है लेकिन AI images पर कुछ नहीं कर पाता। या नया वीडियो generate कर सकता है लेकिन iPhone से clip retouch या style बदल नहीं सकता। आगे अनुमान है कि अधिकतर professional content creators AI और human content को mix करके काम करेंगे उनके उत्पादों को दोनों प्रकार की content को accept कर easy combine करने में सक्षम होना चाहिए Runway का editing tool इसे अच्छे से दिखाता है अपने generation models से clip और image लाकर वास्तविक assets upload करने पर उन्हें एक ही timeline पर उपयोग किया जा सकता है फिर inpainting और green screen जैसे कंपनी के 'magic tools' दोनों तरह की content पर चलाए जा सकते हैं यहाँ हमने जिन content workflow products पर focus किया, वे prosumer software के भविष्य का केवल एक अहम हिस्सा हैं जल्द ही दूसरा key घटक यानी productivity tools की गहराई से चर्चा करेंगे, और AI युग में शायद इसी तरह से पुनर्जन्म लेने वाले productivity tools को फिर से देखेंगे

(a16z.com)

9 पॉइंट द्वारा xguru 2024-02-19 | 2 टिप्पणियां | WhatsApp पर शेयर करें

काम के लिए इस्तेमाल होने वाले software को पसंद करने वाले लोग लगभग नहीं हैं
- सबसे अच्छे उत्पाद भी वास्तविक काम में लागू करने पर अक्सर उतने flexible या sophisticated नहीं होते, सीखने की curve तेज़ होती है और अपनाना कठिन होता है
जनरेटिव AI ऐसे workflow को पूरी तरह बदलने का अवसर देता है, जिससे शुरुआत से ही बिल्कुल नए product बनाना संभव होता है
AI-native workflow उपयोगकर्ताओं की मदद करते हैं ताकि वे पहले से किए जाने वाले काम को अधिक कुशलता से कर सकें
ऐसे platform उपयोगकर्ता को low-level काम AI सहायक को देने देते हैं, जिससे high-level thinking पर ज्यादा समय दिया जा सकता है
यह हर व्यक्ति को programmer, producer, designer या musician बनने के लिए नई technical और aesthetic skills unlock करने में मदद करता है
- creativity और technical कौशल के बीच का अंतर कम हो जाता है
- AI-आधारित workflow वाले 'expert-level मगर consumer-friendly' उत्पाद के साथ हर कोई next-gen prosumer बन सकता है
- (prosumer: वह व्यक्ति जो एक साथ producer और consumer दोनों की भूमिका निभाता है; Alvin Toffler ने इसे The Third Wave में इस्तेमाल किया था)

GenAI नेटिव prosumer उत्पाद कैसे दिखते हैं?

सभी Gen AI नेटिव workflow products का एक साझा गुण है कि वे state-of-the-art models को उपयोग के अनुकूल और प्रभावी UI में बदलते हैं
उपयोगकर्ता product के पीछे की infrastructure में जाने से ज्यादा, product उनके काम में कैसे मदद करता है, इसमें रुचि लेते हैं
Gen AI ने तकनीकी छलांगें दी हैं जो सचमुच उल्लेखनीय हैं, लेकिन सफल उत्पाद अब भी user और उसके pain points की गहरी समझ से शुरू होते हैं
सफल उत्पाद:
- उपयोगकर्ता के pain points को गहराई से समझना,
- यह समझना कि AI से क्या abstract किया जा सकता है,
- निर्णय के वे बिंदु जहाँ approval चाहिए,
- और अधिकतम प्रभाव डालने वाली जगह यानी leverage point कहाँ है

GenAI नेटिव prosumer उत्पादों की मुख्य विशेषताएँ

blank page समस्या हल करने वाले generation tools
- natural language prompt से मीडिया बनाकर शुरुआत में मदद मिलती है
- या तो proprietary मॉडल से किया जाता है, या कई models को mix करके उपयोग होता है
- उदाहरण: Vizcom का rendering tool, Durable का website builder
multimodal (और multimedia) combination
- कई creative प्रोजेक्ट में दो या अधिक content प्रकार चाहिए होते हैं: image और text, music और video, animation और voiceover आदि
- लेकिन अभी तक ऐसा कोई एक मॉडल नहीं है जो इन सभी asset प्रकारों को पैदा कर सके
- इसलिए ऐसा मौका बनता है कि उपयोगकर्ता एक ही जगह विभिन्न कंटेंट प्रकारों को generate, सुधार और combine कर सकें—यानी all-in-one workflow products
- उदाहरण: HeyGen के avatar (अपना avatar और ElevenLabs की TTS जोड़कर वास्तविकता के करीब बोलने वाला avatar बनाना)
अधिक iteration संभव बनाने वाला intelligent editor
- 'एक ही बार में मिल जाने वाला' अंतिम परिणाम अक्सर मिलता ही नहीं
- AI की intrinsic randomness के कारण पहली रन में ठीक वही चीज़ मिलना और सही result पाना लगभग नामुमकिन होता है
- regenerate क्लिक करना या prompt बदलना जरूरी है, लेकिन यह समय लेने वाला और निराशाजनक process है
- AI generation की पहली लहर में कोई भी iteration allow नहीं था। वही prompt दोबारा चलाने पर पूरी तरह अलग output आता था
- अब ऐसे features दिखने लगे हैं जहाँ शुरुआत से दोबारा शुरू किए बिना पहले के output को लेकर refine किया जा सकता है
- उदाहरण: Midjourney के variation तथा upscale/zoom tools, Pika का specific area edit feature
इन-प्रोडक्ट Refinement
- intelligent editing का दूसरा महत्वपूर्ण घटक है Refinement
- polishing का अंतिम 10% अक्सर good और great के बीच का फर्क होता है
- लेकिन (1) सुधारने के लिए चीज़ खोज निकालना, और (2) कहीं और जाए बिना सुधार करना काफी कठिन हो सकता है
- AI workflow products उपयोगकर्ता को सुधार के बिंदु identify करने के बाद खुद ही बेहतर करने में मदद देते हैं
- इसे Apple के photo पर 'auto retouch' जैसा समझ सकते हैं, बस इसे सभी चीज़ों पर लागू मानें
- उदाहरण: Krea का upscaling feature, ElevenLabs का audiobook workflow
remix और transform हो सकने वाला Output
- हर content आगे के iteration के लिए संभावित शुरुआत बन सकता है
- अगर आपने Midjourney/ChatGPT में किसी और का prompt copy करके edit करके रन किया है, तो आप पहले से ही इसमें शामिल हैं
- जो platform इस flexibility का बेहतर इस्तेमाल करते हैं, वे अधिक powerful और sticky products बना सकते हैं
- शुरुआती creators के लिए यह बहुत मूल्यवान है क्योंकि वे वीडियो को ब्लॉग पोस्ट में बदल सकें या text manual को usage-animation वीडियो में बदल सकें, यानी कई media में conversion हो सके
- उदाहरण: Gamma publishing platform का मुख्य feature—prompt या uploaded file से deck, document या webpage बनाना और जरूरत पड़े तो format बदलना
- ऐसे products से यह भी संभव है कि workflow को expose करके अन्य users दोहरा सकें
  - यह prompts या models की श्रृंखला हो सकती है, या कोई 'copy' button भी जिसमें कम technical users किसी output या aesthetics की नकल कर सकें
- उदाहरण: photographer-focused editing platform Imagen AI:
  - हर फोटो ग्राफर की अलग शैली के हिसाब से model train करके आसान batch editing संभव
  - साथ ही user platform पर प्रोफ़ाइल सार्वजनिक करने वाले top photographers की शैली में भी edit कर सकता है

prosumer उत्पाद कैसे evolve करेंगे?

next-generation prosumer tools अभी शुरुआती चरण में हैं
existing tools के core asset-generation features अब इतना मजबूत हो चुके हैं कि meaningful workflow में जोड़े जा सकें, पर अधिकांश products अभी भी सिर्फ एक content type पर centered हैं और फीचर्स में काफी सीमित हैं
अपेक्षित उत्पाद:
- अलग-अलग content modalities combine करने वाले editing tools
  - वीडियो इसका शायद सबसे अच्छा उदाहरण होगा
  - अभी एक AI short film बनाने के लिए Pika या Runway जैसे products में कई clips generate करने के बाद editing या sound mixing के लिए Capcut या Kapwing जैसे अलग platform पर जाना पड़ता है
  - अगर इसी पूरी process के सभी steps एक ही platform पर हो जाएँ तो क्या होगा?
  - अनुमान है कि कई next-gen products ज्यादा workflow functionality जोड़कर, अपनी model training, open-source models के उपयोग या अन्य players के साथ partnerships के जरिए अलग प्रकार की content creation तक expand करेंगे
  - साथ ही संभव है कि अलग-अलग models को 'plugin' करने वाला नया standalone AI-native editor भी आए
- अन्य interaction modes लेने वाले उत्पाद
  - text prompt हमेशा AI products से communicate करने का सबसे effective तरीका नहीं होता
  - मनुष्य के brainstorming partner की तरह voice, sketch और reference image share करके काम करने की तरह, जनरेशन tools के साथ भी ऐसे modes की जरूरत है
  - खासकर voice के प्रति भरोसा बढ़ रहा है क्योंकि इसमें उपयोगकर्ता ज्यादा nuanced और complex thoughts share कर सकता है (या text में संभव नहीं हो पाता)
  - voice notes को email, blog post या tweet में बदलने वाले Oasis, TalkNotes, AudioPen जैसे products पहले ही आने लगे हैं
  - आगे और ज्यादा workflow products में audio और video input source के रूप में उपलब्ध होंगे, जिससे users का काम करने का तरीका और गति बदल जाएगी
- ऐसे उत्पाद जो मानव और AI से बनी content को बराबरी से treat करें
  - ऐसा tool जहां AI और human content साथ-साथ इस्तेमाल हो सके, बहुत ज़रूरी है; अभी अधिकांश products एक ही तरफ focus करते हैं।
  - उदाहरण के लिए, कोई tool real photo retouch करने में बेहतर हो सकता है लेकिन AI images पर कुछ नहीं कर पाता।
  - या नया वीडियो generate कर सकता है लेकिन iPhone से clip retouch या style बदल नहीं सकता।
  - आगे अनुमान है कि अधिकतर professional content creators AI और human content को mix करके काम करेंगे
  - उनके उत्पादों को दोनों प्रकार की content को accept कर easy combine करने में सक्षम होना चाहिए
  - Runway का editing tool इसे अच्छे से दिखाता है
    - अपने generation models से clip और image लाकर वास्तविक assets upload करने पर उन्हें एक ही timeline पर उपयोग किया जा सकता है
    - फिर inpainting और green screen जैसे कंपनी के 'magic tools' दोनों तरह की content पर चलाए जा सकते हैं
यहाँ हमने जिन content workflow products पर focus किया, वे prosumer software के भविष्य का केवल एक अहम हिस्सा हैं
जल्द ही दूसरा key घटक यानी productivity tools की गहराई से चर्चा करेंगे, और AI युग में शायद इसी तरह से पुनर्जन्म लेने वाले productivity tools को फिर से देखेंगे

2 टिप्पणियां

savvykang 2024-02-19

AI प्रोस्यूमर उत्पादों के लिए वर्कफ्लो कॉम्बिनेशन को एक डिफरेंसिएटर के रूप में पेश किया जा रहा है, लेकिन मुझे लगता है कि इसका निचोड़ और सीमाएँ पहले से मौजूद low-code प्लेटफ़ॉर्म जैसी ही हैं।

व्यवहार में किसी भी व्यक्ति को दिए जाने वाले सभी कामों की जटिलता इतनी नहीं होती कि उन्हें low-code से सहज रूप से कंट्रोल किया जा सके; कई बार काम स्वयं ही इतना जटिल होता है कि उसे low-code प्लेटफ़ॉर्म से हल करने की जगह विशेषज्ञ प्रोग्रामिंग स्किल से complexity को संभालना बेहतर होता है। अगर हम प्रोग्रामिंग की तुलना इलेक्ट्रॉनिक सर्किट असेंबली से करें, तो low-code सॉल्यूशन का मेल breadboard से होता है। breadboard पर पहले एक चलने वाला इलेक्ट्रॉनिक सर्किट जोड़कर प्रोटोटाइप बनाया जा सकता है, लेकिन उसी से वह विश्वसनीय integrated circuit नहीं बनाया जा सकता जिसकी भरोसेमंदी की जरूरत हो।