ChatGPT अब देख, सुन और बोल सकता है

kuroneko · 2023-09-26T10:09:40+09:00

ChatGPT में नई voice और image सुविधाएँ जारी की गई हैं. अब voice के ज़रिए स्वाभाविक बातचीत करना और image attach करके सवाल पूछना संभव है. voice को Whisper के ज़रिए text में बदला जाता है, और जवाबों को नए TTS model के आधार पर पेशेवर voice actor की आवाज़ में बदला जाता है. नया TTS model सिर्फ कुछ सेकंड के sample voice से भी उसी व्यक्ति की आवाज़ को काफ़ी सटीक रूप से दोहरा सकता है. यह model Spotify के podcast translation फीचर में भी इस्तेमाल होता है, जहाँ podcaster की अपनी आवाज़ को बनाए रखते हुए कई भाषाओं में अनुवाद किया जाता है. एक बार में कई images attach की जा सकती हैं, और यह image के भीतर के text के साथ-साथ objects को भी विस्तार से पहचान सकता है. आप किसी tool या device के इस्तेमाल का तरीका पूछ सकते हैं, या fridge में मौजूद ingredients के आधार पर recipe पर बातचीत कर सकते हैं. इसके अलावा graph का analysis करना या math problems हल करना भी संभव है. mobile app में drawing tool के ज़रिए image के किसी खास हिस्से पर ध्यान केंद्रित कराया जा सकता है. सुरक्षा और privacy के लिए लोगों के बारे में analysis करने या उन पर बात करने की क्षमता काफ़ी सीमित रखी गई है. यह अगले 2 हफ्तों के भीतर पहले Plus और Enterprise users को उपलब्ध कराया जाएगा. voice सिर्फ iOS और Android पर काम करेगी, जबकि image attach फीचर सभी platforms पर उपलब्ध है.

(openai.com)

22 पॉइंट द्वारा kuroneko 2023-09-26 | 4 टिप्पणियां | WhatsApp पर शेयर करें

ChatGPT में नई voice और image सुविधाएँ जारी की गई हैं.
अब voice के ज़रिए स्वाभाविक बातचीत करना और image attach करके सवाल पूछना संभव है.
voice को Whisper के ज़रिए text में बदला जाता है, और जवाबों को नए TTS model के आधार पर पेशेवर voice actor की आवाज़ में बदला जाता है.
- नया TTS model सिर्फ कुछ सेकंड के sample voice से भी उसी व्यक्ति की आवाज़ को काफ़ी सटीक रूप से दोहरा सकता है.
- यह model Spotify के podcast translation फीचर में भी इस्तेमाल होता है, जहाँ podcaster की अपनी आवाज़ को बनाए रखते हुए कई भाषाओं में अनुवाद किया जाता है.
एक बार में कई images attach की जा सकती हैं, और यह image के भीतर के text के साथ-साथ objects को भी विस्तार से पहचान सकता है.
- आप किसी tool या device के इस्तेमाल का तरीका पूछ सकते हैं, या fridge में मौजूद ingredients के आधार पर recipe पर बातचीत कर सकते हैं.
- इसके अलावा graph का analysis करना या math problems हल करना भी संभव है.
- mobile app में drawing tool के ज़रिए image के किसी खास हिस्से पर ध्यान केंद्रित कराया जा सकता है.
- सुरक्षा और privacy के लिए लोगों के बारे में analysis करने या उन पर बात करने की क्षमता काफ़ी सीमित रखी गई है.
यह अगले 2 हफ्तों के भीतर पहले Plus और Enterprise users को उपलब्ध कराया जाएगा.
voice सिर्फ iOS और Android पर काम करेगी, जबकि image attach फीचर सभी platforms पर उपलब्ध है.

4 टिप्पणियां

alstjr7375 2023-09-26

स्काईनेट आ रहा है...

ciber27 2023-09-26

लगता है कि फिल्म her जैसा OS अब संभव हो जाएगा

kuroneko 2023-09-26

जब GPT-4 पहली बार रिलीज़ हुआ था तब यह थोड़ी देर के लिए सामने आया था, लेकिन इमेज को पहचानने से आगे बढ़कर उन्हें समझना वाकई बहुत हैरान करने वाला है।

उदाहरणों में एक हिस्सा आता है जहाँ साइकिल की सीट को कैसे एडजस्ट करना है, यह पूछा जाता है,
और यह सिर्फ साधारण इमेज रिकग्निशन नहीं लग रहा, बल्कि जैसे मैनुअल देखकर सही टूल ढूँढकर दे रहा हो...

मुझे लगा था शायद Plus सब्सक्रिप्शन की ज़रूरत होगी, लेकिन अगर ऐसा है तो बात थोड़ी अलग हो जाती है... बहुत उत्सुकता हो रही है।

kuroneko 2023-09-26

HN थ्रेड का AI सारांश

modeless: उनका मानना है कि latency अभी voice assistants की सबसे बड़ी समस्या है, और voice conversation turn-taking model बनाने से अधिक स्वाभाविक बातचीत संभव हो सकेगी।
TheEzEzz: उन्होंने Llama और अन्य tools का उपयोग करके कम latency वाला voice ordering system बनाया है, जो स्वाभाविक बातचीत के काफ़ी करीब है। उनका मानना है कि इस क्षेत्र में लगातार शोध से नए applications विकसित किए जा सकते हैं।
cyrux004: वे सवाल उठाते हैं कि क्या local पर चलने वाले models, खासकर जटिल systems के मामले में, cloud-based models जैसी performance हासिल कर सकते हैं।
TheEzEzz: वे सहमत हैं कि यह application पर निर्भर करता है, और उम्मीद करते हैं कि hybrid approach आम हो जाएगी, जिसमें local model शुरुआती processing संभालेगा और ज़रूरत पड़ने पर ही बड़े cloud model से अनुरोध करेगा।
simian1983: वे पूछते हैं कि अगर system को बेमतलब या दुर्भावनापूर्ण requests मिलें तो क्या होगा।
TheEzEzz: वे जवाब देते हैं कि system को इस तरह train किया गया है कि background noise अनुरोध में बाधा न डाले, इसलिए असंबंधित वाक्यों को नज़रअंदाज़ किया जाता है।
furyofantares: वे इस बात पर ज़ोर देते हैं कि voice assistant के response को बीच में रोक पाने की क्षमता महत्वपूर्ण है, ठीक वैसे ही जैसे हम किसी इंसान से बात करते समय करते हैं।
dotancohen: वे सुझाव देते हैं that interruption शायद उस मानवीय गुण का संकेत हो सकती है, जिस पर AI systems ने अभी पूरी पकड़ नहीं बनाई है।
jonplackett: उनका मानना है कि सचमुच human-level voice assistant को उतार-चढ़ाव भरे intonation को समझना आना चाहिए, जो text में मौजूद न होने वाली महत्वपूर्ण जानकारी पहुँचाता है।

ChatGPT अब देख, सुन और बोल सकता है

संबंधित पढ़ाई

4 टिप्पणियां