- OpenAI ने ChatGPT में नई voice और image सुविधाएँ पेश कीं
- ये नई सुविधाएँ users को voice conversation करने या ChatGPT को image दिखाने जैसी अधिक सहज interface देती हैं
- users landmark की photo लेकर real-time बातचीत कर सकते हैं, या fridge और pantry की photo लेकर dinner menu तय करने जैसे कई तरीकों से इन सुविधाओं का उपयोग कर सकते हैं
- अगले दो हफ्तों में Plus और Enterprise users के लिए rollout किया जाएगा; voice सुविधा iOS और Android पर, जबकि image सुविधा सभी platforms पर उपलब्ध होगी
- नई voice सुविधा text और कुछ सेकंड की sample voice से human-like audio बना सकने वाले text-to-speech model द्वारा संचालित है
- voice सुविधा professional voice actors के साथ सहयोग में विकसित की गई है और बोले गए शब्दों को text में बदलने के लिए OpenAI के open source speech recognition system Whisper का उपयोग करती है
- image understanding सुविधा GPT-3.5 और GPT-4 द्वारा संचालित है, जो विभिन्न images पर language reasoning क्षमता लागू करते हैं
- OpenAI इन सुविधाओं को चरणबद्ध तरीके से rollout कर रहा है ताकि सुरक्षित और उपयोगी इस्तेमाल सुनिश्चित किया जा सके और users को भविष्य के अधिक शक्तिशाली systems के लिए तैयार किया जा सके
- नई voice technology में public figures की नकल करने या fraud करने वाले malicious actors के लिए संभावित जोखिम हैं
- vision-based models भी नई चुनौतियाँ पेश करते हैं, जैसे लोगों के बारे में hallucination या high-risk क्षेत्रों में model की image interpretation पर निर्भरता
- OpenAI ने व्यक्तिगत privacy का सम्मान करने के लिए ChatGPT की लोगों के बारे में analysis और direct comments करने की क्षमता सीमित करने के उपाय किए हैं
- OpenAI ने models की सीमाओं के बारे में transparency रखी है, खासकर research और non-Roman script languages के क्षेत्रों में सीमाओं पर ज़ोर दिया है
- Plus और Enterprise users अगले दो हफ्तों में voice और image सुविधाओं का अनुभव कर सकेंगे, और developers सहित अन्य user groups को इसके तुरंत बाद access मिलेगा
1 टिप्पणियां
Hacker News की राय