ChatGPT में voice conversation और image input फ़ीचर जोड़े गए

(openai.com)

1 पॉइंट द्वारा GN⁺ 2023-09-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने ChatGPT में voice conversation और image input को चरणबद्ध तरीके से जोड़ा है, जिससे अब केवल text input से आगे बढ़कर बोलकर बातचीत करना और तस्वीरें दिखाकर सवाल पूछना संभव होगा
voice फ़ीचर का इस्तेमाल mobile app में opt-in करने पर किया जा सकेगा, और 5 आवाज़ों में से एक चुनी जा सकेगी; Whisper उपयोगकर्ता की आवाज़ को text में बदलता है
image फ़ीचर फ़ोटो, screenshot, और text व image के मिश्रित दस्तावेज़ों को संभाल सकता है; mobile app में drawing tool से किसी खास हिस्से को चुना जा सकता है
यह पहले Plus और Enterprise उपयोगकर्ताओं के लिए 2 हफ्तों में रोल आउट होगा; voice iOS और Android पर, जबकि images सभी platforms पर उपलब्ध होंगी
वास्तविक voice synthesis, लोगों की images की व्याख्या, और high-risk क्षेत्रों में निर्भरता जैसे जोखिमों के कारण OpenAI ने सीमित rollout और safety measures साथ में लागू किए हैं

ChatGPT के नए input तरीके: बोलकर, दिखाकर, और पूछकर

ChatGPT ने ऐसे फ़ीचर पेश किए हैं जिनसे उपयोगकर्ता आवाज़ में बातचीत कर सकते हैं या images दिखाकर सवाल पूछ सकते हैं
नए फ़ीचर का लक्ष्य केवल keyboard input पर निर्भर रहने के बजाय ChatGPT का उपयोग अधिक सहज बनाना है
उपयोग के उदाहरण इस प्रकार हैं
- यात्रा के दौरान किसी landmark की तस्वीर लेकर, उसके बारे में दिलचस्प बातें real-time बातचीत में पूछना
- fridge और pantry की तस्वीरें दिखाकर dinner menu और step-by-step recipe पूछना
- बच्चे के math problem की तस्वीर लेकर, सवालों के सेट को घेरकर hint माँगना

पहले किन उपयोगकर्ताओं और platforms पर उपलब्ध होगा

Plus और Enterprise उपयोगकर्ता आने वाले 2 हफ्तों में voice और image फ़ीचर इस्तेमाल कर सकेंगे
voice फ़ीचर iOS और Android पर उपलब्ध होगा, और इसे settings में opt-in करना होगा
image फ़ीचर सभी platforms पर उपलब्ध होगा
इसके बाद developers सहित अन्य user groups तक पहुँच बढ़ाने की योजना है

voice फ़ीचर कैसे काम करता है

उपयोगकर्ता ChatGPT के साथ दो-तरफ़ा voice conversation कर सकते हैं
- चलते-फिरते बातचीत
- परिवार के लिए bedtime story माँगना
- dining table पर हो रही बहस को सुलझाना जैसे उपयोग मामले शामिल हैं
mobile app में voice शुरू करने के लिए Settings → New Features में voice conversations चालू करनी होगी
home screen के ऊपर दाईं ओर headphone button दबाकर 5 आवाज़ों में से पसंदीदा आवाज़ चुन सकते हैं
नया voice फ़ीचर एक text-to-speech model का उपयोग करता है, जो text और कुछ सेकंड की sample voice से इंसानों जैसी audio बना सकता है
हर आवाज़ OpenAI ने पेशेवर voice actors के साथ मिलकर तैयार की है
उपयोगकर्ता की बोली हुई बात को OpenAI का open source speech recognition system Whisper text में बदलता है

image फ़ीचर कैसे काम करता है

उपयोगकर्ता ChatGPT को एक या अधिक images दिखाकर बातचीत जारी रख सकते हैं
image input का उपयोग निम्न कामों में किया जा सकता है
- grill के चालू न होने की वजह जाँचना
- fridge के अंदर देखकर meal planning करना
- काम के data वाले जटिल graph का analysis करना
किसी खास हिस्से पर ध्यान दिलाने के लिए mobile app का drawing tool इस्तेमाल किया जा सकता है
image जोड़ने के लिए photo button दबाकर तस्वीर ली जा सकती है या image चुनी जा सकती है
- iOS और Android में पहले plus button दबाना होगा
- कई images पर साथ में चर्चा की जा सकती है या drawing tool से assistant को दिखाया जा सकता है कि किस हिस्से को देखना है
image understanding का काम multimodal GPT‑3.5 और GPT‑4 करते हैं
ये models फ़ोटो, screenshots, और text व image वाले दस्तावेज़ों सहित कई प्रकार की images पर language reasoning लागू करते हैं

क्रमिक rollout और safety measures

OpenAI ने क्रमिक रूप से जारी करने की रणनीति अपनाई है, ताकि सुधार और risk mitigation साथ-साथ हो सके
voice और vision वाले advanced models में वास्तविक misuse की संभावना बढ़ जाती है, इसलिए यह रणनीति और महत्वपूर्ण हो जाती है
voice से जुड़े जोखिम और सीमाएँ
- नई voice technology वास्तविक आवाज़ के कुछ सेकंड से भी यथार्थवादी synthetic voice बना सकती है
- यह creative use cases और accessibility-केंद्रित applications को संभव बनाती है, लेकिन public figures की नकल या fraud जैसे जोखिम भी लाती है
- OpenAI इस technology का उपयोग एक विशेष use case voice chat के लिए कर रहा है
- voice chat OpenAI के साथ सीधे काम करने वाले voice actors की आवाज़ों से बनाया गया है
- Spotify इस technology का उपयोग Voice Translation pilot में कर रहा है
- यह फ़ीचर podcasters की अपनी आवाज़ में podcast को अतिरिक्त भाषाओं में अनुवाद कर, storytelling की reach बढ़ाता है
- संबंधित लिंक: Voice Translation
image input से जुड़े जोखिम और सीमाएँ
- vision-based models में लोगों के बारे में hallucination और high-risk क्षेत्रों में image interpretation पर निर्भरता जैसी नई चुनौतियाँ हैं
- OpenAI ने व्यापक rollout से पहले red team और विभिन्न alpha testers के साथ models का परीक्षण किया
- परीक्षण क्षेत्रों में extremism और scientific proficiency जैसे जोखिम क्षेत्र शामिल थे
- Be My Eyes के साथ किया गया काम image उपयोग के तरीकों और सीमाओं को समझने में काम आया
- Be My Eyes दृष्टिबाधित और low-vision लोगों के लिए एक मुफ़्त mobile app है
- उपयोगकर्ताओं ने यह उपयोगी पाया कि वे उन images पर सामान्य बातचीत कर सकें जिनमें लोग शामिल हों, जैसे TV पर background में लोग दिख रहे हों
- चूँकि ChatGPT हमेशा सटीक नहीं होता और व्यक्तिगत privacy का सम्मान भी ज़रूरी है, OpenAI ने ChatGPT की लोगों का analysis करने और उनके बारे में सीधे कथन देने की क्षमता को काफ़ी सीमित करने के लिए तकनीकी उपाय लागू किए हैं
- वास्तविक उपयोग और feedback का इस्तेमाल safety measures को बेहतर बनाने के लिए किया जाता है, जबकि tool की उपयोगिता भी बनाए रखी जाती है

model की सीमाएँ और उपयोग में सावधानी

उपयोगकर्ता research जैसे विशेषज्ञ विषयों में ChatGPT पर निर्भर हो सकते हैं, इसलिए model की सीमाओं को समझना और बिना सत्यापन के high-risk use से बचना चाहिए
model अंग्रेज़ी text transcription में अच्छा है, लेकिन कुछ अन्य भाषाओं में, खासकर non-Roman scripts में, इसका प्रदर्शन कमज़ोर है
OpenAI इस उद्देश्य के लिए non-English उपयोगकर्ताओं को ChatGPT इस्तेमाल करने की सलाह नहीं देता
image input के safety approach और Be My Eyes से जुड़े काम के बारे में system card for image input में और पढ़ा जा सकता है

1 टिप्पणियां

GN⁺ 2023-09-26

Hacker News की राय

वॉइस इंटरफ़ेस में जबरदस्त संभावनाएं हैं, लेकिन यह डेमो काफी निराश करता है क्योंकि दूसरे खराब वॉइस असिस्टेंट्स की तरह सवाल और जवाब के बीच कुछ सेकंड की देरी है
ऐसा होना ज़रूरी नहीं है। Llama 2 से बना एक लोकल डेमो करीब 0.5 सेकंड में जवाब देता है, जिससे यह Siri जैसा नहीं बल्कि किसी असली इंसान से बात करने जैसा ज्यादा लगता है
इसे लोगों के आज़माने लायक पैकेज करना होगा, लेकिन एक समस्या यह है कि यूज़र ने बोलना खत्म किया है या नहीं, यह तय करना मुश्किल है। तैयार वॉइस रिकग्निशन सिस्टम्स में बातचीत के टर्न-टेकिंग डेटासेट और मॉडल नहीं होते, और OpenAI जैसी कंपनी इसे आसानी से बना सकती है
- पूरी तरह सहमत। बेहतरीन वॉइस अनुभव खोलने के लिए लेटेंसी ही मुख्य चीज़ है। वॉइस ऑर्डरिंग के लिए जिस छोटे डेमो पर काम कर रहा हूं, वह https://youtu.be/WfvLIEHwiyo पर है
  स्पीच-टू-टेक्स्ट, LLM, SKU वेरिफिकेशन के लिए POS, और फिर से स्पीच जनरेशन तक पूरा राउंड-ट्रिप डिले कुछ सौ मिलीसेकंड के स्तर पर है। SKU वेरिफिकेशन होने से hallucination भी असंभव है, और यह स्तर काफी नैचुरल महसूस होता है। अगर ऐसी कम लेटेंसी को जनरल सिस्टम बनाया जाए तो यह कई तरह की applications को बहुत खोल देगा
- सही। मेरे बोलना खत्म करते ही इसे तैयार होना चाहिए, और मुझे बीच में टोक पाने में सक्षम होना चाहिए
  अगर यह संभव हो, तो जब मैं थोड़ी देर रुकूं तो यह सावधानी से बोलना शुरू कर सकता है, और अगर मैं बोलता रहूं तो तुरंत रुक भी सकता है
  मैं यह सोचने में नहीं पड़ना चाहता कि interaction को explicit call/response chain की तरह कैसे बनाना है, और यह भी नहीं चाहता कि जब तक मेरी बात पूरी न हो जाए तब तक लगातार बोलते रहने को लेकर सावधान रहना पड़े कि कहीं यह गलत समय पर एक्ट न कर दे
- यूज़र ने बोलना खत्म किया है या नहीं, यह तय करना कभी-कभी सुनने वाले के साथ-साथ बोलने वाले के लिए भी मुश्किल होता है
  शिष्ट तरीके से बीच में टोकना, या उसका न होना, यह पहचानने का संकेत भी बन सकता है कि हम AI से बात कर रहे हैं या नहीं
- जानना चाहूंगा कि क्या आप GitHub लिंक शेयर कर सकते हैं। लेटेंसी कहां कम कर रहे हैं? क्या आप raw audio को text के रूप में प्रोसेस कर रहे हैं?
  मेरे अनुभव में, अगर 7B जैसे छोटे मॉडल का इस्तेमाल नहीं कर रहे हैं तो ChatGPT की जनरेशन टाइम लोकल Llama से कहीं तेज़ है
- सोचता हूं कि कंप्यूटर कब intonation को भी ध्यान में रखना शुरू करेंगे। वाक्यांश के अंत को समझने में यह सचमुच मदद करेगा
  सिर्फ टेक्स्ट में जो जानकारी नहीं होती, वह intonation में बहुत ज्यादा होती है। AI भाषा के उस हिस्से को नहीं समझता तो वह कितना भी smart हो, कहीं न कहीं बेवकूफ ही रहेगा
साइकिल वाला उदाहरण प्यारा और प्रभावशाली है, लेकिन इंसानों के साथ interaction बड़ी संभावना को धुंधला करता लगता है
कुछ चीज़ें सुधार दी जाएं तो यह robot planning के लिए general-purpose solver बन जाता है। असल में काम करने वाले solution तक पहुंचने में कुछ मुश्किल समस्याएं अभी बची हैं, लेकिन उनमें से एक तो हल हो गई मानी जा सकती है
क्या अगले 5 सालों में हम ChatGPT से चलने वाले general-purpose robots को साधारण श्रम करते देखेंगे?
- साइकिल वाला उदाहरण डेमो वीडियो के हिसाब से कमजोर था, और बल्कि भ्रमित करने वाला भी
  1. पहली image में यह इतना smart नहीं था कि bolt-style seat clamp पहचान सके। इंसान पहचान सकता है
  2. manual viewer को नहीं दिखता, इसलिए पता नहीं चलता कि model को कैसे मालूम कि यह 4mm bolt है, या उसने सबसे plausible समझकर अनुमान लगाया
  3. यह भी समझ नहीं आता कि उसे कैसे पता कि toolkit में metric hex keys हैं
    ऊपर से, मैं यह भी सोच रहा हूं कि क्या यह वही vision model है जो Bing Chat में पहले से है
- Google ने कुछ महीने पहले ही डेमो कर दिया था
  https://www.deepmind.com/blog/rt-2-new-model-translates-visi...
- सच कहूं तो मुझे लगता है वे इससे ज्यादा convincing example इस्तेमाल कर सकते थे। बहुत सारी चीज़ें पहचानना cool है, लेकिन पता नहीं यह demo असल में कितना useful है
  toolkit और manual रखने वाला व्यक्ति साइकिल की seat नीचे करने जैसे बेहद basic सवाल पूछ रहा है। कौन साइकिल manual रखता है, और यह तो मेरा 5 साल का बच्चा भी कर सकता है
  AI का मानवता पर breakthrough impact दिखाने का कोई बेहतर तरीका जरूर होगा। कम से कम जूते के फीते बांधना ही दिखा देते
- सही है, लेकिन ecological footprint बहुत बड़ा है
  drone जैसे छोटे और हल्के robots के लिए भी suitable नहीं है
- इसी हिस्से को लेकर मैं सबसे ज्यादा उत्साहित हूं। हाल में एक छोटी breakthrough हुई थी: https://pressroom.toyota.com/toyota-research-institute-unvei...
इस घोषणा से लगता है कि ChatGPT के ऊपर multimodal करने की कोशिश कर रहे काफ़ी सारे startups खत्म हो गए हैं
image और voice use cases तक हल करने की रफ्तार देखकर लगता है कि यह जल्द ही सब पर राज करने वाला एक single app बन सकता है
अभी से Alexa/Siri/Google Home का replacement, Google image search का replacement, और फोटो खींचकर AI से समस्याएँ हल कराने वाले edutech startups का पतन दिख रहा है, और लगता है यह आगे भी जारी रहेगा
- पीछे मुड़कर देखें तो ऐसे startups को सावधान रहना चाहिए था। उन्हें पता होना चाहिए था कि OpenAI के पास Whisper है, और GPT-4 को image modality तक ध्यान में रखकर design किया गया था
  यह तो नहीं कह सकते कि OpenAI ने खुलकर अपनी मंशा लीक कर दी थी, लेकिन पहला strategic सवाल यह होना चाहिए था: “OpenAI अभी यह क्यों नहीं कर रहा है, और अगर वह करने लगे तो हम क्या करेंगे?”
- इस साल Google और Siri से बात करना वाकई बहुत झुंझलाहट भरा था। लंबी solo driving के दौरान मैं बस random topics सीखने के लिए बातचीत करना चाहता हूँ
  पूरी गर्मियों में मैं ChatGPT से “बात करते हुए” French, music theory, history, maths जैसी चीज़ें और सीखना चाहता था। यह feature बिल्कुल सही लगता है
- general-purpose AI tools या apps बनाना धीरे-धीरे एक खराब विकल्प जैसा लगने लगा है। viable AI business model दो तरह के दिखते हैं
  1. domain-specific AI: ऐसे बहुत technical और specific topics पर AI model को train करना जिनमें general-purpose AI models अच्छे नहीं हैं
  2. integration: अगर existing AI models के ऊपर बना रहे हैं, तो feature जोड़ने पर ध्यान न देकर enterprises और users के existing workflows में integrate करने पर ध्यान दें। internal processes को automate करके, और systems को उन तरीकों से जोड़कर जो पहले संभव नहीं थे, बड़ी value बनाई जा सकती है, और AI model companies के लिए इसे खुद करना भी मुश्किल है
    दोनों अक्सर साथ-साथ चलेंगे
- जिसने OpenAI के feature releases को follow किया है, उसके लिए ChatGPT का multimodal बनना अप्रत्याशित नहीं रहा होगा
  app में पहले से voice input है। अभी यह भेजने से पहले voice को text में बदलता है, लेकिन यह इतना अच्छा काम करता है कि लगभग जाँच या correction की जरूरत नहीं पड़ती। बल्कि मुझे तो यह आश्चर्य होता था कि यह अभी तक voice में reply क्यों नहीं करता
  image input feature मार्च में GPT-4 announcement का core और highlight था: https://openai.com/research/gpt-4
- मरने की बजाय Llama 2 या दूसरे open source models के ऊपर multimodal की तरफ pivot कर लेना काफी नहीं होगा? यह कोई बहुत बड़ा बदलाव नहीं होगा
  कई companies, governments वगैरह अपनी policies की वजह से OpenAI का इस्तेमाल नहीं कर सकतीं, क्योंकि उसमें data third-party service को भेजना पड़ता है। वे ऐसी चीज़ों के लिए भुगतान करेंगी जिन्हें on-premises या अपने private cloud में चला सकें
यह online education को असंभव बनाने वाला खंजर साबित होगा
सिर्फ ChatGPT से भी specialized text problems को copy-paste करके 90% accuracy के साथ जवाब मिल जाता था। अकेली कमजोरी वे सवाल थे जिनमें charts या diagrams शामिल होते थे
image support आने पर students screenshots या document scans upload करके ChatGPT से valid answers ले सकेंगे। मेरी नज़र में कई students खुशी-खुशी इस feature का दुरुपयोग करेंगे। इसका जवाब देने के लिए grading system छोड़ना होगा, या homework के बिना, supervised तरीके से सिर्फ school में assignments करवाने वाली in-person education को मजबूर करना होगा
- एक और विकल्प भी है। यह students का काम replace करने के बजाय teachers का काम replace कर सकता है
  ChatGPT का सबसे बड़ा use case कई topics को self-learn करने में रहा है। X सीखने के लिए ChatGPT से सवाल पूछते हुए इसे Socratic seminar की तरह इस्तेमाल किया जा सकता है
  बेशक यह students की homework generate करने की क्षमता को तेजी से बदल देगा, लेकिन शुरू से ही students के सीखने के तरीके को भी तेजी से बदल सकता है। AI-assisted tutoring के जरिए online school आज की तुलना में बहुत ज्यादा कुछ बन सकता है
  आगे शिक्षा के कहीं ज्यादा decentralized होने, students के curriculum और methods खुद चुनने, और अपने काम पर ownership व control महसूस करने की ऐसी future भी संभव लगती है, जिसमें वे इसे सिर्फ “busy work” न समझें
- सच है
  अगर हमारे समय के सबसे प्रतिभाशाली लोगों ने तय कर लिया है कि species की progress के लिए इंसानों का machines से replace होना ही सबसे अच्छा है, तो schoolwork करने का मतलब क्या रह जाता है, यह सोचने वाली बात है
  अगर आप अभी 16 साल के हैं, ChatGPT और OpenAI की योजनाओं के बारे में जानते हैं, और एक तरफ आपको अच्छी job पाने के लिए मेहनत से पढ़ने को कहा जा रहा है, तो दूसरी तरफ technocrats जिस future को देख रहे हैं उसे पढ़ना काफी confusing होगा
  अभी पढ़ाई करना चाहना और साथ ही cheating न करना वाकई बहुत मुश्किल लगता होगा
- आप यह point miss कर रहे हैं कि जल्द ही teacher एक LLM होगा, जिसमें student को देखने वाला camera लगा होगा
  online class में किसी इंसान का video देखने की जरूरत ही क्यों होगी? student से अंधेरे कमरे में कुछ produce करने को कहने की वजह क्या होगी?
  student evaluation homework पर नहीं, बल्कि AI assistant और student के बीच हुई conversations पर आधारित होगा। teaching को automate किया जा सकता है, लेकिन learning को automate नहीं किया जा सकता
  अभी बस education के catch up करने में time lag है, और education महंगी है इसलिए यह जल्दी solve होगा। parents को सच में बच्चों को पहले की तरह learning practice करने के लिए encourage करना चाहिए, और ChatGPT को Wikipedia की तरह use करने देना चाहिए। transition में एक generation को तकलीफ झेलनी पड़ेगी
- school context में ChatGPT के misuse की बात करते समय आम तौर पर high school या उससे ऊपर, यानी higher education के students की बात होती है। वे सही-गलत जानते हैं, और tool इस्तेमाल करने की motor skills व access भी रखते हैं
  उनकी specific need यह है कि homework या essays को रास्ते से हटाकर XYZ करना है। शायद XYZ में ChatGPT इस्तेमाल नहीं होगा। तो समय खर्च करने की चीज़ वही बना देनी चाहिए
  किसी stage पर वे जरूरी skills को उलटे क्रम में खोजकर सीखेंगे, और educational guidance व structure की जरूरत महसूस करेंगे। यह आसान नहीं होगा और time व resources के बिना नहीं होगा, लेकिन adaptation ऐसे ही आगे बढ़ेगा
- एक certification exam के दौरान मेरे computer पर एक app चलाया गया था जो check करता था कि कोई और चीज़ open तो नहीं है, और पूरे exam में camera on रखना पड़ता था ताकि मेरा शरीर और हाथ दिखते रहें
  cheating को इतना मुश्किल बना देने के तरीके हैं कि वह worthwhile न रहे। लेकिन यह technology हम क्या सीखते हैं और कैसे सीखते हैं, इसे बहुत बड़े स्तर पर बदल देगी। यह transformative है और इसकी रफ्तार कम नहीं होने वाली
वेब ब्राउज़िंग, यानी Bing ब्राउज़िंग चैट फीचर को कई महीनों तक disable रखने के बाद चुपचाप हटा देने का तरीका पसंद नहीं आया
अच्छा होता अगर फीचर हटाने की ढंग की घोषणा होती। हो सकता है मैं चूक गया होऊं, लेकिन आखिरी आधिकारिक खबर यह थी कि कुछ ठीक करते समय इसे अस्थायी रूप से disable किया जा रहा है। जब ध्यान दिया तो यह बिना कुछ कहे प्लेटफॉर्म से पूरी तरह गायब हो चुका था
- मेरे अकाउंट में अभी plugin के रूप में Browsing with Bing enabled है। कुछ महीनों तक गायब रहने के बाद करीब 1–2 हफ्ते पहले अचानक वापस आ गया
- यह निराशाजनक था, और मैं इस बात से सहमत हूं कि लगता नहीं कि वे इसे फिलहाल फिर से enable करेंगे
  हालांकि Perplexity AI वेब सर्च का उपयोग ChatGPT से बेहतर करता है, इसलिए इसी वजह से मैं उसे ChatGPT से ज्यादा इस्तेमाल कर रहा हूं
- यह कहने के लिए ही अकाउंट बनाया: मेरे पास अभी यह फीचर है। कुछ महीनों तक गायब था और शायद पिछले हफ्ते के आसपास वापस आया
  यह plugin भी नहीं है, बल्कि चुनने लायक एक अलग “model” के रूप में है
- सहमत हूं। अब third-party plugins पर निर्भर रहना पड़ता है
अब तक सबसे सहज killer app स्तर का user experience text chat ही लगता है
images दिखाकर interact करना भी दिलचस्प है, जैसे किसी topic पर दोस्त से बात कर रहे हों, लेकिन देखना होगा कि यह ChatGPT जैसी बहुत होशियार व्यक्ति से बात करने जैसा लगेगा या ऐसी बहुत धीमी-बुद्धि व्यक्ति से बात करने जैसा जो objects को कुछ हद तक पहचान लेता है
wrench पहचान लेना उतना प्रभावशाली नहीं है जितना ChatGPT से इतिहास पर बातचीत करना या उससे सच में काम करने वाला code लिखवाना
OpenAI अच्छा कर रहा है। लोग दिलचस्प use cases सोचते हैं, लेकिन लगता है AI से interact करने का मुख्य तरीका ज्यादातर लोगों के लिए अब भी ChatGPT ही है
हालांकि image generation पर वे अभी ठीक से पकड़ नहीं बना पाए हैं, और शानदार चीजें लगातार MidJourney और Stable Diffusion की तरफ से आ रही हैं
- OpenAI भी “अक्टूबर की शुरुआत” में DALL-E 3 रिलीज करने वाला है, और demo के लिए चुनी गई images unprecedented स्तर की prompt समझ दिखाती हैं
  output image के अंदर पूरे वाक्य वाला text डालना तक संभव लगता है
इसे implement करने के लिए मैं कई AI services को जोड़ने वाले कुछ hobby projects बना रहा था, इसलिए कई बार round-trip करने की complexity और delay कम होगी, यह सोचकर उत्साहित हूं
अगर API समय पर, यानी Halloween के आसपास आ गया, तो ESP32 camera लगे बोलने वाले कंकाल के सिर वाले multimodal project का software हिस्सा थोड़ा आसान हो जाएगा, जो लोगों की costume देखकर ताने मारेगा
- मजेदार irony यह है कि ठीक इसी वजह से मैंने ऐसी कोशिश की ही नहीं
- अगर बनाओ तो process या details शेयर करना अच्छा होगा। सच में बहुत cool लगता है और मैं भी कुछ similar बनाना चाहूंगा
- पूरा project जरूर देखना चाहूंगा। मेरा email profile में है
software test automation क्षेत्र में गहराई से जुड़े होने के नाते मैं app user interface के लिए मजबूत AI-based image recognition का इंतजार कर रहा हूं
जब इसे AI की test automation code लिखने की क्षमता के साथ जोड़ा जाएगा, तो उम्मीद है कि सिर्फ एक screenshot या screenshots की sequence से executable Selenium या Appium test code generate किया जा सकेगा। लगता है हम लगभग वहां पहुंच चुके हैं
- Google का Spotlight paper recommend करूंगा[1]। इस उद्देश्य के लिए बनाए गए datasets बहुत दिलचस्प हैं
  वे कहते हैं कि उनके पास screen-action-screen dataset internally है, लेकिन लगता नहीं कि वे उसे public करेंगे। Android का मालिक होने का फायदा शायद यही है
  Hugging Face का हालिया paper IDEFICS[2] भी है। यह दावा करता है कि यह Flamingo का open-source implementation है, यानी few-shot multimodal task understanding पर पुराने paper का। यह क्षेत्र जल्द ही बहुत hot होने वाला है
  [1] https://research.google/pubs/pub52171/
  [2] https://huggingface.co/blog/idefics
OpenAI/ChatGPT से मेरी सबसे बड़ी शिकायत खराब marketing है
जब वे ऐसे features या plugins announce करते हैं तो मैं उत्साहित होकर try करने जाता हूं, लेकिन वह अभी तक मेरे लिए rollout नहीं हुआ होता; paid customer के रूप में यह frustrating है, और मैं बस रोज check कर सकता हूं
“plugins available हैं”, “voice chat आपके account पर enabled हो गया है” जैसे emails भी नहीं भेजते, इसलिए मैं अक्सर नए features भूल जाता हूं जब तक कि बाद में संयोग से फिर न देख लूं
अभी app खोला और settings में “New Features” पर गया तो Bing Browsing disabled था। मुझे यह भी पता नहीं था कि वह कभी काम करता था। लगा शायद app update चाहिए, तो App Store गया, लेकिन latest था; app बंद करके फिर खोला तो अब “New Features” item ही गायब हो गया
मैं नियमित रूप से app settings खंगालकर यह नहीं देखूंगा कि कोई नया feature आया है या नहीं। email या push तो दूर, app के अंदर message तक नहीं है—यह सच में समझ से बाहर है
- एक niche research company से शायद इतिहास का सबसे तेजी से बढ़ा startup बन गए
  ऐसा नहीं कि वे customers से communication की परवाह नहीं करते होंगे, लेकिन अंदरूनी हालात पूरी तरह chaos और mess जैसे लगते होंगे
- उनकी marketing ऐसी है जैसे किसी 3-person startup ने SaaS starter template ढूंढा, Stripe को जैसे-तैसे जोड़ दिया और फिर पीछे मुड़कर नहीं देखा
  API इस्तेमाल शुरू करने के लिए मुझे सच में subscription cancel करके फिर से sign up करना पड़ा। शायद मैं पुराने billing model revision में था
  मुझे वे companies पसंद हैं जो marketing और design की वजह से नहीं, बल्कि उनके बावजूद सफल होती हैं। इसका मतलब है कि उनके पास सच में कुछ खास है
- हम singularity की ओर जा रहे हैं और आप marketing की शिकायत कर रहे हैं?
- अगर “बस रोज check कर सकता हूं” वाली स्थिति है, तो लगता है marketing अच्छी ही कर रही है
  अगर आप बस छोड़कर भूल जाते, तो उन्हें retention सुधारनी पड़ती, लेकिन आप ऐसा नहीं करेंगे, इसलिए उन्हें जरूरत नहीं
- अगर सबसे बड़ी user complaint यह है कि अभी इस्तेमाल न कर पाने वाले feature से frustration है, तो वे वाकई बहुत शानदार काम कर रहे हैं
समझ नहीं आता कि यह सब महीने के 20 डॉलर में कैसे पैकेज किया जा सकता है। क्या scale बढ़ने पर compute cost सचमुच इतनी सस्ती हो जाती है?
यह भी उत्सुकता है कि Apple और Google इसे मुफ्त में कैसे देंगे। उस मीटिंग में मक्खी की तरह छिपकर सुनना चाहूंगा। “करना ही पड़ेगा” और “यह margins खा जाएगा” के बीच innovator's dilemma जैसी खूब चर्चा होगी
शायद यह कुछ ज्यादा दूर की सोच हो, लेकिन लगता है Apple धूल बैठने देने का सही चुनाव कर रहा है। जैसे Zuckerberg ने 20 अरब डॉलर जला दिए और Apple ने Vision Pro पेश किया, मुझे लगता है Llama में भी कुछ वैसा ही हो सकता है। हालांकि software Facebook का मुख्य मैदान है और hardware नहीं, इसलिए मेरा भरोसा कम है
- compute cost सस्ती नहीं है। Altman ने भी कहा है, और यह अच्छी तरह पता है कि OpenAI अभी बहुत पैसा जला रहा है
  लेकिन Microsoft के 10 अरब डॉलर के निवेश और subscription व API revenue को देखते हुए, फिलहाल ठीक है। AI कंपनियों के लिए यह अहम पल है, और OpenAI असल में दूसरे commercial models से कम कीमत पर 10 गुना value देकर market share जितना हो सके उतना कब्जाना चाह रहा है
- यह वही वजह है कि New York में Uber पहले उसी route के लिए 20 डॉलर था और अब 80 डॉलर है
  venture capital market capture को subsidize कर रहा है
- काफी संभावना है कि वे users का data चाहते हैं, इसलिए cost के करीब या cost से भी कम charge कर रहे हैं
  सोचिए, इतने बड़े पैमाने पर testers hire करने के लिए कितना पैसा देना पड़ता
- शायद Microsoft की funding से market को तबाह करने के बाद prices बढ़ाने की योजना है
- मेरा मानना है कि बहुत सारी queries को parallel process करने पर उन्हें एक-एक करके process करने की तुलना में काफी सस्ता पड़ सकता है

ChatGPT में voice conversation और image input फ़ीचर जोड़े गए

ChatGPT के नए input तरीके: बोलकर, दिखाकर, और पूछकर

पहले किन उपयोगकर्ताओं और platforms पर उपलब्ध होगा

voice फ़ीचर कैसे काम करता है

image फ़ीचर कैसे काम करता है

क्रमिक rollout और safety measures

voice से जुड़े जोखिम और सीमाएँ

image input से जुड़े जोखिम और सीमाएँ

model की सीमाएँ और उपयोग में सावधानी

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय