- 25 सितंबर 2023 को, OpenAI ने अपने उन्नत मॉडल GPT-4 के दो नए फीचर्स लॉन्च करने की घोषणा की
- ये नए फीचर्स उपयोगकर्ताओं को इमेज के बारे में सवाल पूछने और voice को query input के रूप में इस्तेमाल करने की सुविधा देते हैं, जिससे GPT-4 एक multimodal मॉडल बन जाता है
- GPT-4V(ision) या GPT-4V एक multimodal मॉडल है, जिसमें उपयोगकर्ता इमेज को input के रूप में अपलोड कर सकते हैं और इमेज के बारे में प्रश्न पूछ सकते हैं। इसे visual question answering (VQA) नामक task के रूप में जाना जाता है
- GPT-4V को visual question answering, optical character recognition (OCR), math OCR, object detection, CAPTCHA, crossword, Sudoku आदि कई tasks में test किया गया
- इस मॉडल ने सामान्य image-related सवालों में अच्छा प्रदर्शन किया और कुछ इमेज में context awareness भी दिखाई। साथ ही, टेक्स्ट में फिल्म का नाम बताए बिना भी यह इमेज में दिख रही फिल्म से जुड़े सवालों का सफलतापूर्वक जवाब दे सका
- हालांकि, GPT-4V की कुछ सीमाएँ हैं। यह object detection के लिए bounding boxes को सटीक रूप से वापस नहीं कर पाया, जो दिखाता है कि फिलहाल यह इस उपयोग के लिए उपयुक्त नहीं है। साथ ही, यह कभी-कभी hallucination के कारण गलत जानकारी भी लौटाता है
- OpenAI ने vision मॉडल का alpha version चुनिंदा उपयोगकर्ताओं के एक छोटे समूह को उपलब्ध कराया ताकि research की जा सके, और अलग-अलग लोगों द्वारा दिए गए prompts के माध्यम से यह समझा जा सके कि GPT-4V कैसे काम करता है, साथ ही feedback और insights जुटाए जा सकें
- OpenAI ने मॉडल से जुड़े कई जोखिमों की पहचान करने, उनका अध्ययन करने और उन्हें कम करने की कोशिश की। उदाहरण के लिए, GPT-4V इमेज में किसी खास व्यक्ति की पहचान करने से बचता है और hate symbols से जुड़े prompts का जवाब नहीं देता
- सीमाओं के बावजूद, GPT-4V machine learning और natural language processing के क्षेत्र में एक उल्लेखनीय प्रगति है
1 टिप्पणियां
Hacker News राय