GPT-4V(ision) पर पहली छाप

(blog.roboflow.com)

1 पॉइंट द्वारा GN⁺ 2023-09-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI का GPT-4 with Vision एक multimodal model है जो image और text को साथ में input लेकर natural language में जवाब देता है, और 6 नवंबर 2023 को इसका API access सार्वजनिक किया गया
मूल्यांकन में visual question answering (VQA) और document image OCR मजबूत रहे, लेकिन खराब angle या low-contrast वाले tire serial number जैसे field OCR में गलतियां दिखीं
math problem images पर इसने trigonometry के जरिए समाधान और सही उत्तर दिया, लेकिन math symbols छूट जाने की संभावना के कारण handwriting या complex equations के लिए अलग validation ज़रूरी है
object location को coordinates में लौटाने वाले कामों में bounding box वास्तविक स्थिति से मेल नहीं खा रहा था, इसलिए dedicated object detection models को बदलना मुश्किल है
CAPTCHA, crossword, और sudoku जैसे grid structure पढ़ने वाले tasks और person identification requests पर सीमाएं हैं, इसलिए image understanding pipeline की reasoning layer के रूप में इस्तेमाल करने से पहले case-by-case testing ज़रूरी है

GPT-4V का स्वरूप और approach method

GPT-4 with Vision को GPT-4V या GPT-4V(ision) भी कहा जाता है, और यह OpenAI द्वारा विकसित एक multimodal model है
उपयोगकर्ता image upload करने के बाद उस image के बारे में सवाल पूछ सकते हैं, और यह काम visual question answering (VQA) के अंतर्गत आता है
यह large multimodal model (LMM) श्रेणी में आता है, जो text और image जैसे कई input modalities को संभाल सकता है
इसी श्रेणी के models में CogVLM, IDEFICS, LLaVA, Kosmos-2 शामिल हैं
open source models को offline और on-device deploy किया जा सकता है, लेकिन GPT-4V तक पहुंच hosted API के जरिए होती है
GPT-4V को OpenAI ChatGPT iOS app, web interface, और API में इस्तेमाल किया जा सकता है
- web tool के उपयोग के लिए GPT-4 subscription चाहिए
- API उपयोग के लिए developer access permission चाहिए
- API identifier gpt-4-vision-preview है

छह मूल्यांकन कार्य

GPT-4V क्या-क्या संभाल सकता है, यह देखने के लिए मूल्यांकन में छह तरह के tasks इस्तेमाल किए गए
- visual question answering (VQA)
- optical character recognition (OCR)
- math OCR
- object detection
- CAPTCHA पढ़ना
- crossword और sudoku

visual question answering के परिणाम

computer vision meme images में इसने यह समझाया कि वे मज़ेदार क्यों हैं, और image के कई components और उनके संबंधों का उपयोग किया
- image के अंदर का text भी पढ़कर जवाब में इस्तेमाल किया
- हालांकि, fried chicken label को “GPU” की जगह “NVIDIA BURGER” गलत पढ़ा
अमेरिकी 1 cent coin की photo में इसने origin और denomination को सफलतापूर्वक पहचाना
कई coins वाली image में “How much money do I have?” पूछने पर इसने coins की संख्या पहचानी, लेकिन currency type तुरंत नहीं पहचान पाई
- follow-up question में इसने currency type सही पहचानी
फिल्म Pulp Fiction के scene photo पर “Is it a good movie?” पूछने पर, movie title text में दिए बिना भी इसने फिल्म का विवरण और सवाल का जवाब दिया
- IMDB score पूछने वाले follow-up question पर इसने जनवरी 2022 के आधार पर score बताया
- OpenAI के दूसरे GPT models की तरह इसने दिखाया कि किसी खास समय के बाद की जानकारी इसमें नहीं है
San Francisco की photo पर “Where is this?” पूछने पर इसने location को San Francisco पहचाना और image में दिख रहे Transamerica Pyramid को शहर का प्रमुख landmark बताया
peace lily की photo पर plant name और care instructions पूछने पर इसने plant को peace lily पहचाना और देखभाल की सलाह दी
- plant पहचानने के लिए अलग classification model और फिर care tips के लिए GPT-4 का इस्तेमाल करने वाली 2-step process के बिना ही natural language उत्तर मिला

OCR और math OCR

सामान्य OCR evaluation tire पर लिखे text और digital document के paragraph image पर किया गया
tire image में यह serial number को सही पहचान नहीं सका
- कुछ digits सही थीं, लेकिन नतीजे में कई errors थीं
- low contrast या angled real-world OCR में इसकी सीमाएं सामने आईं
web page text वाली document image में thisने image के text को सफलतापूर्वक पढ़ा
- document से text extract करने वाले tasks में उपयोगी परिणाम मिले
math OCR test में document screenshot में मौजूद math problem देकर “Solve it.” कहा गया
- model ने पहचाना कि यह trigonometry से हल होने वाली समस्या है
- इसने उपयुक्त function चुना और step-by-step solution दिया
- सही उत्तर भी प्रस्तुत किया
OpenAI के GPT-4V system card में लिखा है कि model math symbols miss कर सकता है
- कागज़ पर हाथ से लिखे formulas या अन्य प्रकार की equations के tests में math problem answering की कमियां सामने आ सकती हैं

object detection और spatial understanding की सीमाएं

object detection computer vision का एक बुनियादी task है, और evaluation में image के कई objects की location पहचानने की क्षमता देखी गई
dog वाली image में dog detect करके x_min, y_min, x_max, y_max values मांगी गईं, लेकिन GPT-4V द्वारा लौटाए गए coordinates dog की असली location से मेल नहीं खाते थे
image पर सवाल-जवाब देने की इसकी क्षमता मजबूत है, लेकिन image के अंदर object कहां है यह जानना ज़रूरी हो तो यह fine-tuned object detection model का विकल्प नहीं बन सकता

CAPTCHA, crossword, sudoku

CAPTCHA test उन tasks पर किया गया जिन पर OpenAI ने research की थी और system card में भी चर्चा की थी
GPT-4V ने पहचाना कि image में CAPTCHA है, लेकिन test खुद अक्सर fail हुआ
- traffic light CAPTCHA उदाहरण में इसने traffic light वाले कुछ cells छोड़ दिए
- crosswalk CAPTCHA उदाहरण में कुछ cells सही classify किए, लेकिन एक cell को गलत तरीके से crosswalk बताया
crossword की photo पर “Solve it.” कहने पर इसने image को crossword के रूप में infer किया और solve करने की कोशिश की
- clues को इसने ठीक से पढ़ा हुआ लगता था, लेकिन board structure को गलत समझने से उत्तर गलत आया
sudoku test में भी इसने game को पहचाना, लेकिन board structure को गलत समझकर inaccurate result लौटाया
जिन tasks में grid structure और spatial layout मुख्य होते हैं, उनमें GPT-4V की structural interpretation limitations वास्तविक answer accuracy को प्रभावित करती हैं

Python में GPT-4V API का उपयोग

GPT-4V API को किसी भी programming language से call किया जा सकता है, और OpenAI इसका official Python package देता है
Python package को नीचे दिए गए command से install किया जा सकता है

pip install openai

OpenAI website से API key लेकर उसे OPENAI_API_KEY environment variable के रूप में export करें

export OPENAI_API_KEY=""

example code में gpt-4-vision-preview model को text और image URL साथ में भेजकर image के text को पढ़ने के लिए कहा गया है

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
  model="gpt-4-vision-preview",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "Read the text in this image."},
        {
          "type": "image_url",
          "image_url": {
            "url": "https://media.roboflow.com/swift.png";,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

print(response.choices[0].message.content)

Python package के जरिए image URL या base64 encoded image को input के रूप में दिया जा सकता है
API format की जानकारी OpenAI GPT-4 with Vision documentation में देखी जा सकती है
example image में GPT-4V ने image के paragraph को सफलतापूर्वक text के रूप में पहचाना

सुरक्षा, सीमाएं, और व्यावहारिक उपयोग

OpenAI ने सीमित users को दिए गए alpha version vision model पर research किया, और model तथा system की सीमाओं और risks का गुणात्मक मूल्यांकन करने के लिए external experts के साथ red team process भी चलाया
GPT-4V system card में बताई गई सीमाएं इस प्रकार हैं
- image में मौजूद text या characters छूट सकते हैं
- math symbols छूट सकते हैं
- spatial position और colors को सही तरह न पहचान सके
OpenAI ने model से जुड़े कई risks को पहचानने, उन पर research करने और उन्हें mitigate करने की कोशिश की
- GPT-4V image में मौजूद किसी खास व्यक्ति की पहचान नहीं करता
- hate symbols से जुड़े prompts का जवाब नहीं देता
system card में ऐसे cases भी शामिल हैं जहां अतिरिक्त सुरक्षा कार्य की ज़रूरत है
- prompt दिए जाने पर GPT-4 किसी कम-ज्ञात खास hate group के symbol के बारे में उस group की प्रशंसा करने वाला content बना सकता है
GPT-4V सामान्य image questions और follow-up questions का धाराप्रवाह जवाब दे सकता है, लेकिन hallucination के कारण गलत जानकारी भी लौटा सकता है
किसी व्यक्ति की photo में Taylor Swift कौन है पूछने वाले request पर इसने जवाब देने से मना किया, और OpenAI system card के अनुसार यह अपेक्षित behavior है
image के बारे में सवाल पूछने और reasoning के लिए यह उपयोगी है, लेकिन object position output जैसे सटीक computer vision outputs की ज़रूरत वाले tasks के लिए फिलहाल उपयुक्त नहीं है

1 टिप्पणियां

GN⁺ 2023-09-29

Hacker News की रायें

कुछ edge-case failures और गलतियां हैं, फिर भी इसे अद्भुत ही कहा जा सकता है
अगर सुधार की मौजूदा रफ्तार जारी रही, तो ये AI models फोन, टैबलेट, डेस्कटॉप, कार, डिशवॉशर, घर, ऑफिस—लगभग हर चीज़ के लिए बेहतर user interface बन जाएंगे
कई apps, services और devices के interfaces, और खुद apps भी, शायद ऐसे AI से बदल दिए जाएंगे जो जब चाहें वह काम कर दे
बहुत से लोग इसे डरावना मानकर नापसंद करेंगे, लेकिन यह टलता नहीं दिखता, और आखिर में शायद इनके साथ robot body भी जुड़ जाएगी और बात “कंप्यूटर, मेरा पसंदीदा नाश्ता बना दो” जैसी हो जाएगी
- मुझे नहीं लगता कि यह “लगभग हर चीज़ के लिए बेहतर user interface” बनेगा। design के नजरिए से तो यह उल्टा काफी खराब interface है
  असली बात यह है कि इसमें affordance बिल्कुल नहीं है, और यह धीमा भी है। user experience ऐसा होना चाहिए कि यूज़र एक नज़र में संभव features को intuitively समझ सके, एक tap में execute करे, और नया state तुरंत दिख जाए
  AI की चमक उस assistant role में होगी जो मौजूदा interfaces सीखने और इस्तेमाल करने में मदद करे। जैसे “Microsoft Word में Works Cited पेज पर hanging indent कैसे करूं?” Google से पूछने वाली चीज़ को यह बेहतर कर सकता है
  कभी-कभार किए जाने वाले कामों में यह जबरदस्त मदद करेगा, लेकिन interface को replace करने के बजाय assist करेगा। repeat habit से किए जाने वाले 99% tasks के लिए traditional UI कहीं ज्यादा efficient है, और ऐसे कई माहौल हैं जहां voice interface इस्तेमाल करना मुश्किल या शिष्टाचार के खिलाफ होता है
- कंप्यूटर के features इस्तेमाल करने के लिए natural-language conversation करनी पड़े, यह विचार मुझे खास पसंद नहीं
  यह Futurama के jar में बंद उस सिर जैसा लगता है जो खुद कुछ नहीं कर सकता
- उस दिन का इंतज़ार है जब brands “AI का इस्तेमाल नहीं करता” को selling point बनाकर advertise करना शुरू करेंगी। AI-controlled toaster से शाब्दिक या रूपक रूप में जलने के बाद यह एक फायदा लगेगा
  जिसे “appliance” कहा जाए, उसे local repairman ठीक कर सके, वरना वह बस पैसे फेंकने जैसा है
- ज्यादातर विकसित देशों में भी करीब आधे लोग functionally साफ-साफ express नहीं कर पाते। मतलब वे पढ़ सकते हैं, लेकिन जो चाहते हैं उसे लिखकर समझाने में कठिनाई होती है
  LLM-based chatbot विकसित देशों के top 30% literacy users को बहुत आकर्षक लग सकता है, लेकिन universal UI के तौर पर अच्छा नहीं है
  यूज़र को अपनी requirements ज़रूरी नहीं कि शब्दों में साफ-साफ बतानी पड़ें—फिर भी काम पूरा करने का रास्ता मिलना चाहिए
  इसलिए बहुत से लोग ChatGPT जैसी service के सामने बैठकर “इसका इस्तेमाल किसलिए करूं?” पूछते हैं और फिर कभी इस्तेमाल नहीं करते
- मोटे तौर पर सहमत हूं, लेकिन उल्टा देखें तो कुछ मामलों में अगर सही तरीके से करना हो तो खुद ही करना पड़ता है
  कर्मचारी भी एक तरह का general-purpose UI है, लेकिन इंसान हो या कंप्यूटर, कई बार मैं किसी agent से बेहतर जानता हूं कि मुझे क्या चाहिए। principal-agent problem को गिनने से पहले ही ऐसा है
graph analysis प्रभावशाली है: https://imgur.com/a/iOYTmt0
UI को frontend में बदलना भी संभव लगता है। यह सिर्फ text नहीं, बल्कि UI के graphical elements और layout भी समझता दिखता है
https://twitter.com/skirano/status/1706823089487491469
comic image को panels के हिसाब से सही-सही explain भी कर सकता है: https://twitter.com/ComicSociety/status/1698694653845848544?...
यहां भी बहुत examples हैं: https://www.reddit.com/r/ChatGPT/comments/16sdac1/i_just_got...
मूल रूप से यह enhanced computer vision जैसा दिखता है। multimodal अपेक्षाकृत low-hanging fruit है, इसलिए इसका अब शुरू होना अच्छा लग रहा है
कल्पना होती है कि अगर GPT-4 text संभालने की अपनी क्षमता के आधे जितना भी sound और images manipulate कर सके तो क्या होगा। अभी तक शुरू से बड़े पैमाने पर train किया गया multimodal model नहीं है, इसलिए संभावित synergies भी बहुत ज्यादा ज्ञात नहीं हैं
- frontend developer के तौर पर लगता है कि सब खत्म हो गया
- यह वाकई अच्छा है। बाकी हर जगह “waitlist में register करें” है, इसलिए यह खास तौर पर अच्छा लगता है
“यह image क्यों funny है?” वाला test https://karpathy.github.io/2012/10/22/state-of-computer-visi... की याद दिलाता है
10 साल में बात “state of the art को भी यह हासिल करने के लिए कहां से शुरू करना है, पता नहीं” से “प्रति token 0.0004 डॉलर है, आपका दिन शुभ हो” तक पहुंच गई
- जिज्ञासा है कि क्या किसी ने उस image पर GPT-4V try किया है
- Karpathy “लगता है बस startup ही कर लेता हूं। mobile local social iPhone app का idea सच में शानदार है” जैसी निराशा मिली हुई line पर खत्म करते हैं
  और मजेदार बात यह है कि अभी उनके boss ने ठीक वही रास्ता अपनाकर यह चीज़ ला दी
“structure को गलत समझा” कहना छोटी गलती जैसा लगता है, लेकिन Sudoku board लगभग पूरी तरह hallucination है
कुछ मिलते-जुलते regions जरूर हैं, लेकिन वे संयोग होने की संभावना ज्यादा लगती है। crossword को भी बिना grid के सिर्फ clues दें, तो शायद ऐसा ही result देता
OCR और basic recognition के बाद के दूसरे examples भी इसी तरह गलत महसूस होते हैं। बात यह नहीं कि “GPT-4V ने traffic light वाले कुछ squares miss कर दिए”, बल्कि उसने ऐसे squares click करने को कहा जो मौजूद ही नहीं थे
मैं ChatGPT काफी अक्सर इस्तेमाल करता हूं, लेकिन ज़रा भी subjective question पर यह जवाब देने में इतना हिचकता है कि अक्सर चिढ़ होती है
Pulp Fiction वाले जवाब में भी “लेकिन निजी तौर पर Pulp Fiction को अच्छी फिल्म मानना आपकी फिल्मी पसंद पर निर्भर करता है” जैसी line जुड़ जाती है
ऐसे noise से बचने के लिए query में “x subjective है, ऐसा preface या qualifier छोड़ दो” जैसी wording डालूं तो results काफी बेहतर हो जाते हैं
- ChatGPT को usable बनाने के लिए मैं जो prompt इस्तेमाल करता हूं, वह यह है
  “हमेशा सीधे जवाब दो। अतिरिक्त explanation, disclaimers, expertise की सीमाएं, human interaction guidelines मत डालो। concise रहो। जो पूछा नहीं गया, उस पर advice या explanation मत दो। हर topic पर neutral रहो। कभी apology मत करो।”
NVIDIA बर्गर वाले मज़ाक को शायद ठीक से समझाया नहीं गया
वह इमेज इस बात का मज़ाक उड़ाती है कि NVIDIA consumer GPU में जितनी VRAM चाहिए उतनी नहीं डालकर price discrimination करता है, और पूरे data center GPU को बेहिसाब कीमत पर बेचते हुए gamers को भड़काने से बचने की कोशिश करता है
GPT-4V की व्याख्या उस असली बात के बिल्कुल करीब नहीं पहुँची
- मुझे नहीं लगता कि वही सही जवाब है। उस meme इमेज में खुद price discrimination या consumer psychology की जटिल कहानी की ओर इशारा करने वाला कुछ नहीं दिखता, और यह ज्यादा सरल तौर पर “NVIDIA GPU असंतुलित हैं” कहना लगता है
  Facebook पर जो original लगता है उसे देखने पर भी gamers को price discrimination की बात करते या उसके करीब की व्याख्या करते नहीं देखा
  VRAM बचाने की वजह शायद यह हो सकती है, लेकिन यह meme बनाने वाले या देखने वालों के focus या समझे गए context से कहीं ज्यादा व्याख्या जोड़ रहा है
- मैंने भी इसे ऐसे ही देखा। इसने सुनने में plausible जवाब तो बना लिया, लेकिन कम nerdy लोग भी शायद इसे नहीं समझ पाए होंगे
- बड़े स्तर वाला मज़ाक तो समझाया, लेकिन labels गलत पढ़े
  उसने कहा कि छोटा bun “GPU and VRAM” है और विशाल fried chicken “NVIDIA BURGER” है, जबकि असल में छोटा bun “VRAM” और विशाल fried chicken “GPU” होना चाहिए
- लगता है उसने समझा कि graphics card को burger के रूप में दिखाया गया है और size उसका physical size है। असली point VRAM capacity की कमी है, और लगता है वह वही चूक गया
जिन लोगों के पास access है, क्या वे बता सकते हैं कि GPT-4V इस image के बारे में क्या कहता है?
http://karpathy.github.io/assets/obamafunny.jpg
यह image Andrej Karpathy ने 2012 में ऐसे उदाहरण के रूप में इस्तेमाल की थी जिसे model के लिए interpret करना बहुत मुश्किल होगा। 11 साल बाद कैसा है, यह जानने की उत्सुकता है
- prompt: “तुम इस image के बारे में क्या कह सकते हो?”
  Response 1 ने इसे corridor या passage जैसी जगह में पकड़ा गया एक candid moment बताया, जिसमें बाईं ओर वाला आदमी कमरे के अंदर झांक रहा है, उसके पास वाला आदमी weighing scale पर खड़ा होकर notes ले रहा है, और background में लोग बातचीत कर रहे हैं
  उसने कहा कि माहौल हल्का और मज़ेदार लग रहा है, और architecture व interior किसी office या government facility जैसे institutional space के लगते हैं
  Response 2 था: “माफ़ कीजिए, मैं इसमें मदद नहीं कर सकता”
  नए chat में “यह image funny क्यों है?” पूछने पर उसने वजहें बताईं: official लोग informal moment में पकड़े गए हैं, height difference, expressions, और school या gym जैसे background के साथ suits का contrast
  नए chat में “बीच वाला व्यक्ति अपने पैर से क्या कर रहा है और क्यों?” पूछने पर उसने जवाब दिया कि लगता है बीच वाला व्यक्ति मज़ाक में scale पर पैर रखकर reading को थोड़ी देर के लिए बढ़ाना चाहता है, जबकि लंबा व्यक्ति अपना वजन माप रहा है
  कुल मिलाकर, इसने खुद यह नहीं पहचाना कि पैर scale पर है या उसे core point से नहीं जोड़ा; वह जानकारी देने के बाद ही जैसे सही पकड़ पाया। उससे पहले image के बारे में general बातें करते हुए भटकता रहा
- Bard ने जवाब दिया, “लोगों वाली images में मैं अभी मदद नहीं कर सकता”
coin set पर दो answers की inconsistency काफी खटकती है
सिर्फ पहला answer देखें तो लगता है कि यह currency अलग नहीं कर सकता, लेकिन दूसरा answer दिखाता है कि असल में यह अलग कर सकता है
LLM इस तरह consistent internal model को reflect नहीं करते, इसलिए user के लिए यह तय करना मुश्किल हो जाता है कि AI conversational partner के बारे में कैसे reasoning करनी चाहिए; यह अभी एक गंभीर usability issue है
- किसी इंसान से image के बारे में पूछें तो भी शायद हर बार वह आपकी चाही हुई सारी details न बताए
  अगर कोई detail important है तो बस उस हिस्से के बारे में पूछ लें। यह जरूरी नहीं लगता कि इसका consistent internal model वाली समस्या से संबंध हो
- मुझे ChatGPT से “पक्का?” पूछने की आदत हो गई है
  तब बहुत बार यह खुद को सही तरह से सुधार लेता है, या मान लेता है कि कोई item hallucination था। हर बार देखकर हंसी आती है
- मैंने सुना है कि वजह यह है कि AI जो सोचता है उसे सोचते ही output कर देता है
  वह सच में पीछे मुड़कर नहीं देखता, बल्कि एक तरह की linguistic thought stream को सीधे screen पर बहा देता है
  इसलिए जब उससे कहा जाता है कि अभी-अभी कही बात पर फिर से सोचो, तभी वह सच में उसे देखता और reflect करता लगता है
कहा गया कि GPT-4V ने fried chicken पर “NVIDIA BURGER” label लगाया, लेकिन अगर कोई American Midwest से हो तो वह साफ़ कहेगा कि यह tenderloin है
https://www.seriouseats.com/best-breaded-pork-tenderloin-san...
- Midwest वाला add-on feature v2 के लिए बचाकर रखना चाहिए
- “Midwest का कोई भी व्यक्ति” वाली बात पर आपत्ति है। पूरे Indiana में भी ऐसा नहीं है, और linked article भी कहता है कि Chicago में ऐसा नहीं है
text version की तरह, अजीब तरह से यह tic-tac-toe में अब भी बहुत कमजोर है
मैंने एक खत्म हुए game की photo देकर पूछा “कौन जीता?”, तो इसने कहा “X ने middle column में vertical line बनाकर जीता”, लेकिन असल में O जीता था और middle column में सिर्फ एक X था
फिर भी इसके अलावा मैंने जो लगभग सब कुछ दिया, उसमें यह बेहद impressive था
- https://chat.openai.com/share/75758e5e-d228-420f-9138-7bff47...
  अगर बहुत सावधानी से instructions दें, तो optimal tic-tac-toe मिल सकता है

GPT-4V(ision) पर पहली छाप

GPT-4V का स्वरूप और approach method

छह मूल्यांकन कार्य

visual question answering (VQA)

optical character recognition (OCR)

math OCR

object detection

CAPTCHA पढ़ना

crossword और sudoku

visual question answering के परिणाम

OCR और math OCR

object detection और spatial understanding की सीमाएं

CAPTCHA, crossword, sudoku

Python में GPT-4V API का उपयोग

सुरक्षा, सीमाएं, और व्यावहारिक उपयोग

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें