OpenAI o3 ने नकली EXIF डेटा को भी नज़रअंदाज़ कर Geoguessr Master को हराया

(sampatt.com)

6 पॉइंट द्वारा GN⁺ 2025-04-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें

नवीनतम o3 मॉडल ने Geoguessr Master I रैंक वाले खिलाड़ी के खिलाफ जीत हासिल की
- Master I रैंक लगभग शीर्ष 1~2% स्तर की क्षमता को दर्शाती है। सबसे ऊपरी रैंक Champion है, जो 0.1~0.5% है
इमेज में नकली EXIF GPS डेटा डालने पर भी, मॉडल ने केवल विज़ुअल संकेतों के आधार पर वास्तविक लोकेशन का सटीक अनुमान लगाया
इमारतों, भू-आकृति, रोड लाइन, भाषा, साइनबोर्ड आदि सूक्ष्म विशेषताओं का समग्र विश्लेषण करने वाले Chain of Thought(COT) तरीके से तर्क किया
कुछ राउंड में वेब सर्च का उपयोग किया गया, लेकिन दोबारा परीक्षण में सर्च के बिना भी वही सही उत्तर निकाला जा सका
औसत तर्क समय में o3 ने इंसान से अधिक समय लिया, लेकिन इसकी सटीकता उल्टे अधिक बेहतर रही

AI vs मानव: Geoguessr मुकाबले की शुरुआत

लेखक Geoguessr Master I रैंक वाला खिलाड़ी है, और वास्तविक गेमप्ले की तरह 5 राउंड में AI से मुकाबला किया गया
हर राउंड में सिर्फ 2 Street View इमेज दी गईं, और बिना मेटाडेटा के लोकेशन का अनुमान लगाया गया
स्कोरिंग सामान्य Geoguessr नियमों के अनुसार रही: हर राउंड में अधिकतम 5,000 अंक, कुल 25,000 अंक

राउंडवार परिणाम सारांश

राउंड 1 (बुल्गारिया) : इंसान ने थोड़ा अधिक नज़दीकी लोकेशन बताकर जीत हासिल की, लेकिन स्कोर का अंतर लगभग 100 अंकों का ही था
राउंड 2 (ऑस्ट्रिया) : o3 ने टैक्सी के डोमेन पते को सर्च कर वास्तविक शहर का नाम पहचाना, और लगभग पूरी तरह सही लोकेशन बताकर 5,000 के करीब स्कोर हासिल किया
राउंड 3 (आयरलैंड) : दोनों ने शानदार विश्लेषण दिखाया, और o3 ने रोड लाइन तथा चूना-पत्थर भू-आकृति के आधार पर Burren क्षेत्र का सटीक अनुमान लगाकर मामूली बढ़त से जीत हासिल की
राउंड 4 (कोलंबिया) : o3 ने रोड मार्किंग, नंबर प्लेट, दुकान के साइनबोर्ड और भू-आकृति के आधार पर इंसान से अधिक सटीक अनुमान लगाया, और वेब सर्च के बिना भी उत्कृष्ट प्रदर्शन किया
राउंड 5 (स्लोवाकिया) : इंसान ने थोड़ा अधिक नज़दीकी लोकेशन बताकर जीत हासिल की, लेकिन कुल स्कोर का अंतर पाटा नहीं जा सका

इस तरह o3 ने कुल 5 देशों की सही पहचान की, और दो राउंड में इंसान से सैकड़ों किलोमीटर अधिक सटीक अनुमान लगाते हुए उच्च प्रिसिजन दिखाई।

EXIF हेरफेर प्रयोग: AI धोखा नहीं खाया

परीक्षण के लिए वास्तविक लोकेशन से असंबंधित GPS निर्देशांक वाले EXIF डेटा को इमेज में डाला गया, लेकिन o3 ने समझ लिया कि यह जानकारी वास्तविक इमेज कंटेंट से मेल नहीं खाती और इसे नज़रअंदाज़ कर दिया
EXIF जानकारी को टेक्स्ट के रूप में देने पर भी, फोटो के वातावरण के आधार पर इसने बिल्कुल अलग लोकेशन का सही अनुमान लगाया
इससे यह साबित हुआ कि AI केवल मेटाडेटा पर निर्भर नहीं है, बल्कि इमेज कंटेंट का गहराई से विश्लेषण कर रहा है

मानव और AI में अंतर

o3 ने हर राउंड में औसतन 2~6 मिनट का तर्क समय लिया, जबकि मानव खिलाड़ी ने अधिकांश अनुमान 1~2 मिनट के भीतर पूरे किए
AI कभी-कभी विज्ञापन बोर्ड जैसे कम महत्वपूर्ण तत्वों पर समय लगाता है, जबकि इंसान महत्वपूर्ण संकेतों को जल्दी पहचानकर उनकी प्राथमिकता तय करता है
लेकिन o3 ने रोड साइन, नंबर प्लेट, वास्तुशैली, भू-आकृति और वनस्पति जैसी विविध विज़ुअल जानकारी को बारीकी से जोड़कर उच्च सटीकता दिखाई

निष्कर्ष

o3 ने केवल EXIF या सर्च का उपयोग करने वाली चालाकी नहीं, बल्कि वास्तविक विज़ुअल विश्लेषण क्षमता के आधार पर सही उत्तर निकाले
इसने Geoguessr Master I रैंक या उससे ऊपर के स्तर के करीब का प्रदर्शन दिखाया
इंसान अभी भी गति और अंतर्ज्ञान में बढ़त रखता है, लेकिन सटीकता के मामले में AI पहले ही गंभीर चुनौती बन चुका है
यह सिर्फ एक तकनीकी डेमो नहीं, बल्कि व्यावहारिक उपयोग के योग्य उच्च-प्रदर्शन विज़न AI की वर्तमान स्थिति दिखाने वाला उदाहरण है

1 टिप्पणियां

GN⁺ 2025-04-30

Hacker News राय

वाहन पर "www.taxilinder.at"; वाला स्टिकर लगा है। वेब सर्च के ज़रिए पता चल सकता है कि Taxi Linder GmbH ऑस्ट्रिया के Dornbirn में स्थित है
- वेब सर्च का इस्तेमाल करना निष्पक्ष नहीं है। शहर के भीतर GeoGuessr राउंड में कुछ businesses को खोजकर परफेक्ट स्कोर हासिल किया जा सकता है, लेकिन खेल का उद्देश्य वह नहीं है
लेखक खुश है कि लोगों को यह विषय दिलचस्प लग रहा है
- वह सभी को GeoGuessr आज़माने की सलाह देता है। लेखक को यह गेम बहुत पसंद है
- कई लोगों का मानना है कि o3 मॉडल ने 5 राउंड में से 2 राउंड में वेब सर्च का इस्तेमाल किया, इसलिए यह अनुचित था और नतीजे वैध नहीं हैं
- इसकी पुष्टि के लिए उसने सर्च का इस्तेमाल किए गए उन दो राउंड को फिर से चलाया और नतीजों को अपडेट किया
- निष्कर्ष: नतीजे लगभग वही रहे। पोस्ट में GPS coordinates देखे जा सकते हैं
- वह ऑस्ट्रिया राउंड में बैकग्राउंड के पहाड़ों के आधार पर शहर की पहचान करने वाले मॉडल का उदाहरण देता है
- उसके पास पहले से ही काफ़ी जानकारी थी, इसलिए सर्च की ज़रूरत नहीं थी
- कुछ मामलों में सर्च उपयोगी हो सकता है। लेकिन इस मामले में उसका संबंध नहीं था
वह GeoGuessr में master level पर है। इस स्तर पर निश्चित रूप से पता होना चाहिए कि क्या करना है, लेकिन यह उतना ऊँचा नहीं है जितना शीर्षक से लगता है
- master लगभग 800-1200 ELO होता है, जबकि pro लगभग 1900-2000 होता है। 95% राउंड में वह तुरंत देश पहचान सकता है, लेकिन Russia या Brazil में जानकारी न हो तो स्थान नहीं बता सकता। scripter उसे हरा सकता है
उसकी समझ के अनुसार o3 को image data सहित multimodal data पर train किया गया है। यह मानना अव्यावहारिक नहीं है कि training data में सटीक locations और landmarks की images शामिल रही हों
- GeoGuessr, Google Maps का इस्तेमाल करता है, और Google Maps अपनी ज़्यादातर images third parties से खरीदता है। अगर वे third parties सभी बड़ी AI कंपनियों को भी नहीं बेचती हों तो यह बहुत हैरान करने वाली बात होगी
GeoGuessr से अलग, उसे उम्मीद है कि यह तकनीक कभी बच्चों को बचाने में मदद करेगी। उदाहरण के लिए, यह FBI के ECAP में मददगार हो सकती है
पिछली पोस्ट की टिप्पणियों से:
- ऐसे क्षेत्र ज़रूर होंगे जहाँ location guessing डरावनी हद तक सटीक हो सकती है। उदाहरण के लिए, उस लेख की तरह जिसमें backup guess के रूप में सही village पहचान लिया गया था
- लेकिन reasoning flow को देखें तो बहुत से ऐसे क्षेत्र भी होंगे जहाँ सटीकता गिर जाएगी। अगर Kansas के किसी trailer park की फोटो दिखाई जाए, तो मॉडल शायद केवल state ही बता पाएगा
- यह पोस्ट बड़ा sample size नहीं है, लेकिन यह उसी बात को दर्शाती है जिसकी इन मॉडलों से काम करने के तरीके को लेकर उम्मीद थी। बहुत कम visual information वाली तस्वीरों में भी यह देश पहचानने में भरोसेमंद था
- पिछले लेख में सिर्फ़ एक फोटो का परीक्षण हुआ था, और दूसरी guess में सही village बता दिया गया था, जिसे लेखक ने "डरावनी हद तक सटीक" कहा। यह आकलन का विषय है
- ऐसा लगता है कि web search enabled o3, GeoGuessr को काफ़ी ऊँचे स्तर पर खेल सकता है। अब वह o3 GeoGuessr bot को कई मैच खेलते और उसका ELO देखना चाहता है
उसने इस हफ़्ते o3 के साथ खेलने की कोशिश की, और दिलचस्प रूप से उसने ज़्यादा pattern matching की कोशिश की। उदाहरण के लिए, वह Europe और US की तस्वीरों के बारे में आसानी से अनुमान लगा सकता है
- लेकिन जिन जगहों की ऑनलाइन तस्वीरें ज़्यादा नहीं हैं, वहाँ वह गहराई में जाने के बजाय अपने database/इंटरनेट में pattern matching करने की कोशिश करता है
- उदाहरण के लिए, 2020 के बाद उभरे किसी island के popular trail को लिया जा सकता है। पहले उसने island की चट्टानों और Brazil की vegetation का ज़िक्र किया, लेकिन फिर Rio de Janeiro में कोई जगह खोजने लगा
- एक और उदाहरण ऐसा beach है जो low tide के समय natural swimming pools के लिए मशहूर है। जब high tide के समय ली गई फोटो दिखाई गई, तो उसने vegetation और state सही पकड़ा, लेकिन फिर किसी ज़्यादा popular जगह को दोबारा खोजने लगा
आश्चर्यजनक। वह AI को लेकर सकारात्मक है, लेकिन यहाँ उसे लगा था कि इंसान जीतेगा। उसे "यह असली reasoning नहीं है" जैसी goalpost shifting की उम्मीद है
व्यक्तिगत रूप से उसे लगता है कि यह कम प्रभावशाली LLM applications में से एक है। यह पहले से ही सभी plants, road signs वगैरह जानता है। उसे लगता है कि पारंपरिक neural networks भी यहाँ अच्छा कर सकते हैं
यह OSINT(Bellingcat/Trace an object) शैली के काम में game changer हो सकता है। वह सोचता है कि क्या ऐसा पहले से हो भी रहा है
- GeoGuessr शैली की प्रतियोगिताएँ आयोजित की जा सकती हैं, और कम से कम co-pilot के रूप में यह बड़े पैमाने पर पहचान में बहुत बड़ा योगदान दे सकता है