- नवीनतम o3 मॉडल ने Geoguessr Master I रैंक वाले खिलाड़ी के खिलाफ जीत हासिल की
- Master I रैंक लगभग शीर्ष 1~2% स्तर की क्षमता को दर्शाती है। सबसे ऊपरी रैंक Champion है, जो 0.1~0.5% है
- इमेज में नकली EXIF GPS डेटा डालने पर भी, मॉडल ने केवल विज़ुअल संकेतों के आधार पर वास्तविक लोकेशन का सटीक अनुमान लगाया
- इमारतों, भू-आकृति, रोड लाइन, भाषा, साइनबोर्ड आदि सूक्ष्म विशेषताओं का समग्र विश्लेषण करने वाले Chain of Thought(COT) तरीके से तर्क किया
- कुछ राउंड में वेब सर्च का उपयोग किया गया, लेकिन दोबारा परीक्षण में सर्च के बिना भी वही सही उत्तर निकाला जा सका
- औसत तर्क समय में o3 ने इंसान से अधिक समय लिया, लेकिन इसकी सटीकता उल्टे अधिक बेहतर रही
AI vs मानव: Geoguessr मुकाबले की शुरुआत
- लेखक Geoguessr Master I रैंक वाला खिलाड़ी है, और वास्तविक गेमप्ले की तरह 5 राउंड में AI से मुकाबला किया गया
- हर राउंड में सिर्फ 2 Street View इमेज दी गईं, और बिना मेटाडेटा के लोकेशन का अनुमान लगाया गया
- स्कोरिंग सामान्य Geoguessr नियमों के अनुसार रही: हर राउंड में अधिकतम 5,000 अंक, कुल 25,000 अंक
राउंडवार परिणाम सारांश
- राउंड 1 (बुल्गारिया) : इंसान ने थोड़ा अधिक नज़दीकी लोकेशन बताकर जीत हासिल की, लेकिन स्कोर का अंतर लगभग 100 अंकों का ही था
- राउंड 2 (ऑस्ट्रिया) : o3 ने टैक्सी के डोमेन पते को सर्च कर वास्तविक शहर का नाम पहचाना, और लगभग पूरी तरह सही लोकेशन बताकर 5,000 के करीब स्कोर हासिल किया
- राउंड 3 (आयरलैंड) : दोनों ने शानदार विश्लेषण दिखाया, और o3 ने रोड लाइन तथा चूना-पत्थर भू-आकृति के आधार पर Burren क्षेत्र का सटीक अनुमान लगाकर मामूली बढ़त से जीत हासिल की
- राउंड 4 (कोलंबिया) : o3 ने रोड मार्किंग, नंबर प्लेट, दुकान के साइनबोर्ड और भू-आकृति के आधार पर इंसान से अधिक सटीक अनुमान लगाया, और वेब सर्च के बिना भी उत्कृष्ट प्रदर्शन किया
- राउंड 5 (स्लोवाकिया) : इंसान ने थोड़ा अधिक नज़दीकी लोकेशन बताकर जीत हासिल की, लेकिन कुल स्कोर का अंतर पाटा नहीं जा सका
इस तरह o3 ने कुल 5 देशों की सही पहचान की, और दो राउंड में इंसान से सैकड़ों किलोमीटर अधिक सटीक अनुमान लगाते हुए उच्च प्रिसिजन दिखाई।
EXIF हेरफेर प्रयोग: AI धोखा नहीं खाया
- परीक्षण के लिए वास्तविक लोकेशन से असंबंधित GPS निर्देशांक वाले EXIF डेटा को इमेज में डाला गया, लेकिन o3 ने समझ लिया कि यह जानकारी वास्तविक इमेज कंटेंट से मेल नहीं खाती और इसे नज़रअंदाज़ कर दिया
- EXIF जानकारी को टेक्स्ट के रूप में देने पर भी, फोटो के वातावरण के आधार पर इसने बिल्कुल अलग लोकेशन का सही अनुमान लगाया
- इससे यह साबित हुआ कि AI केवल मेटाडेटा पर निर्भर नहीं है, बल्कि इमेज कंटेंट का गहराई से विश्लेषण कर रहा है
मानव और AI में अंतर
- o3 ने हर राउंड में औसतन 2~6 मिनट का तर्क समय लिया, जबकि मानव खिलाड़ी ने अधिकांश अनुमान 1~2 मिनट के भीतर पूरे किए
- AI कभी-कभी विज्ञापन बोर्ड जैसे कम महत्वपूर्ण तत्वों पर समय लगाता है, जबकि इंसान महत्वपूर्ण संकेतों को जल्दी पहचानकर उनकी प्राथमिकता तय करता है
- लेकिन o3 ने रोड साइन, नंबर प्लेट, वास्तुशैली, भू-आकृति और वनस्पति जैसी विविध विज़ुअल जानकारी को बारीकी से जोड़कर उच्च सटीकता दिखाई
निष्कर्ष
- o3 ने केवल EXIF या सर्च का उपयोग करने वाली चालाकी नहीं, बल्कि वास्तविक विज़ुअल विश्लेषण क्षमता के आधार पर सही उत्तर निकाले
- इसने Geoguessr Master I रैंक या उससे ऊपर के स्तर के करीब का प्रदर्शन दिखाया
- इंसान अभी भी गति और अंतर्ज्ञान में बढ़त रखता है, लेकिन सटीकता के मामले में AI पहले ही गंभीर चुनौती बन चुका है
- यह सिर्फ एक तकनीकी डेमो नहीं, बल्कि व्यावहारिक उपयोग के योग्य उच्च-प्रदर्शन विज़न AI की वर्तमान स्थिति दिखाने वाला उदाहरण है
1 टिप्पणियां
Hacker News राय
वाहन पर
"www.taxilinder.at"वाला स्टिकर लगा है। वेब सर्च के ज़रिए पता चल सकता है कि Taxi Linder GmbH ऑस्ट्रिया के Dornbirn में स्थित हैलेखक खुश है कि लोगों को यह विषय दिलचस्प लग रहा है
वह GeoGuessr में master level पर है। इस स्तर पर निश्चित रूप से पता होना चाहिए कि क्या करना है, लेकिन यह उतना ऊँचा नहीं है जितना शीर्षक से लगता है
उसकी समझ के अनुसार o3 को image data सहित multimodal data पर train किया गया है। यह मानना अव्यावहारिक नहीं है कि training data में सटीक locations और landmarks की images शामिल रही हों
GeoGuessr से अलग, उसे उम्मीद है कि यह तकनीक कभी बच्चों को बचाने में मदद करेगी। उदाहरण के लिए, यह FBI के ECAP में मददगार हो सकती है
पिछली पोस्ट की टिप्पणियों से:
"डरावनी हद तक सटीक"कहा। यह आकलन का विषय हैउसने इस हफ़्ते o3 के साथ खेलने की कोशिश की, और दिलचस्प रूप से उसने ज़्यादा pattern matching की कोशिश की। उदाहरण के लिए, वह Europe और US की तस्वीरों के बारे में आसानी से अनुमान लगा सकता है
आश्चर्यजनक। वह AI को लेकर सकारात्मक है, लेकिन यहाँ उसे लगा था कि इंसान जीतेगा। उसे
"यह असली reasoning नहीं है"जैसी goalpost shifting की उम्मीद हैव्यक्तिगत रूप से उसे लगता है कि यह कम प्रभावशाली LLM applications में से एक है। यह पहले से ही सभी plants, road signs वगैरह जानता है। उसे लगता है कि पारंपरिक neural networks भी यहाँ अच्छा कर सकते हैं
यह OSINT(Bellingcat/Trace an object) शैली के काम में game changer हो सकता है। वह सोचता है कि क्या ऐसा पहले से हो भी रहा है