o3 का फोटो लोकेशन अनुमान अतियथार्थवादी, डिस्टोपियन और मज़ेदार है

(simonwillison.net)

6 पॉइंट द्वारा GN⁺ 2025-04-27 | 2 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI का नया मॉडल o3 सिर्फ फोटो देखकर यह चौंकाने वाली सटीकता से अनुमान लगा सकता है कि वह कहाँ ली गई थी
फोटो में मौजूद विज़ुअल संकेतों का विश्लेषण करके, और zoom/crop के जरिए अधिक डिटेल निकालने की प्रक्रिया दिखाता है
पहले Cambria, California का अनुमान लगाया, लेकिन दूसरा अनुमान El Granada बिल्कुल सही निकला
Tool-augmented Chain-of-Thought का उपयोग करते हुए फोटो विश्लेषण की इसकी प्रक्रिया एक बेहद नवोन्मेषी पैटर्न दिखाती है
तकनीक के दोहरे पक्ष को लेकर सावधानी की ज़रूरत पर ज़ोर देता है और फोटो शेयर करने के जोखिमों की भी ओर इशारा करता है

o3 मॉडल की चौंकाने वाली फोटो लोकेशन अनुमान क्षमता

OpenAI का o3 मॉडल फोटो देखकर यह चौंकाने वाली सटीकता से अनुमान लगा सकता है कि वह कहाँ ली गई थी
यूज़र ने बिना किसी स्पष्ट landmark वाली एक सामान्य सड़क-दृश्य की फोटो दी और पूछा, "तुम्हें क्या लगता है यह फोटो कहाँ ली गई है?"
मॉडल ने शुरुआत में गलतफ़हमी में सोचा कि वह इमेज नहीं देख सकता, लेकिन जल्द ही विज़ुअल विश्लेषण शुरू कर दिया
घरों, फूलों की क्यारियों, पहाड़ियों, साइनबोर्ड आदि जैसे कई विज़ुअल संकेतों का विश्लेषण करके उसने लोकेशन को सीमित किया

o3 की फोटो विश्लेषण प्रक्रिया

मॉडल ने कार नंबर प्लेट देखने के लिए फोटो को crop और zoom करने का तरीका इस्तेमाल किया
Python कोड का उपयोग करके इमेज के खास हिस्सों को काटा गया और फिर उनके परिणामों का विश्लेषण किया गया
नंबर प्लेट के डिज़ाइन से California होने का अनुमान लगाया गया, और आसपास के वातावरण व वास्तुशैली का भी विश्लेषण किया गया
इसके आधार पर अंततः Cambria, California का अनुमान लगाया गया, और दूसरे विकल्प के रूप में Half Moon Bay–El Granada सुझाया गया

विश्लेषण की सटीकता और अतिरिक्त प्रयोग

वास्तविक शूटिंग लोकेशन El Granada थी, और मॉडल का दूसरा अनुमान सही था
यह पुष्टि हुई कि उसने EXIF metadata का उपयोग किए बिना भी लोकेशन का अनुमान लगाया
यूज़र ने EXIF जानकारी हटाई हुई screenshot से प्रयोग किया, और तब भी सटीक अनुमान संभव रहा
दूसरे मॉडल Claude 3.5/3.7 Sonnet ने भी अच्छा प्रदर्शन किया, लेकिन o3 जैसी zoom क्षमता को सपोर्ट नहीं किया
Gemini मॉडल ने कुछ मामलों में लोकेशन जानकारी का गलत उपयोग किया या गलत अनुमान लगाए

Tool-augmented Chain-of-Thought और उसका महत्व

o3 ने "सोचते समय" ज़रूरी टूल्स का खुद इस्तेमाल करने वाला नया Tool-augmented Chain-of-Thought तरीका अपनाया है
सिर्फ फोटो विश्लेषण ही नहीं, बल्कि search जैसे कई दूसरे कामों में भी यह पैटर्न मज़बूत प्रदर्शन दिखाता है
आगे चलकर दूसरे AI मॉडल्स में भी इसी तरह के तरीकों के फैलने की उम्मीद है

तकनीक का मज़ा और जोखिम

मॉडल की reasoning प्रक्रिया को देखना बहुत मज़ेदार और immersive अनुभव देता है
साथ ही, फोटो के ज़रिए लोकेशन ट्रैकिंग की संभावना अब आम हो चुकी है—इस चेतावनी को गंभीरता से लेना भी ज़रूरी है
कोई भी व्यक्ति रोज़मर्रा की फोटो के आधार पर किसी की लोकेशन ट्रैक कर सकता है, इसलिए privacy और safety issues को लेकर जागरूकता ज़रूरी है

o3 मॉडल की लोकेशन एक्सेस पर अतिरिक्त जानकारी

o3 यूज़र की मोटे तौर पर लोकेशन जानकारी को संदर्भित कर सकता है, लेकिन सटीक लोकेशन अनुमान का यह मुख्य कारक नहीं है
EXIF metadata के बिना भी उसने हज़ारों मील दूर की जगहों की फोटो का काफ़ी सटीक विश्लेषण किया
दूसरे यूज़र्स ने भी अलग-अलग जगहों से प्रयोग किए और o3 की विश्लेषण क्षमता की फिर पुष्टि की

2 टिप्पणियां

unsure4000 2025-04-27

अगर EXIF में उलटी जानकारी डालकर देखें तो क्या होगा?

GN⁺ 2025-04-27

Hacker News राय

मैं competitive Geoguessr को high level पर खेलता हूँ, और इस मॉडल को टेस्ट करना चाहता था
- हैरान करने वाली तरह से शानदार है
- इसने मेरे रहने वाले इलाके की तस्वीर सही पहचानी, और यह भी बताया कि उसने इस जानकारी का इस्तेमाल किया कि मैं उसके पास रहता हूँ
- पुरानी छुट्टियों की तस्वीरें भी इसने प्रो human players से बेहतर पहचानीं
- इनमें यूरोप, मध्य अमेरिका और अमेरिका की अलग-अलग जगहें शामिल थीं
- निष्कर्ष तक पहुँचने की इसकी प्रक्रिया इंसानों जैसी लगती है
- यह पौधों, भू-आकृति, इमारतों, सड़क इन्फ्रास्ट्रक्चर, साइनबोर्ड आदि का विश्लेषण करता है
- इंसान भी यह कर सकते हैं, लेकिन उसके लिए हज़ारों गेम या गहरी पढ़ाई चाहिए
- मैं सड़क की लाइनों, बिजली के खंभों, इमारतों आदि को याद रखने के लिए सैकड़ों flashcards इस्तेमाल करता हूँ
- इन मॉडलों के पास किसी व्यक्ति की याददाश्त से कहीं ज़्यादा जानकारी होती है
मुझे यक़ीन है कि इसने EXIF data नहीं देखा
- अगर देखा होता, तो शुरुआत में Cambria का अनुमान नहीं लगाता
- एक बार इसने कहा कि यह image data बिल्कुल भी नहीं देख सकता
- उस बात पर बिल्कुल भरोसा नहीं किया जा सकता
- EXIF data हटाकर फिर से चलाना चाहिए
मैंने जिन भी images पर इसे आज़माया, base model ने फोटो की location लगभग 95% accuracy से पहचान ली
- OP की शुरुआती image में 4o ने Carmel-by-the-Sea का ज़्यादा सटीक अनुमान लगाया
- CoT में पहले reasoning step पर लगभग सही location दिखती है
- मॉडल उसे नज़रअंदाज़ करके दूसरी जगहें आज़माता है
- जब base model को clues समझ नहीं आते, तब o3 कोई खास समझदारी वाला व्यवहार नहीं करता
- मॉडल को RL-ed किया गया है ताकि tool usage की संख्या की परवाह किए बिना सही जवाब की तरफ बढ़े
मैंने भी यही कोशिश की, और नतीजा मज़ेदार था
- इसे बिल्कुल कोई clue नहीं मिला
- इसे कई बार prompt में बताया गया कि यह वह शहर नहीं है जहाँ मैं हूँ
- सबसे मज़ेदार तब था जब इसने धुंधले asphalt का analysis शुरू कर दिया
- 6 मिनट बाद o3 पूरे confidence के साथ ग़लत निकला
o3 मोटे तौर पर user की location का model बनाता है
- मेरा मानना है कि यह नई search feature को support करने के लिए है
- मैंने दो और example queries चलाईं, और दोनों में काफ़ी भरोसेमंद नतीजे दिखे
इससे मुझे वह बात याद आती है जब लोग YouTubeTV देखते हुए उन चीज़ों के ads देखकर हैरान हो जाते हैं जिनके बारे में वे बात कर रहे थे
- असल में modern ML location, data partners और recent searches का इस्तेमाल करके ad relevance का अच्छा अनुमान लगा सकता है
- यह समझाने के बाद भी कुछ लोग मानते हैं कि computer उनकी बातें सुन रहा है
कुछ क्षेत्रों में location guessing डरावनी हद तक सटीक हो सकती है
- लेकिन reasoning process देखें तो कई ऐसे क्षेत्र भी होंगे जहाँ यह कम सटीक होगी
- अगर आप Kansas के किसी trailer park की फोटो दिखाएँ, तो मॉडल शायद सिर्फ state तक ही सही पहुँच पाएगा
- अगर robot apocalypse हुआ, तो California सबसे पहले ख़तरे में होगा
मुझे यक़ीन है कि इसने EXIF data नहीं देखा
- अगर यह ऐसे काम में cheating करता, तो थोड़ा-सा ग़लत location suggest करता
- EXIF data हटाई गई उसी image पर यह कैसा perform करता है, यह देखना दिलचस्प होगा
किसी और दिन यह इतना प्रभावशाली नहीं था
- यह दी गई images को ढूँढ नहीं पाया
- यह image crop और similar search को बार-बार दोहराता रहा
- image generation feature इस्तेमाल करने पर पता चलता है कि यह बड़े image databases को reference material की तरह इस्तेमाल करता है
मुझे यक़ीन नहीं कि o4-mini इस काम में fail हो रहा है या नहीं
- इसने दी गई फोटो पर अच्छा perform नहीं किया
- मैंने इसे Basel Main Train Station की एक फोटो दी जिसमें 'Sprüngli' लिखा था, लेकिन मॉडल ने Zurich सुझाया
- दूसरी फोटो और मुश्किल थी
- वह Metz के एक museum के अंदर की फोटो थी, और मॉडल शुरुआत से ही चूक गया
- कुल मिलाकर images को समझना और उन पर reasoning करना अब भी शानदार है, लेकिन कम परिचित जगहों पर यह अच्छा perform नहीं करता

o3 का फोटो लोकेशन अनुमान अतियथार्थवादी, डिस्टोपियन और मज़ेदार है

o3 मॉडल की चौंकाने वाली फोटो लोकेशन अनुमान क्षमता

o3 की फोटो विश्लेषण प्रक्रिया

विश्लेषण की सटीकता और अतिरिक्त प्रयोग

Tool-augmented Chain-of-Thought और उसका महत्व

तकनीक का मज़ा और जोखिम

o3 मॉडल की लोकेशन एक्सेस पर अतिरिक्त जानकारी

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News राय