- OpenAI का नया मॉडल o3 सिर्फ फोटो देखकर यह चौंकाने वाली सटीकता से अनुमान लगा सकता है कि वह कहाँ ली गई थी
- फोटो में मौजूद विज़ुअल संकेतों का विश्लेषण करके, और zoom/crop के जरिए अधिक डिटेल निकालने की प्रक्रिया दिखाता है
- पहले Cambria, California का अनुमान लगाया, लेकिन दूसरा अनुमान El Granada बिल्कुल सही निकला
- Tool-augmented Chain-of-Thought का उपयोग करते हुए फोटो विश्लेषण की इसकी प्रक्रिया एक बेहद नवोन्मेषी पैटर्न दिखाती है
- तकनीक के दोहरे पक्ष को लेकर सावधानी की ज़रूरत पर ज़ोर देता है और फोटो शेयर करने के जोखिमों की भी ओर इशारा करता है
o3 मॉडल की चौंकाने वाली फोटो लोकेशन अनुमान क्षमता
- OpenAI का o3 मॉडल फोटो देखकर यह चौंकाने वाली सटीकता से अनुमान लगा सकता है कि वह कहाँ ली गई थी
- यूज़र ने बिना किसी स्पष्ट landmark वाली एक सामान्य सड़क-दृश्य की फोटो दी और पूछा, "तुम्हें क्या लगता है यह फोटो कहाँ ली गई है?"
- मॉडल ने शुरुआत में गलतफ़हमी में सोचा कि वह इमेज नहीं देख सकता, लेकिन जल्द ही विज़ुअल विश्लेषण शुरू कर दिया
- घरों, फूलों की क्यारियों, पहाड़ियों, साइनबोर्ड आदि जैसे कई विज़ुअल संकेतों का विश्लेषण करके उसने लोकेशन को सीमित किया
o3 की फोटो विश्लेषण प्रक्रिया
- मॉडल ने कार नंबर प्लेट देखने के लिए फोटो को crop और zoom करने का तरीका इस्तेमाल किया
- Python कोड का उपयोग करके इमेज के खास हिस्सों को काटा गया और फिर उनके परिणामों का विश्लेषण किया गया
- नंबर प्लेट के डिज़ाइन से California होने का अनुमान लगाया गया, और आसपास के वातावरण व वास्तुशैली का भी विश्लेषण किया गया
- इसके आधार पर अंततः Cambria, California का अनुमान लगाया गया, और दूसरे विकल्प के रूप में Half Moon Bay–El Granada सुझाया गया
विश्लेषण की सटीकता और अतिरिक्त प्रयोग
- वास्तविक शूटिंग लोकेशन El Granada थी, और मॉडल का दूसरा अनुमान सही था
- यह पुष्टि हुई कि उसने EXIF metadata का उपयोग किए बिना भी लोकेशन का अनुमान लगाया
- यूज़र ने EXIF जानकारी हटाई हुई screenshot से प्रयोग किया, और तब भी सटीक अनुमान संभव रहा
- दूसरे मॉडल Claude 3.5/3.7 Sonnet ने भी अच्छा प्रदर्शन किया, लेकिन o3 जैसी zoom क्षमता को सपोर्ट नहीं किया
- Gemini मॉडल ने कुछ मामलों में लोकेशन जानकारी का गलत उपयोग किया या गलत अनुमान लगाए
Tool-augmented Chain-of-Thought और उसका महत्व
- o3 ने "सोचते समय" ज़रूरी टूल्स का खुद इस्तेमाल करने वाला नया Tool-augmented Chain-of-Thought तरीका अपनाया है
- सिर्फ फोटो विश्लेषण ही नहीं, बल्कि search जैसे कई दूसरे कामों में भी यह पैटर्न मज़बूत प्रदर्शन दिखाता है
- आगे चलकर दूसरे AI मॉडल्स में भी इसी तरह के तरीकों के फैलने की उम्मीद है
तकनीक का मज़ा और जोखिम
- मॉडल की reasoning प्रक्रिया को देखना बहुत मज़ेदार और immersive अनुभव देता है
- साथ ही, फोटो के ज़रिए लोकेशन ट्रैकिंग की संभावना अब आम हो चुकी है—इस चेतावनी को गंभीरता से लेना भी ज़रूरी है
- कोई भी व्यक्ति रोज़मर्रा की फोटो के आधार पर किसी की लोकेशन ट्रैक कर सकता है, इसलिए privacy और safety issues को लेकर जागरूकता ज़रूरी है
o3 मॉडल की लोकेशन एक्सेस पर अतिरिक्त जानकारी
- o3 यूज़र की मोटे तौर पर लोकेशन जानकारी को संदर्भित कर सकता है, लेकिन सटीक लोकेशन अनुमान का यह मुख्य कारक नहीं है
- EXIF metadata के बिना भी उसने हज़ारों मील दूर की जगहों की फोटो का काफ़ी सटीक विश्लेषण किया
- दूसरे यूज़र्स ने भी अलग-अलग जगहों से प्रयोग किए और o3 की विश्लेषण क्षमता की फिर पुष्टि की
2 टिप्पणियां
अगर EXIF में उलटी जानकारी डालकर देखें तो क्या होगा?
Hacker News राय
मैं competitive Geoguessr को high level पर खेलता हूँ, और इस मॉडल को टेस्ट करना चाहता था
मुझे यक़ीन है कि इसने EXIF data नहीं देखा
मैंने जिन भी images पर इसे आज़माया, base model ने फोटो की location लगभग 95% accuracy से पहचान ली
मैंने भी यही कोशिश की, और नतीजा मज़ेदार था
o3 मोटे तौर पर user की location का model बनाता है
इससे मुझे वह बात याद आती है जब लोग YouTubeTV देखते हुए उन चीज़ों के ads देखकर हैरान हो जाते हैं जिनके बारे में वे बात कर रहे थे
कुछ क्षेत्रों में location guessing डरावनी हद तक सटीक हो सकती है
मुझे यक़ीन है कि इसने EXIF data नहीं देखा
किसी और दिन यह इतना प्रभावशाली नहीं था
मुझे यक़ीन नहीं कि o4-mini इस काम में fail हो रहा है या नहीं