- ChatGPT o1 और Gemini 2.5 को लेकर hallucination पैदा करने के तरीकों पर प्रयोग करते समय o3 रिलीज़ हुआ
- o3, o1 से अलग, इंटरनेट सर्च, image recognition, code execution जैसी क्षमताओं वाला एक शक्तिशाली multimodal model है। लेकिन पाया गया कि यह ऐसे झूठे जवाब देता है जो शायद इंसान न दे
- मुख्य परिकल्पना: LLM के पास इंसानों की तरह इंद्रियाँ नहीं होतीं। इसलिए यह उन सवालों में कमज़ोर होगा जिनमें दृश्य जानकारी या दिशाबोध जैसी जानकारी चाहिए।
- hallucination पैदा करने वाले सवाल
- Van Gogh की 'The Potato Eaters' का वर्णन करना
- किरदारों की संरचना ही गलत बताने वाले o1 से बेहतर है, लेकिन ठोस वर्णन में अब भी गलती करता है
- Mozart की piano sonata K545 की धुन के स्वरों के नाम बताना
- इंटरनेट सर्च फीचर के जरिए मूल इमेज ढूंढ लेने के बाद भी सही जवाब नहीं दे पाया
- लगता है visual module sheet music को पहचान नहीं पाता
- पैदल रास्ता खोजने के नतीजे
- Naver Map के सर्च रिज़ल्ट शामिल होने के बावजूद गलत जवाब दिया
- Korean-English keyboard conversion समस्या (उदाहरण: cotwlvlxl -> ChatGPT)
- इनपुट छोटा होने पर सही जवाब देता है, लेकिन आकार बढ़ते ही झूठा जवाब बनाने लगता है
- मानो समस्या हल करते-करते कह रहा हो, "अब जो होगा देखा जाएगा," और भाग निकल रहा हो
- पारंपरिक algorithm में ऐसा कोई "हार मानने वाला मोमेंट" नहीं होता। वह बस लंबे समय तक चलता और फिर timeout हो जाता
- निष्कर्ष
- असली अर्थों में इंद्रिय तंत्र का न होना अभी भी LLM की एक वैध कमज़ोरी है
- समस्या हल न कर पाना दोष नहीं है। असली दोष है झूठा जवाब गढ़ देना।
- उम्मीद है कि डेवलपर कंपनियाँ reasoning क्षमता बढ़ाने और नए फीचर जोड़ने पर ही ध्यान देने के बजाय, यह meta-cognition भी दें कि मॉडल को न पता हो तो वह कह सके कि उसे नहीं पता
अभी कोई टिप्पणी नहीं है.