3 पॉइंट द्वारा computerphilosopher 2025-04-18 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें
  • ChatGPT o1 और Gemini 2.5 को लेकर hallucination पैदा करने के तरीकों पर प्रयोग करते समय o3 रिलीज़ हुआ
  • o3, o1 से अलग, इंटरनेट सर्च, image recognition, code execution जैसी क्षमताओं वाला एक शक्तिशाली multimodal model है। लेकिन पाया गया कि यह ऐसे झूठे जवाब देता है जो शायद इंसान न दे
  • मुख्य परिकल्पना: LLM के पास इंसानों की तरह इंद्रियाँ नहीं होतीं। इसलिए यह उन सवालों में कमज़ोर होगा जिनमें दृश्य जानकारी या दिशाबोध जैसी जानकारी चाहिए।
  • hallucination पैदा करने वाले सवाल
    • Van Gogh की 'The Potato Eaters' का वर्णन करना
      • किरदारों की संरचना ही गलत बताने वाले o1 से बेहतर है, लेकिन ठोस वर्णन में अब भी गलती करता है
    • Mozart की piano sonata K545 की धुन के स्वरों के नाम बताना
      • इंटरनेट सर्च फीचर के जरिए मूल इमेज ढूंढ लेने के बाद भी सही जवाब नहीं दे पाया
      • लगता है visual module sheet music को पहचान नहीं पाता
    • पैदल रास्ता खोजने के नतीजे
      • Naver Map के सर्च रिज़ल्ट शामिल होने के बावजूद गलत जवाब दिया
    • Korean-English keyboard conversion समस्या (उदाहरण: cotwlvlxl -> ChatGPT)
      • इनपुट छोटा होने पर सही जवाब देता है, लेकिन आकार बढ़ते ही झूठा जवाब बनाने लगता है
      • मानो समस्या हल करते-करते कह रहा हो, "अब जो होगा देखा जाएगा," और भाग निकल रहा हो
      • पारंपरिक algorithm में ऐसा कोई "हार मानने वाला मोमेंट" नहीं होता। वह बस लंबे समय तक चलता और फिर timeout हो जाता
  • निष्कर्ष
    • असली अर्थों में इंद्रिय तंत्र का न होना अभी भी LLM की एक वैध कमज़ोरी है
    • समस्या हल न कर पाना दोष नहीं है। असली दोष है झूठा जवाब गढ़ देना।
    • उम्मीद है कि डेवलपर कंपनियाँ reasoning क्षमता बढ़ाने और नए फीचर जोड़ने पर ही ध्यान देने के बजाय, यह meta-cognition भी दें कि मॉडल को न पता हो तो वह कह सके कि उसे नहीं पता

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.