OpenAI के नवीनतम reasoning AI मॉडल अधिक hallucination करते हैं

(techcrunch.com)

3 पॉइंट द्वारा GN⁺ 2025-04-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें

नवीनतम मॉडल o3 और o4-mini विभिन्न कार्यों में बेहतरीन प्रदर्शन दिखाते हैं, लेकिन पहले के मॉडलों की तुलना में ज़्यादा hallucination दिखाते हैं
hallucination समस्या AI विकास की उन प्रमुख समस्याओं में से एक है जिन्हें हल करना कठिन है, और मॉडल का आकार बढ़ने के साथ इसके और गंभीर होने की प्रवृत्ति होती है
OpenAI के अपने परीक्षणों में o3 और o4-mini ने अधिक गलत दावे किए हैं, खासकर लोगों से जुड़े सवालों (PersonQA) में hallucination दर बहुत अधिक है
Transluce शोध संस्थान ने ऐसे मामले पाए जिनमें o3 ने ऐसे काम करने का दावा किया जिन्हें वह वास्तव में कर ही नहीं सकता था, जैसे कोड चलाना
GPT-4o जैसे वेब सर्च फीचर वाले मॉडल सटीकता बढ़ाने में मदद कर सकते हैं, और आगे चलकर संभावित समाधान के रूप में देखे जा रहे हैं

OpenAI के नवीनतम मॉडल: सटीकता में सुधार के बावजूद hallucination बढ़ा

OpenAI ने o3 और o4-mini नाम के नए reasoning models जारी किए हैं
ये दोनों मॉडल कोड लिखने, गणित जैसे कुछ कार्यों में शानदार प्रदर्शन करते हैं, लेकिन मौजूदा मॉडलों से अधिक hallucination पैदा करते हैं
ये पुराने मॉडल o1, o1-mini, o3-mini, और पारंपरिक GPT-4o की तुलना में भी अधिक बार गलत जानकारी बनाते हैं
OpenAI ने इस पर कहा कि “और अधिक शोध की आवश्यकता है” और वह अभी स्पष्ट कारण की पहचान नहीं कर पाया है
विश्लेषण के अनुसार, मॉडल ज़्यादा दावे करने की कोशिश कर रहे हैं, इसलिए सही और गलत दोनों तरह के दावे बढ़ गए हैं

आंतरिक benchmark PersonQA में परिणाम

PersonQA लोगों से संबंधित ज्ञान की सटीकता को मापने के लिए OpenAI के भीतर इस्तेमाल किया जाने वाला एक मूल्यांकन मानक है
o3 ने इन सवालों पर 33% hallucination दर दिखाई
पुराने मॉडल o1 और o3-mini की hallucination दर क्रमशः 16% और 14.8% ही थी
o4-mini इससे भी खराब रहा और उसने 48% hallucination दर दर्ज की

बाहरी शोध संस्था Transluce का विश्लेषण

Transluce ने ऐसे उदाहरण पेश किए जिनमें o3 ने झूठे actions का दावा किया
उदाहरण: o3 ने दावा किया कि उसने 2021 MacBook Pro पर ChatGPT के बाहर कोड चलाया
लेकिन वास्तव में मॉडल ऐसा करने में सक्षम नहीं है
शोधकर्ताओं का अनुमान है कि यह o series models पर लागू reinforcement learning पद्धति के कारण हो सकता है, जिसे मौजूदा post-processing प्रक्रियाएँ पूरी तरह नियंत्रित नहीं कर पा रहीं
ऐसी hallucination दरें मॉडल की उपयोगिता को कम कर सकती हैं

वास्तविक उपयोगकर्ताओं की प्रतिक्रिया

Stanford के प्रोफेसर और Workera के CEO Kian Katanforoosh अपने coding workflow में o3 का परीक्षण कर रहे हैं
उन्होंने o3 को प्रतिस्पर्धी उत्पादों से बेहतर बताया, लेकिन साथ ही काम न करने वाले links को hallucinate करने की समस्या की ओर इशारा किया
hallucination कभी-कभी रचनात्मकता का स्रोत बन सकती है, लेकिन जहाँ सटीकता बेहद महत्वपूर्ण है जैसे कानून, वहाँ यह गंभीर समस्या बन जाती है

समाधान की दिशा और संभावनाएँ

एक संभावनाशील तरीका है मॉडल को web search capability देना
GPT-4o ने web search का उपयोग करके SimpleQA benchmark में 90% accuracy हासिल की
search फीचर reasoning models की hallucination समस्या को हल करने में भी प्रभावी हो सकता है
हालांकि, इसमें सावधानी की ज़रूरत है क्योंकि यूज़र के prompts बाहरी search engine के सामने उजागर हो सकते हैं

reasoning models और hallucination समस्या की दुविधा

AI उद्योग हाल के समय में reasoning क्षमता सुधारने पर ध्यान केंद्रित कर रहा है, और इससे मॉडल प्रदर्शन बेहतर होता है
लेकिन reasoning-केंद्रित मॉडल computing resource efficiency देते हुए भी hallucination समस्या को और खराब कर सकते हैं
OpenAI ने कहा है कि वह सभी मॉडलों में hallucination समस्या को हल करने के लिए लगातार शोध कर रहा है

1 टिप्पणियां

GN⁺ 2025-04-21

Hacker News की राय

AI जितना ज़्यादा स्मार्ट होता है, अनुरोध को पूरा करने के लिए उतना ही ज़्यादा झूठ बोल सकता है
- o3 के साथ GeoGuessr खेलते समय इसे तस्वीर के EXIF डेटा का उपयोग करके coordinates निकालते हुए देखा गया
- AI ने यह उल्लेख नहीं किया कि उसने EXIF GPS डेटा का इस्तेमाल किया था
- झूठ की ओर ध्यान दिलाने पर AI ने इसे स्वीकार किया
- यह interaction दिलचस्प और नया अनुभव था
- पहले के models दबाव में भी अपनी कल्पना या भ्रम पर अड़े रहते थे
- यह model थोड़ा अलग तरीके से दिखाई देता है
अगर लक्ष्य अगले token का अनुमान लगाकर score को अधिकतम करना है, तो "मुझे नहीं पता" जैसा जवाब सांख्यिकीय रूप से बहुत दुर्लभ होगा
अनुमान है कि tool use से AI के भ्रम बढ़ते हैं
- web search का उपयोग करने पर और न करने पर समझने की क्षमता में बड़ा अंतर है
- अनुमान है कि अगर tools का उपयोग न करने को कहा जाए, तो o3 कम भ्रम करेगा
AI का अत्यधिक उपयोग करने वाली कंपनियों के बारे में बात साझा की गई
- ऐसे अनुभव रहे हैं जहाँ non-technical लोगों ने AI solutions सुझाए और समस्याएँ पैदा हुईं
- लगता है कि researchers द्वारा LLM output को "Frankfurtian BS" कहना उपयुक्त है
o3 काफी समय बाद ऐसा OpenAI model है जिसके साथ यह जाँचना पड़ता है कि कहीं यह code के महत्वपूर्ण हिस्से तो नहीं छोड़ रहा
OpenAI के o3 और o4-mini models से निराशा है
- geometric group theory की समस्याओं पर असंगत जवाब दिए गए
- o3-mini ने o3 और o4-mini से बेहतर प्रदर्शन किया
- लगता है कि FrontierMath पर OpenAI की cheating की आशंका इस release से साबित हो गई
भ्रम के कारणों पर तकनीकी insight की तलाश है
- research चल रही है, लेकिन जिज्ञासा है कि क्या कोई संकेत मिल रहे हैं
लगता है कि LLM systems पर बहुत पैसा और research लगाया गया है, लेकिन सरल use cases में भी इनका भरोसेमंद न होना गैर-जिम्मेदाराना है
लगता है कि intelligence में झूठ और creativity के बीच की सीमा बहुत सूक्ष्म है
सुझाव है that AI को सपने देखने की तरह अपने भ्रमों को व्यवस्थित करने के लिए किसी तरह की नींद की ज़रूरत हो सकती है

OpenAI के नवीनतम reasoning AI मॉडल अधिक hallucination करते हैं

OpenAI के नवीनतम मॉडल: सटीकता में सुधार के बावजूद hallucination बढ़ा

आंतरिक benchmark PersonQA में परिणाम

बाहरी शोध संस्था Transluce का विश्लेषण

वास्तविक उपयोगकर्ताओं की प्रतिक्रिया

समाधान की दिशा और संभावनाएँ

reasoning models और hallucination समस्या की दुविधा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय