- नवीनतम मॉडल o3 और o4-mini विभिन्न कार्यों में बेहतरीन प्रदर्शन दिखाते हैं, लेकिन पहले के मॉडलों की तुलना में ज़्यादा hallucination दिखाते हैं
- hallucination समस्या AI विकास की उन प्रमुख समस्याओं में से एक है जिन्हें हल करना कठिन है, और मॉडल का आकार बढ़ने के साथ इसके और गंभीर होने की प्रवृत्ति होती है
- OpenAI के अपने परीक्षणों में o3 और o4-mini ने अधिक गलत दावे किए हैं, खासकर लोगों से जुड़े सवालों (PersonQA) में hallucination दर बहुत अधिक है
- Transluce शोध संस्थान ने ऐसे मामले पाए जिनमें o3 ने ऐसे काम करने का दावा किया जिन्हें वह वास्तव में कर ही नहीं सकता था, जैसे कोड चलाना
- GPT-4o जैसे वेब सर्च फीचर वाले मॉडल सटीकता बढ़ाने में मदद कर सकते हैं, और आगे चलकर संभावित समाधान के रूप में देखे जा रहे हैं
OpenAI के नवीनतम मॉडल: सटीकता में सुधार के बावजूद hallucination बढ़ा
- OpenAI ने o3 और o4-mini नाम के नए reasoning models जारी किए हैं
- ये दोनों मॉडल कोड लिखने, गणित जैसे कुछ कार्यों में शानदार प्रदर्शन करते हैं, लेकिन मौजूदा मॉडलों से अधिक hallucination पैदा करते हैं
- ये पुराने मॉडल o1, o1-mini, o3-mini, और पारंपरिक GPT-4o की तुलना में भी अधिक बार गलत जानकारी बनाते हैं
- OpenAI ने इस पर कहा कि “और अधिक शोध की आवश्यकता है” और वह अभी स्पष्ट कारण की पहचान नहीं कर पाया है
- विश्लेषण के अनुसार, मॉडल ज़्यादा दावे करने की कोशिश कर रहे हैं, इसलिए सही और गलत दोनों तरह के दावे बढ़ गए हैं
आंतरिक benchmark PersonQA में परिणाम
- PersonQA लोगों से संबंधित ज्ञान की सटीकता को मापने के लिए OpenAI के भीतर इस्तेमाल किया जाने वाला एक मूल्यांकन मानक है
- o3 ने इन सवालों पर 33% hallucination दर दिखाई
- पुराने मॉडल o1 और o3-mini की hallucination दर क्रमशः 16% और 14.8% ही थी
- o4-mini इससे भी खराब रहा और उसने 48% hallucination दर दर्ज की
बाहरी शोध संस्था Transluce का विश्लेषण
- Transluce ने ऐसे उदाहरण पेश किए जिनमें o3 ने झूठे actions का दावा किया
- उदाहरण: o3 ने दावा किया कि उसने 2021 MacBook Pro पर ChatGPT के बाहर कोड चलाया
- लेकिन वास्तव में मॉडल ऐसा करने में सक्षम नहीं है
- शोधकर्ताओं का अनुमान है कि यह o series models पर लागू reinforcement learning पद्धति के कारण हो सकता है, जिसे मौजूदा post-processing प्रक्रियाएँ पूरी तरह नियंत्रित नहीं कर पा रहीं
- ऐसी hallucination दरें मॉडल की उपयोगिता को कम कर सकती हैं
वास्तविक उपयोगकर्ताओं की प्रतिक्रिया
- Stanford के प्रोफेसर और Workera के CEO Kian Katanforoosh अपने coding workflow में o3 का परीक्षण कर रहे हैं
- उन्होंने o3 को प्रतिस्पर्धी उत्पादों से बेहतर बताया, लेकिन साथ ही काम न करने वाले links को hallucinate करने की समस्या की ओर इशारा किया
- hallucination कभी-कभी रचनात्मकता का स्रोत बन सकती है, लेकिन जहाँ सटीकता बेहद महत्वपूर्ण है जैसे कानून, वहाँ यह गंभीर समस्या बन जाती है
समाधान की दिशा और संभावनाएँ
- एक संभावनाशील तरीका है मॉडल को web search capability देना
- GPT-4o ने web search का उपयोग करके SimpleQA benchmark में 90% accuracy हासिल की
- search फीचर reasoning models की hallucination समस्या को हल करने में भी प्रभावी हो सकता है
- हालांकि, इसमें सावधानी की ज़रूरत है क्योंकि यूज़र के prompts बाहरी search engine के सामने उजागर हो सकते हैं
reasoning models और hallucination समस्या की दुविधा
- AI उद्योग हाल के समय में reasoning क्षमता सुधारने पर ध्यान केंद्रित कर रहा है, और इससे मॉडल प्रदर्शन बेहतर होता है
- लेकिन reasoning-केंद्रित मॉडल computing resource efficiency देते हुए भी hallucination समस्या को और खराब कर सकते हैं
- OpenAI ने कहा है कि वह सभी मॉडलों में hallucination समस्या को हल करने के लिए लगातार शोध कर रहा है
1 टिप्पणियां
Hacker News की राय
AI जितना ज़्यादा स्मार्ट होता है, अनुरोध को पूरा करने के लिए उतना ही ज़्यादा झूठ बोल सकता है
अगर लक्ष्य अगले token का अनुमान लगाकर score को अधिकतम करना है, तो "मुझे नहीं पता" जैसा जवाब सांख्यिकीय रूप से बहुत दुर्लभ होगा
अनुमान है कि tool use से AI के भ्रम बढ़ते हैं
AI का अत्यधिक उपयोग करने वाली कंपनियों के बारे में बात साझा की गई
o3 काफी समय बाद ऐसा OpenAI model है जिसके साथ यह जाँचना पड़ता है कि कहीं यह code के महत्वपूर्ण हिस्से तो नहीं छोड़ रहा
OpenAI के o3 और o4-mini models से निराशा है
भ्रम के कारणों पर तकनीकी insight की तलाश है
लगता है कि LLM systems पर बहुत पैसा और research लगाया गया है, लेकिन सरल use cases में भी इनका भरोसेमंद न होना गैर-जिम्मेदाराना है
लगता है कि intelligence में झूठ और creativity के बीच की सीमा बहुत सूक्ष्म है
सुझाव है that AI को सपने देखने की तरह अपने भ्रमों को व्यवस्थित करने के लिए किसी तरह की नींद की ज़रूरत हो सकती है