- OpenAI ने ChatGPT में नया agent-आधारित फीचर "Deep Research" पेश किया
- यह इंटरनेट से बड़ी मात्रा में जानकारी इकट्ठा, विश्लेषित और समेकित करके, जटिल कार्यों को कुछ ही दर्जनों मिनटों में अपने-आप पूरा करने की भूमिका निभाता है
- AGI हासिल करने की दिशा में एक अहम चरण के रूप में, नया ज्ञान पैदा कर सकने वाली ‘knowledge synthesis’ क्षमता को आवश्यक माना गया है
Deep research बनाने का कारण
- इसे उन उपयोगकर्ताओं के लिए विकसित किया गया है जिन्हें उन्नत knowledge work (finance, science, policy, engineering आदि) से लेकर बड़े उपभोक्ता सामान की खरीदारी research तक, गहन और विश्वसनीय जांच-परिणामों की ज़रूरत होती है
- यह अलग-अलग online sources से ऐसी niche जानकारी या सहज रूप से स्पष्ट न होने वाले तथ्यों को भी तेज़ी से खोजकर दस्तावेज़ित कर सकता है
- इसका उद्देश्य professional स्तर की research को automate करके कामकाजी उत्पादकता को काफ़ी बढ़ाना है
Deep research का उपयोग कैसे करें
- ChatGPT के message input box में Deep research mode चुनें
- अनुरोध (जैसे competitor analysis, customized product recommendation आदि) के साथ ज़रूरी files या spreadsheet भी attach की जा सकती हैं
- Deep research 5 मिनट से लेकर अधिकतम 30 मिनट तक इंटरनेट पर खोज करके विस्तृत रिपोर्ट तैयार करता है
- काम के दौरान, step-by-step summary और reference sources दिखाने वाले sidebar के ज़रिए प्रक्रिया देखी जा सकती है
- अंतिम परिणाम व्यापक citations के साथ report के रूप में दिया जाता है, और आगे चलकर इसमें images और data visualization भी शामिल किए जाएंगे
यह कैसे काम करता है
- यह OpenAI o1 की reasoning क्षमता को विस्तार देने वाले next-generation model (OpenAI o3 आधारित) का उपयोग करता है, ताकि जटिल browsing और analysis कार्य संभाले जा सकें
- यह कई चरणों की planning, जानकारी इकट्ठा करना, और बीच के feedback को शामिल करना खुद कर सकता है
- यह उपयोगकर्ता द्वारा upload की गई files तक भी पहुँच सकता है और Python tools का उपयोग करके graph बनाना जैसे analysis कार्य कर सकता है
- यह वाक्य-स्तर पर sources cite करके सटीकता और पारदर्शिता बढ़ाता है
Humanity’s Last Exam मूल्यांकन
- हाल ही में जारी व्यापक मूल्यांकन Humanity’s Last Exam में इसने 26.6% accuracy दर्ज की, जो पिछले models की तुलना में बेहतर प्रदर्शन दिखाती है
- इसमें 3,000 से अधिक expert-level प्रश्न शामिल हैं और यह कई शैक्षणिक क्षेत्रों को कवर करता है
- chemistry, humanities और social sciences, तथा mathematics में इसने पिछले models की तुलना में बड़ा सुधार दिखाया
- तुलना के लिए GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking, OpenAI o1 सहित कई models थे, जिनमें Deep research model ने 26.6% के साथ सबसे अधिक accuracy दिखाई
- GPT-4o लगभग 3.3%, Claude 3.5 Sonnet 4.3%, और OpenAI o1 9.1% पर था
GAIA benchmark
- GAIA एक ऐसा मानक है जो real-world सवालों का आकलन करता है, जिनमें web browsing, multimodal processing, और tool-use क्षमता तीनों की आवश्यकता होती है
- Deep research model ने इस benchmark पर पिछले सर्वश्रेष्ठ प्रदर्शन को पीछे छोड़ दिया
- GAIA प्रश्नों को कठिनाई के 1 से 3 स्तरों में बाँटा गया है, और Deep research ने हर स्तर पर पहले के सर्वोच्च रिकॉर्ड से अधिक स्कोर दिखाया
- खास तौर पर, पिछले रिकॉर्ड की तुलना में प्रत्येक स्तर पर लगभग 6~8% तक सुधार देखा गया, जिससे कुल औसत भी बढ़ा
expert-level कार्य
- आंतरिक मूल्यांकन में इसने कई घंटों की manual research की जगह लेने लायक ऊँचा automation स्तर दिखाया
- मॉडल जितना अधिक सामग्री browse करता है और जितना अधिक सोचता है, उसका प्रदर्शन उतना बेहतर होता है, इसलिए computation के लिए पर्याप्त समय देना महत्वपूर्ण है
सीमाएँ
- कुछ तथ्यात्मक त्रुटियाँ या गलत reasoning (hallucination) अब भी हो सकती हैं
- इसे rumors और high-confidence sources में अंतर करने में कठिनाई होती है, और uncertainty की अभिव्यक्ति हमेशा सटीक नहीं हो सकती
- शुरुआती रिलीज़ में reports या citations का format थोड़ा कम परिष्कृत हो सकता है, और कुछ मामलों में निष्पादन समय लंबा हो सकता है
access और उपयोग
- फिलहाल Deep research की computation cost अधिक होने के कारण इसे पहले Pro users के लिए उपलब्ध कराया जा रहा है, और इसका उपयोग महीने में अधिकतम 100 बार तक किया जा सकता है
- जल्द ही इसे Plus और Team users के लिए भी क्रमिक रूप से खोला जाएगा
- UK, Switzerland, और European Economic Area (EEA) के users के लिए बाद में समर्थन बढ़ाने की योजना है
- आगे चलकर, अधिक तेज़ और कुशल छोटे model version के ज़रिए सभी paid accounts की request limit काफ़ी बढ़ाई जाएगी
आगे की योजना
- Deep research अभी ChatGPT के web version में उपलब्ध है, और जल्द ही mobile तथा desktop apps में भी जोड़ा जाएगा
- आगे यह subscription-based data और internal resources से भी जुड़ेगा, ताकि अधिक personalized results दिए जा सकें
- Deep research को Operator के साथ मिलाने पर, offline/online वास्तविक कार्यों तक को अपने-आप पूरा करने वाला उन्नत agent अनुभव बनाया जा सकता है
3 टिप्पणियां
DeepResearch का उपयोग करके तैयार की गई वास्तविक रिपोर्टें
Hacker News की राय
एक उपयोगकर्ता ने बताया कि उसने अपने बारे में एक रिपोर्ट बनाकर देखी, लेकिन उसमें कई त्रुटियाँ थीं। उदाहरण के लिए, Stack Overflow पर उसकी प्रतिष्ठा को गलत पहचाना गया था, और इंटरव्यू का उद्धरण भी गलत व्यक्ति से लिया गया था।
एक अन्य उपयोगकर्ता ने कहा कि लगभग 10% मामलों में language model पूरी तरह सटीक उत्तर देने में विफल रहते हैं, और यह भरोसा कम कर सकता है। उसने इस बात पर भी ज़ोर दिया कि उत्तर की शुद्धता जाँचने में लगने वाला समय भी एक महत्वपूर्ण कारक है।
एक उपयोगकर्ता ने कहा कि यह हाल ही में Standard द्वारा जारी किए गए report generation project जैसा लगता है।
यह भी उल्लेख किया गया कि Gemini कई महीनों से "Deep Research" नाम से यह फ़ीचर दे रहा है। AI दुनिया में नामों की इस तरह की पुनरावृत्ति पर सवाल उठाया गया।
एक उपयोगकर्ता ने चिंता जताई कि त्रुटियों और hallucination की समस्या मान लेने के बाद भी, बहुत से लोग इन्हें नज़रअंदाज़ करके नतीजों को सीधे अपनी PowerPoint में डाल देंगे। उसने चेतावनी दी कि जैसे-जैसे ऐसे टूल अधिक शक्तिशाली होंगे, जानकारी का विकृतिकरण और बढ़ेगा।
यह भी कहा गया कि unreleased o3 model इस फ़ीचर को सपोर्ट करता है, और यह काफ़ी प्रभावशाली model है। Google, DeepSeek, और Perplexity में इसे अग्रणी मॉडल के रूप में रेखांकित किया गया।
यह कहा गया कि academia में काम करने वालों के लिए यह एक दिलचस्प टूल है, लेकिन इसे आज़माने की इच्छा के साथ-साथ इसकी लागत को लेकर चिंता भी जताई गई। किसी विशेष prompt का उपयोग करके इसे टेस्ट करने का अनुरोध किया गया।
AGI और ASI की पूर्वशर्त के रूप में इस क्षमता पर सवाल उठाया गया। research के महत्व को लेकर संदेह व्यक्त किया गया, और execution results के बजाय केवल उत्तरों पर निर्भर रहने को लेकर चिंता जताई गई।
यह उल्लेख किया गया कि internal test में केवल 20% pass rate हासिल हुआ, और बड़ी मात्रा में गलत टेक्स्ट की समीक्षा करने में बहुत समय लगता है। यह तर्क दिया गया कि अधिक iterative process की आवश्यकता है।
ब्लॉग जगत में यह सवाल उठाया गया कि क्या प्रसिद्ध विशेषज्ञ या exposure चाहने वाले लोग आगे भी लिखते रहेंगे। ऐसी स्थिति को लेकर चिंता जताई गई जिसमें पाठक सब bots बन जाएँ।
मैं इसे लेकर बहुत ज़्यादा उत्साहित हूँ.. यह one-more-thing भी नहीं है..
क्या DeepSeek वाला मुद्दा इससे दब जाएगा?