OpenAI Deep Research की समस्याएँ

(ben-evans.com)

23 पॉइंट द्वारा xguru 2025-02-20 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

> "OpenAI का Deep Research मेरे लिए ही बनाया गया लगता है, लेकिन मैं इसका उपयोग नहीं कर सकता। यह एक शानदार डेमो जैसा दिखता है, लेकिन आखिर में हमेशा की तरह समस्याएँ सामने आती हैं। और वे समस्याएँ जिस तरह सामने आती हैं, वह काफ़ी दिलचस्प है।" - Benedict Evans

मेरा मुख्य काम research और analysis है
- मैं ज़रूरी data ढूँढता हूँ, उसे व्यवस्थित करता हूँ, फिर chart बनाता हूँ, और उनसे insight निकालकर text और chart के रूप में पेश करता हूँ
- इसके बाद मैं इन नतीजों के आधार पर लोगों के साथ चर्चा करता हूँ
OpenAI का Deep Research ऐसे ‘research work’ को automate करने वाले solution जैसा दिखता है
- मैं यह जाँचना चाहता था कि यह tool वास्तव में उपयुक्त है या नहीं
- संयोग से Deep Research ने जो sample report दी, उसका विषय ‘smartphone market’ था, जो मेरा जाना-पहचाना क्षेत्र है
sample report में दिया गया table ऊपर से देखने पर शानदार लगा
- लेकिन सबसे पहले बुनियादी सवाल यह है कि ‘यह data आखिर आया कहाँ से?’
- Deep Research ने source के रूप में ‘Statista’ और ‘Statcounter’ का ज़िक्र किया, लेकिन दोनों source में समस्याएँ हैं
  - Statcounter traffic-आधारित statistics देता है, इसलिए device usage के bias की वजह से कुछ platforms ज़्यादा या कम दिख सकते हैं
  - Statista SEO optimization का इस्तेमाल करके दूसरे sources को दोबारा पैकेज करता है, और असली source कहीं और होता है
    - यह लगभग ऐसा है जैसे कहना कि “source Google search result है”
उदाहरण के तौर पर, जापान के market में iOS/Android share के आँकड़ों में Deep Research ने “iOS 69%, Android 31%” बताया
- Statcounter ने भी पिछले 1 साल के भीतर 69% का यह आँकड़ा कभी दिया ही नहीं
- Statista के पीछे असली source Kantar Worldpanel है, लेकिन Kantar के आँकड़े लगभग उलटे स्तर के हैं (करीब Android 63%, iOS 36%)
- दूसरी ओर, जापान की सरकारी एजेंसी के डेटा(लिंक, पेज 25) में “करीब 53% Android, 47% iOS” बताया गया है
- ऊपर से, Kantar के आँकड़े हर महीने 20% points तक बदल जाते हैं, इसलिए उन्हें ‘वास्तविक hardware installed base’ दिखाने वाला data मानना मुश्किल है
इन सभी अंतर को जाँचने के लिए आखिरकार table के हर number को फिर से verify करना पड़ता है
- ऐसे में tool इस्तेमाल करने का मूल कारण, यानी ‘समय बचत’, काफ़ी हद तक खत्म हो जाता है
- नतीजतन, Deep Research ने table में जो data भरा है उस पर आँख मूँदकर भरोसा करना मुश्किल हो जाता है
यहाँ असली समस्या यह है कि “LLM database नहीं है”
- LLM probabilistic तरीके से सवाल की मंशा समझने में मज़बूत है, लेकिन किसी खास source से सटीक number निकालने जैसे “deterministic” काम में कमज़ोर है
- Deep Research को यह ठीक से समझना चाहिए था कि “market share” से किस तरह का metric चाहिए, और फिर भरोसेमंद source से सही number लाने चाहिए थे, लेकिन वह ऐसा नहीं कर पाया
यह सीधे तौर पर “LLM उन कामों में अच्छा है जो computers के लिए मुश्किल हैं (context समझना), लेकिन उन कामों में कमज़ोर है जो computers अच्छे से करते हैं (सटीक जानकारी निकालना)” जैसी स्थिति दिखाता है
- OpenAI user intent को infer करने का काम और accurate information gathering का काम एक साथ कराना चाहता है, लेकिन अभी इसमें mismatch पैदा हो रहा है
- और भी अहम बात यह है कि यह sample खुद OpenAI की तरफ़ से प्रचार के लिए पेश की गई सामग्री थी, फिर भी इसमें error दिखे
कुछ लोग कह सकते हैं कि “model धीरे-धीरे बेहतर होंगे, इसलिए चीज़ें सुधरेंगी”
- लेकिन अगर table 85% सही भी हो, तो बाकी 15% गलत होने पर भी उसकी overall reliability कम ही रहती है
- “पूरी तरह automated research” तभी संभव है जब accuracy 100% के बहुत करीब पहुँचे, और क्या वह बिंदु वास्तव में हासिल हो सकता है, इस पर संदेह है
फिर भी इसका मतलब यह नहीं कि यह तकनीक पूरी तरह बेकार है
- अगर विषय आपको अच्छी तरह मालूम है, तो 20-page report जल्दी बनवाकर सिर्फ़ errors को manually ठीक करके समय बचाया जा सकता है
- मैं LLM को “अनंत intern” कहता हूँ, और यह वैसा ही है जैसे intern के लाए draft को edit करना पड़े
- Steve Jobs के “bicycle for the mind” वाले कथन का हवाला देते हुए, इसे इंसानी क्षमता को बढ़ाने वाले tool की तरह इस्तेमाल करना बेहतर होगा
लेकिन बुनियादी तौर पर दो समस्याएँ हैं
- क्या product इस धारणा पर बनाया जाए कि model गलत हो सकता है, या इस धारणा पर कि model खुद भरोसेमंद बन जाएगा—यह स्पष्ट नहीं है
- OpenAI जैसी कंपनियों के पास बड़े पूँजी निवेश के अलावा कोई खास barrier to entry या product capability (coding·marketing क्षेत्रों से बाहर) नज़र नहीं आती
  - Deep Research जैसी कोशिश अगर सिर्फ़ “textbox + API” से आगे बढ़कर एक असली ‘product’ बनना चाहती है, तो error handling और usage context की समस्या हल करनी होगी
  - Perplexity जैसे competitors भी सामने आ रहे हैं, और अंततः LLM को abstract करने वाले API के ऊपर दूसरा software error rate manage करे—यह scenario अधिक संभावित लगता है
निष्कर्षतः, Deep Research एक दिलचस्प कोशिश है, लेकिन अभी इसकी reliability पर भरोसा करना मुश्किल है, और industry आगे किस दिशा में जाएगी यह भी साफ़ नहीं है

OpenAI Deep Research की समस्याएँ

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.