Deep Research, Deep Search, और सिर्फ Search के बीच का अंतर

(leehanchung.github.io)

6 पॉइंट द्वारा GN⁺ 2025-03-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें

हाल के समय में AI labs ‘Deep Research’ शब्द का इस्तेमाल करते हुए अलग-अलग फीचर्स घोषित कर रही हैं
Google ने दिसंबर 2024 में Gemini 1.5 Deep Research, OpenAI ने फरवरी 2025 में Deep Research, और Perplexity ने उसके तुरंत बाद अपना Deep Research पेश किया
इसके अलावा DeepSeek, Alibaba के Qwen, Elon Musk की xAI आदि ने chatbot assistants में Search और Deep Search फीचर जोड़े
GitHub पर दर्जनों open source ‘Deep Research’ implementations सामने आए
यह संकेत देता है कि 2025 के Retrieval-Augmented Generation(RAG) की तरह ‘Deep Research’ शब्द का भी बिना स्पष्ट परिभाषा के उपयोग हो रहा है

Deep Research, Deep Search, या सिर्फ Search

> Google : “Deep Research AI का उपयोग करके जटिल विषयों की पड़ताल करता है, व्यापक और आसानी से पढ़े जा सकने वाले reports देता है, और यह दिखाता है कि Gemini जटिल काम संभालने और आपका समय बचाने में और अधिक सक्षम हो रहा है।” -
> OpenAI : “Deep Research OpenAI का अगली पीढ़ी का agent है, जिसमें उपयोगकर्ता prompt देता है और ChatGPT सैकड़ों online sources को खोजकर, उनका विश्लेषण और संश्लेषण करके research analyst स्तर की व्यापक report तैयार करता है।”
> Perplexity : “जब आप Deep Research प्रश्न पूछते हैं, तो Perplexity दर्जनों searches करता है, सैकड़ों sources पढ़ता है, सामग्री पर reasoning करता है, और स्वायत्त रूप से व्यापक report देता है।”

मार्केटिंग शब्दावली को हटाकर देखें, तो Deep Research को इस तरह परिभाषित किया जा सकता है
> ऐसा report generation system जो user query स्वीकार करता है, large language model(LLM) को agent की तरह उपयोग करता है, बार-बार जानकारी खोजता और उसका विश्लेषण करता है, और विस्तृत report output करता है
प्राकृतिक भाषा संसाधन(NLP) की शब्दावली में इसे ‘report generation’ के नाम से जाना जाता है

Implementation के तरीके

ChatGPT के आने के बाद report generation या ‘Deep Research’ AI engineering का एक प्रमुख focus बन गया
लेखक ने 2023 की शुरुआत में एक hackathon में इसका प्रयोग किया था, जब AI engineering अभी उभर ही रही थी
LangChain, AutoGPT, GPT-Researcher, prompt engineering जैसे tools और अनगिनत demos ने Twitter और LinkedIn पर काफी ध्यान खींचा
लेकिन असली चुनौती implementation details में है
नीचे report generation system बनाने के आम patterns, उनके differences, और अलग-अलग vendors की offerings का वर्गीकरण देखा गया है

Non-learning: Directed Acyclic Graph(DAG)

शुरुआती दौर में यह पाया गया कि GPT-3.5 जैसे LLM से report को पूरी तरह scratch से बनवाना व्यावहारिक नहीं था
इसके बजाय कई LLM calls को जोड़ने के लिए Composite pattern का उपयोग किया गया
user query को तोड़कर report outline तैयार की जाती है
हर section के लिए search engine या knowledge base से संबंधित जानकारी खोजकर उसका सार निकाला जाता है
अंत में LLM का उपयोग करके sections को एक सुसंगत report में जोड़ा जाता है
GPT-Researcher इसका एक उदाहरण है
- इस system के सभी prompts को ‘prompt engineering’ के जरिए बहुत सावधानी से ट्यून किया गया है
- evaluation व्यक्तिपरक output inspection पर निर्भर करती है, और report quality असंगत रहती है
- जब यह काम करता है, तो शानदार होता है, लेकिन हमेशा स्थिर नहीं रहता

Non-learning: Finite State Machine(FSM)

report quality सुधारने के लिए engineers ने DAG approach में और complexity जोड़ी
single-pass process के बजाय Reflexion और self-reflection जैसे structured patterns जोड़े गए, ताकि LLM अपने output की समीक्षा कर उसे बेहतर बना सके
इससे साधारण DAG एक finite state machine(FSM) में बदल जाता है, जिसमें state transitions को आंशिक रूप से LLM guide करता है
- DAG तरीके की तरह ही, सभी prompts हाथ से लिखे जाते हैं और evaluation व्यक्तिपरक होती है
- क्योंकि system को हाथ से ट्यून किया जाता है, report quality अब भी काफी बदलती रहती है

Learning-based: End-to-end

पहले के तरीकों की कमियां, यानी बेतरतीब prompt engineering और मापे जा सकने वाले evaluation metrics की कमी, बदलाव की वजह बनीं
Stanford का STORM इन समस्याओं को DSPy का उपयोग करके system को end-to-end optimize कर हल करता है
- नतीजतन, STORM Wikipedia articles के बराबर quality वाली reports बनाता है

Learning-based: Large reasoning models

LLM की reasoning क्षमता में सुधार के कारण large reasoning models, Deep Research के लिए आकर्षक विकल्प बन गए हैं
उदाहरण के लिए, OpenAI ने Deep Research model को इस तरह train किया
- outputs का मूल्यांकन करने के लिए LLM-as-a-judge और evaluation rubric का उपयोग
Google के Gemini और Perplexity के chat assistants भी ‘Deep Research’ फीचर देते हैं, लेकिन उन्होंने यह दस्तावेज़ सार्वजनिक नहीं किया कि उन्होंने model या system को कैसे optimize किया या कोई ठोस quantitative evaluation क्या है
हालांकि, Google के Deep Research product manager ने एक podcast interview में कहा, “इसके पास special access है. यह लगभग वही model है (Gemini 1.5). बेशक, हम अपना follow-up training work करते हैं”
इससे संकेत मिलता है कि fine-tuning का योगदान बहुत बड़ा नहीं है
दूसरी ओर, xAI का Grok report generation में अच्छा है, लेकिन लगता है कि यह दो iterations से आगे search नहीं करता
यह outline sections को कुछ बार, और हर section को कुछ बार search करने के तरीके पर काम करता है

Competitive landscape

Deep Research फीचर देने वाली विभिन्न services की क्षमता का आकलन करने के लिए एक conceptual map विकसित किया गया
vertical axis: research की depth (पिछले results के आधार पर अतिरिक्त जानकारी इकट्ठा करने वाले iterative cycles की संख्या)
horizontal axis: learning का स्तर (हाथ से ट्यून किए गए systems से लेकर machine learning techniques का उपयोग करने वाले fully trained systems तक)
प्रमुख learning-based systems:
- OpenAI Deep Research: research tasks के लिए optimized reinforcement learning आधारित system
- DeepSeek: सामान्य reasoning और tool use के लिए trained, और research requirements के अनुरूप ढलने में सक्षम
- Google Gemini: व्यापक रूप से trained LLM, लेकिन research के लिए विशेषीकृत नहीं
- Stanford STORM: पूरे research process को end-to-end optimize करने वाला system
इस framework के जरिए समझा जा सकता है कि हर service iterative research की depth और learning approach के बीच संतुलन कैसे बनाती है

निष्कर्ष

Deep Research तकनीक तेज़ी से विकसित हो रही है, और जो तकनीकें कुछ महीने पहले असरदार नहीं थीं या लागू नहीं हुई थीं, वे अब सफलतापूर्वक इस्तेमाल हो रही हैं
लेकिन शब्दावली का अस्पष्ट उपयोग भ्रम को और बढ़ा रहा है
उम्मीद है कि यह लेख तकनीकी अंतर को स्पष्ट करेगा और मार्केटिंग शब्दों से प्रभावित होने से बचाएगा

2 टिप्पणियां

halfenif 2025-03-10

> एक सहकर्मी ने मज़ाक में कहा, "AlphaGO ने Lee Sedol को हरा दिया, लेकिन Lee Sedol के पास इससे कहीं बेहतर autonomous driving algorithm है"

लेकिन Lee Sedol सिर्फ़ एक ही हैं, और उनकी नकल नहीं की जा सकती

GN⁺ 2025-03-06

Hacker News राय

Han Xiao द्वारा प्रस्तावित DeepSearch और DeepResearch के बीच का अंतर बहुत दिलचस्प है
- DeepSearch वह प्रक्रिया है जिसमें सर्वोत्तम उत्तर मिलने तक search, reading और reasoning को बार-बार दोहराया जाता है
- DeepResearch, DeepSearch में structured framework जोड़कर लंबी research report तैयार करता है
- DeepSearch ज़्यादा मूल्यवान और दिलचस्प pattern लगता है
- DeepResearch सिर्फ़ नतीजों को "report" के रूप में पैकेज करने वाला cosmetic effect है, और इससे गलत या भ्रामक परिणाम आने की संभावना अधिक है
एक सहकर्मी ने मज़ाक में कहा, "AlphaGO ने Lee Sedol को हराया, लेकिन Lee Sedol के पास कहीं बेहतर autonomous driving algorithm है"
- यह समय के साथ सबसे उन्नत AI systems और आम इंसान की "औसत क्षमता" के बीच बड़े अंतर को उजागर करता है
यह OpenAI और दूसरी कंपनियों के ऑफ़र के बीच के फ़र्क को अच्छी तरह पकड़ता हुआ लगता है
- Google का Gemini 2.0 Flash भी Google Search के साथ native integration में है
- OpenAI का DR खास tasks के लिए models को train करने की प्रवृत्ति रखता है
- यह model + follow-up RL training को product के रूप में देने की दिशा में बढ़ रहा है
- genspark MOA दिए गए prompt पर गहरी report बनाता है
AI लगातार अधिक विविध होता जा रहा है, और अलग-अलग agents बनने की संभावना है
कहा जाता है कि Grok report generation में बेहतरीन है, और table format में जवाब माँगने पर तुलना आसान हो जाती है
- Amazon तुलना के लिए products चुनता है, लेकिन comparison items अच्छे नहीं होते
- Grok का इस्तेमाल करके columns जोड़े या हटाए जा सकते हैं, और response को छोटा भी किया जा सकता है
DR जानकारी इकट्ठा करने और एक केंद्रित शुरुआती बिंदु से वास्तविक research करने का अच्छा तरीका है
- सिर्फ़ इसलिए कि LLM ने यह किया, इसका मतलब यह नहीं कि वह अधिक बुद्धिमान हो गया
- LLM विषय को अधिक गहराई से नहीं समझता
- जानकारी के integration और application के लिए अधिक गहरी क्षमता की ज़रूरत है
- transformer architecture की सीमाओं के कारण real-time learning कठिन है
OpenAI Deep Research और Perplexity के Deep Research की तुलना करने पर, "संकीर्ण और गहरा" बनाम "उथला और व्यापक" जैसा अंतर दिखता है
- OpenAI उच्च-गुणवत्ता वाले sources चुनकर किसी खास विषय में गहराई तक जाता है
- Perplexity बहुत सारे sources का इस्तेमाल करके problem space की सतही तस्वीर देता है
- OpenAI को अधिक समय लगता है
Deep Search/Research के ज़रिए अलग-अलग workflows आज़माए गए
- imperative (sources को सीधे चुनकर report बनाना) और declarative (DFS/BFS algorithm का उपयोग) approaches हैं
- STORM जैसे systems का end-to-end flow आकर्षक लगता है
STORM को ऊँचा आकलन मिला, लेकिन GPT Researcher को नहीं
- GPT Researcher को अलग-अलग budgets के अनुसार configure किया जा सकता है
ये इंटरनेट पर जानकारी को व्यवस्थित करने वाले सबसे बड़े platforms हैं, लेकिन इन products को समझाने के लिए कोई और शब्द नहीं मिल रहा