6 पॉइंट द्वारा GN⁺ 2025-09-08 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5-आधारित ChatGPT (जिसे Research Goblin भी कहा जाता है) वेब सर्च में बहुत उच्च स्तर की सटीकता और उपयोगिता दिखाता है
  • सामान्य trivial सवालों से लेकर जटिल सूचना-जांच तक विस्तृत विषयों में यह मजबूत खोज और reasoning क्षमता दिखाता है
  • वास्तविक उदाहरणों में व्यापक सर्च प्रक्रिया और क्रमिक reasoning के ज़रिए भरोसेमंद जवाब और स्रोत सामग्री प्रदान करता है
  • मोबाइल वातावरण में भी बेहतरीन उपयोगिता और निरंतर कार्य-प्रवाह का अनुभव मिलता है
  • Tool calling और chain-of-thought integration की वजह से, डेवलपर दृष्टिकोण से यह LLM-आधारित सर्च का नया मानक प्रस्तुत करता है

GPT-5 सोच मॉडल (Research Goblin) और सर्च नवाचार

बदलता हुआ सर्च प्रतिमान

  • पहले “chatbot को search engine की तरह इस्तेमाल मत करो” जैसी सलाह मुख्यधारा में थी, लेकिन नवीनतम GPT-5-आधारित ChatGPT के साथ यह धारणा टूटती दिख रही है
  • GPT-5-आधारित मॉडल Bing जैसे search engine के साथ integration से आगे बढ़कर व्यावहारिक रूप से इंटरनेट रिसर्च का विकल्प या उससे बेहतर स्तर तक पहुँच गया है
  • इसे “Research Goblin” उपनाम मिलने का कारण यह है कि कोई भी सवाल या जटिल काम देने पर यह असामान्य रूप से जिद्दी ढंग से जांच-पड़ताल कर सबसे उपयुक्त उत्तर निकालता है

वास्तविक सर्च उदाहरण और परिणाम

दिलचस्प moving walkways (Travelators)

  • Heathrow Airport के रबर-आधारित moving belt को धातु से कब बदला गया, यह पूछने पर इसने 2014~2018 के बीच का अनुमान लगाया और उससे जुड़ा 2024 का एक दिलचस्प लेख भी खोज निकाला

इमारत की पहचान

  • ट्रेन की खिड़की से दिख रही एक अनोखी इमारत के बारे में पूछने पर 1 मिनट 4 सेकंड में ‘The Blade (Reading)’ के रूप में सही पहचान की और source link भी दिया

Starbucks UK cake pop जांच

  • UK के Starbucks स्टोर्स में cake pop क्यों नहीं मिलते, इस पर गहराई से जांच करके यह पाया कि 2023 में इन्हें पेश किया गया था, लेकिन कुछ विशेष स्टोर्स (खासकर travel locations वाले स्टोर्स) में यह उपलब्ध नहीं हैं
  • पोषण और allergy guidance PDF, Reddit चर्चा आदि सहित प्रमाण सामग्री को समेकित किया

Wikipedia और Britannica का संबंध

  • इस ऑनलाइन दावे की गहराई से जांच की कि Wikipedia ने शुरुआती डेटा के लिए 1911 edition Britannica के कुछ स्रोतों का उपयोग किया था, और संबंधित project documents व व्याख्या तक खोजकर प्रस्तुत किया

University of Cambridge का आधिकारिक नाम

  • University of Cambridge का आधिकारिक कानूनी नाम (The Chancellor, Masters, and Scholars of the University of Cambridge) प्रमाण सामग्री सहित प्रस्तुत किया
  • reasoning प्रक्रिया को पारदर्शी तरीके से दिखाकर उत्तर की विश्वसनीयता भी परखने योग्य बनाई

Exeter quay गुफाओं और रेस्तरां का इतिहास

  • Exeter Quay क्षेत्र में चट्टान काटकर बने रेस्तरां की आंतरिक संरचना और उसके इतिहास को कई चरणों की सर्च और PDF विश्लेषण के ज़रिए स्पष्ट किया, और 1820~1830 के दशक में लाल बलुआ पत्थर की चट्टान में इसके निर्माण की पृष्ठभूमि बताई
  • अंग्रेज़ी रिपोर्ट/ड्रॉइंग सामग्री ढूँढ़ना, और न मिल पाने पर ईमेल अनुरोध का मसौदा तैयार करना जैसी सक्रिय खोज-पद्धति भी दिखाई

Aldi और Lidl की तुलना

  • UK में Aldi और Lidl की लोकेशन, छवि, market ranking आदि के साथ market share और consumer evaluation जैसे आँकड़ों का विस्तृत विश्लेषण किया
  • उपयोगकर्ता के अनुरोध पर “fanciness(प्रीमियमपन)” के आधार पर ranking दोबारा व्यवस्थित करके भी दी

AI research labs की book scanning

  • Anthropic द्वारा बड़ी मात्रा में किताबें scan करके training data बनाने के उदाहरण के अलावा, अन्य AI research labs द्वारा समान गतिविधि की पुष्टि नहीं हो सकी, लेकिन संभावनाओं की खोज का विस्तृत रिकॉर्ड दिया गया

GPT-5 सर्च की व्यावहारिक श्रेष्ठता

  • GPT-5-आधारित ChatGPT सर्च में, मैनुअल तरीके की तुलना में तेज़, व्यवस्थित और व्यापक सूचना-संग्रह व मूल्यांकन संभव है
  • खासकर मोबाइल वातावरण में उपयोगिता बहुत बेहतर हुई है, जिससे रोज़मर्रा की जिज्ञासाएँ या सामान्य रिसर्च कार्य कहीं भी, कभी भी किए जा सकते हैं
  • यह OpenAI के Deep Research फ़ीचर की बराबरी करने लायक तेज़ और समृद्ध परिणाम देने की क्षमता रखता है

LLM डेवलपमेंट दृष्टिकोण से महत्व

  • Tool calling और chain-of-thought तकनीकों के संयोजन से, सर्च और क्रमिक reasoning/अतिरिक्त खोज एक ही “सोच” चरण में स्वाभाविक रूप से जुड़ जाते हैं
  • RAG (search-generation combination) तकनीक को भी बहु-चरणीय लचीले tool calls और उन्नत search integration के माध्यम से कहीं अधिक शक्तिशाली ढंग से चलाया जा सकता है
  • Anthropic की शब्दावली में इसे interleaved thinking कहा जाता है, और OpenAI Responses API में भी इसी तरह का flow समर्थित है

प्रभावी सर्च उपयोग के सुझाव

  • अनुभवजन्य अंतर्ज्ञान के जरिए सर्च गुणवत्ता बेहतर की जा सकती है (जैसे “go deep” जैसे संकेत देकर और गहरी जांच को प्रेरित करना)
  • जहाँ स्पष्ट उत्तर मौजूद न हो, ऐसे व्याख्यात्मक सवालों में भी उपयोगी और दिलचस्प परिणाम निकाले जा सकते हैं
  • “goblin” रूपक की तरह, Research Goblin एक मेहनती लेकिन पूरी तरह भरोसेमंद नहीं, इंसानों से अलग तरह का search AI है, जिसका उपयोग-मूल्य काफी ऊँचा है

1 टिप्पणियां

 
GN⁺ 2025-09-08
Hacker News राय
  • मैं Simon की बात से सहमत हूँ, लेकिन मेरा मानना है कि “research” का मतलब सबूतों के अलग-अलग रूपों की तुलना करना है। उदाहरण के लिए, Obamacare के प्रभाव, कानूनी फैसलों की भविष्यवाणी, animation के प्रभाव का विश्लेषण, open source लाइब्रेरी के उपयोग के तरीके आदि—यह कई क्षेत्रों में लागू होता है। ChatGPT या अन्य LLMs को सबूतों का मूल्यांकन करने या source bias को समझने में कठिनाई होती है, और खासकर जब बहुत सारे statistics शामिल हों, तो जैसे-जैसे तर्क अधिक जटिल होता है hallucination भी बढ़ती है। मॉडल में यूज़र के दृष्टिकोण का समर्थन करने की प्रवृत्ति होती है, इसलिए वह माँगा न गया हो तब भी सकारात्मक जवाब देने की कोशिश करता है। मैं हमेशा ChatGPT से कहता हूँ कि sources का सीधे मूल्यांकन करे, पक्ष और विपक्ष के तर्कों की तुलना करे, और कभी-कभी मॉडल के सामने counterargument रखकर उसकी प्रतिक्रिया देखता हूँ। विस्तृत अनुभव ब्लॉग में देखे जा सकते हैं

    • मैंने Perplexity से अपने monitor की optimal settings खोजने की कोशिश की, और उसने संक्षिप्त settings list और कारण दिए। लेकिन जब मैंने sources देखे, तो कोई official information या ठोस आधार नहीं था—सिर्फ Samsung forums पर यूज़र्स की अटकलें और चर्चाएँ थीं। अगर source reliability के हिसाब से confidence rating मिलती तो अच्छा होता, लेकिन उसे implement करना सच में बहुत कठिन लगता है

    • ChatGPT और LLMs अक्सर सिर्फ सतही “common sense” को दोहराते हैं। कई follow-up questions के जरिए मैं यह जाँचता हूँ कि क्या वास्तव में इसका आधार सही है, source क्या है, excerpted information माँगता हूँ, और फिर दोबारा पुष्टि करता हूँ कि यह hallucination तो नहीं है। काफी बार पता चलता है कि पहला जवाब पूरी तरह गलत था। शायद ज़्यादातर लोग ऐसे पहले जवाब को ही मान लेंगे

    • उदाहरण के लिए, जब किसी खरीदारी के बारे में अच्छी तरह researched decision लेना होता है, तो मुझे लगता है कि marketing वाले opinions बहुत हावी रहते हैं, और विरोधी संकेतों (जैसे Reddit के negative comments या YouTube comments) से पर्याप्त संतुलन नहीं बन पाता, इसलिए यह सच में मुश्किल हो जाता है

    • GPT-5 (जैसे o3 model) सबसे critical दृष्टिकोण रखने वाले LLMs में से एक है। academic और technical requests पर यह बिना किसी खास prompt के भी information sources cite कर सकता है और अलग-अलग नतीजों की तुलना कर सकता है। Grok 4 का शुरुआती version analysis के बिना सिर्फ articles का summary देता था, और Claude Opus 4 भी JS libraries की सूची माँगने पर usage-heavy documents लौटाता था, यानी मुद्दे से भटक जाता था। GPT-5 निश्चित रूप से perfect नहीं है, लेकिन औसत इंसान से बेहतर है

    • मैं पूछना चाहता हूँ कि LLM में “research” शब्द का feature-set expression के रूप में इस्तेमाल होने पर आप क्या सोचते हैं। क्या यह वास्तविक research का पर्याप्त प्रतिनिधित्व करता है, या फिर यह वैसा ही है जैसा अमेरिका के चुनावी मौसम में अक्सर इस्तेमाल होने वाला “do your research” मुहावरा

  • मुझे लगता है कि Google search (खासकर जब udm=14 के साथ AI summary बंद हो) अब भी काफी अच्छा अनुभव देता है। उदाहरण के लिए, Britannica और Wikipedia से जुड़े सवालों में भी Google और Wikipedia पर 1–2 सेकंड में नतीजे मिल जाते हैं, और लगभग 60 सेकंड में मैं खुद जल्दी से मनचाही जानकारी ढूँढ़ सकता था। दूसरी ओर, ChatGPT को processing से अलग लगभग 3 मिनट लगते हैं, और मुझे खुद results verify करके hallucination भी चेक करनी पड़ती है। नतीजतन, LLM का X जैसा काम कर पाना प्रभावशाली है, लेकिन सीधे search करके खुद summary बनाना मुझे कहीं अधिक efficient लगता है

    • हाल के अनुभवों के आधार पर मेरी राय थोड़ी अलग है। अगर Google AI summary बंद न की जाए तो अनुभव निश्चित रूप से खराब हो जाता है। उदाहरण के लिए, GitHub repo ढूँढ़ते समय Google असली page नहीं ढूँढ़ पाया और सिर्फ गलत links दिए। GPT धीमा है, लेकिन research के दायरे के हिसाब से उसके अपने फायदे हैं। StarCraft2 unit movement जैसे गहरे topics पर GPT से एक ही flow में summary, explanation और code sources तक माँग लेना सुविधाजनक था, और मैं गलतियाँ filter भी पर्याप्त रूप से कर सकता हूँ। मुझे लगता है कि भविष्य में पूरा internet browsing किसी न किसी LLM-based assistance के साथ आएगा

    • मैंने Google पर "Rubber bouncy at Heathrow removal" search किया तो 3 link results आए, जबकि ChatGPT ने शायद सबूत पेश करने में कुछ hallucination की। reverse image search या Starbucks pop price search जैसे मामलों में भी खुद ढूँढ़ना अधिक प्रभावी लगा। फिर भी लोग ChatGPT को इसलिए पसंद करते हैं क्योंकि वह web information का एक साथ जवाब दे देता है। कभी-कभी hallucination होने पर भी लोग इस cost को स्वीकार कर रहे हैं। जैसे पहले library को Wikipedia से ज्यादा भरोसेमंद माना जाता था, वैसे ही LLM का विकास एक नया paradigm shift बन सकता है

    • मेरा सुझाव है कि Google experiment करते समय सबसे कठिन सवालों वाले examples आज़माने चाहिए

    • मैंने एक सरल सवाल GPT-5 Auto mode में पूछा तो उसने 2 सेकंड में जवाब शुरू कर दिया और पढ़ने में आसान गति से 2 सटीक links दिए। Think mode में लगभग 2 मिनट लगे, लेकिन उसने कई sources की तुलना की और हर summary के साथ आधार भी जोड़ा। स्थानीय government information जैसी कठिन चीज़ें, या complex open source PR analysis में मैं GPT का अच्छा उपयोग कर रहा हूँ। बहुत सारे proposals खुद पढ़ने की मेहनत बचाने में यह सच में उपयोगी लगता है

    • अगर लोग सीधे web पर जाए बिना सिर्फ agents के साथ interaction करने लगें, तो web का रूप कैसा बदलेगा—यह सोचकर उत्सुकता होती है। आगे बहुत दिलचस्प बदलाव आने वाले हैं

  • मैं Reddit के "Tip of My Tongue" subreddit का उपयोग पुरानी याद की गई जानकारी खोजने के लिए अक्सर करता था, लेकिन उससे सब कुछ हल नहीं होता था। Deep Research feature ने 1 घंटे में ऐसे 4 unresolved issues हल कर दिए, और पाँचवें के लिए भी मुझे खुद clue मिल गया। भले ही इसमें logical reasoning की कमी हो, लेकिन दर्जनों search results को तेज़ी से खंगालना और सिर्फ ढीले-ढाले descriptions के आधार पर भी संबंधित जानकारी निकाल लेना इसकी बहुत बड़ी ताकत है। अब Reddit के spam bots या नियम न मानने वाले users की चिंता किए बिना कुछ ही मिनटों में ऐसी search power मिल जाती है

    • information retrieval में मौजूदा document links और search-result-based generated content के बीच फर्क है, और generated content सच में उपयोगी और हैरतअंगेज़ है। लेकिन मैं यह भी नहीं भूलता कि ऐसे results अक्सर गलत हो सकते हैं। अगर responses में confidence level जोड़ा जा सके, तो business model के लिहाज़ से भी उसका मतलब हो सकता है
  • मैं भी मानता हूँ कि ChatGPT research में बहुत अच्छा है, लेकिन कभी-कभी ऐसे pathological cases आते हैं जहाँ यह सतही और संभावित रूप से गलत जवाब देता है। objective primary sources online होने पर भी यह गलत हो सकता है, इसलिए मैं यह संबंधित ब्लॉग साझा कर रहा हूँ

    • मुझे लगता है कि यह मामला वास्तव में उस केस से अलग है जिसे तुमने describe किया। तुम्हारी राय papers से अलग है, और तुमने उसे blog में इस तरह लिखा है कि ChatGPT तुम्हारे दृष्टिकोण को स्वीकार करे। objective evaluation के लिहाज़ से इसमें सीमाएँ दिखती हैं

    • हाल में मुझे ChatGPT अधिक unstable लगा है। आधे से ज्यादा जवाबों में यह या तो आधार गढ़ता है, context भूल जाता है, या बस गलत निकलता है। Aistudio में 300k tokens से ऊपर भी Gemini/Aistudio context अच्छी तरह बनाए रखता है, लेकिन ChatGPT बहुत सारी जानकारी के साथ कमजोर लगता है

    • मेरा अनुभव भी ऐसा ही रहा है। GPT5 Thinking पर स्विच करने से थोड़ा सुधार होता है, लेकिन o3 या o1 की तुलना में इसमें कुछ छूट जाने की प्रवृत्ति है। उदाहरण के लिए, जब मैंने GPT5 से Botchan novel के hot spring episode के बारे में पूछा, तो उसने थोड़ा गलत explanation दिया। असली novel में protagonist hot spring में तैरता है और बाद में prohibition sign की वजह से शर्मिंदा होता है, लेकिन GPT5 ने सिर्फ rules की explanation पर ध्यान दिया

    • मुझे तुम्हारी पोस्ट दिलचस्प और चर्चा के योग्य लगती है। ईमानदारी से कहूँ तो मुझे लगता है GPT इससे बेहतर जवाब दे सकता था, लेकिन research को किस बिंदु पर रोकना चाहिए इस पर चर्चा भी मायने रखती है। आमतौर पर अगर कम भरोसेमंद sources तक सब कुछ शामिल कर लिया जाए, तो बहस कभी खत्म नहीं होगी। अंततः broadly agreed conclusion पर रुक जाना एक उचित trade-off लगता है

  • पुराने "heavy" models में encyclopedia-स्तर का ज्ञान embedded होता था, जबकि हाल के "lighter" models web search पर निर्भर होकर सिर्फ सतही जानकारी देते हैं—ऐसा महसूस होता है। countless offline documents याद रखने वाले models की वह ताकत याद आती है

    • मेरा अनुभव बिल्कुल उल्टा है। मॉडल का internal knowledge hallucination हो सकता है, इसलिए अलग से verification research हमेशा ज़रूरी है। जबकि अगर LLM search और summary पहले से कर दे, तो सिर्फ sources check करने होते हैं, जो कहीं ज्यादा convenient है। Kagi Assistant यह भूमिका अच्छी तरह निभाता है

    • मैं लंबे समय तक search feature बंद करके इस्तेमाल करता था, लेकिन हाल में मैंने custom commands में web search/internal knowledge mode जोड़ दिया है। xz लिखने पर web search, xx पर सिर्फ internal knowledge। यह session के भीतर freely switch किया जा सकता है

    • बिना search वाले models heavy होते हैं, और search-based models lighter होते हुए भी latest real-world data पर निर्भर रहते हैं। मैं दोनों के बीच आता-जाता रहा हूँ, लेकिन हाल में source-based light models ज्यादा पसंद आने लगे हैं

    • असली knowledge बाहर store होती है। इसी वजह से university में library महत्वपूर्ण होती है। agents भी सिर्फ memory के सहारे पर्याप्त नहीं हैं

    • मुझे भी कुछ हद तक ऐसा ही लगता है। अगर light web-search model ऐसा view दे जहाँ हर page के लिए पहले से ज्ञात जानकारी, नई जानकारी, और page-दर-page दावा किए गए आधार व असंगतियाँ अलग-अलग दिखें, तो वह काफ़ी दिलचस्प होगा

  • लेखक internet पर जवाब ढूँढ़ने के लिए “unreasonably large amount of work” प्रोसेस करता है, और ऐसा लगता है कि वह computing resources की इस बर्बादी को उत्साह से स्वीकार करता है—यह अजीब लगता है। क्या सच में यही लक्ष्य है, और क्या सिर्फ सही जवाब पाने के लिए इतने भारी resources खर्च करने वाली “wild goose chase” उचित है—इस पर संदेह है

    • इतिहास में भी बहुत से लोगों ने पूरी ज़िंदगी बेनतीजा खोज में बिताई है। Newton और Einstein भी ऐसे थे; genius लोग भी अपवाद नहीं थे
  • ChatGPT सचमुच अद्भुत है, लेकिन high school teachers और university professors को ऐसे tools की वजह से काफ़ी मुश्किल होगी। उदाहरण के लिए, अगर assignment दिया जाए कि “The Lord of the Rings पर Gormenghast के प्रभाव के जितने संभव हों उतने सबूत खोजकर गहराई से research करो”, तो छात्र अपने-आप deep research का इस्तेमाल करेंगे shared example

    • क्या तुमने खुद fact verification किया, हर link पर क्लिक करके sources check किए? मैंने भी पहले कभी शेखी बघारी थी कि ChatGPT ने कुछ “solve” कर दिया, लेकिन असल में वह Wikipedia की जानकारी थी और वह गलत निकली

    • स्कूल में cheating करने वाले छात्र आम तौर पर आलसी होते हैं और rank/status की परवाह नहीं करते, इसलिए high-quality assignment में उनकी रुचि नहीं होती। time-consuming Thinking mode इस्तेमाल करने का उनके पास कोई कारण नहीं होगा

    • ChatGPT के जवाब में ‘steel-man’ जैसा नया शब्द देखकर मज़ा आया

    • शिक्षकों के लिए workshop में Socratic questioning सिखाने और बच्चों को Google/ChatGPT से मिली जानकारी को खुद argument के रूप में पेश करने में मदद देने का विचार आता है। यानी LLM research से amplified knowledge को अपने शब्दों में व्यक्त करते हुए अपने मौजूदा knowledge level को व्यवस्थित करना

  • ऐसे जवाब तो Brave search में डालने पर कुछ ही सेकंड में मिल जाने वाले सवाल हैं, फिर भी LLM हैरान करने वाली धीमी गति दिखाता है

    • मुझे Brave पसंद है, लेकिन search results अच्छे नहीं लगे। AI feature ठीक-ठाक है, पर जो असली results चाहिए होते हैं वे लगभग नहीं मिलते

    • आजकल SEO-optimized low-quality sites की दीवार खड़ी है, इसलिए मैं इतनी आसानी से आश्वस्त नहीं होता

    • Chat+Search का फायदा यह है कि ads, clicks, content farms, malware की चिंता के बिना सीधे जवाब मिल जाता है

  • मुझे समझ नहीं आता कि यह ChatGPT की “Web Search”, “Deep Research”, या “Agent Mode” में से कौन-सा feature है। feature setup काफ़ी दिलचस्प है

    • यह Deep Search या Agent Mode नहीं है। मैं बस “GPT-5 Thinking” चुनता हूँ और सामान्य search tool ही on रखता हूँ

    • मेरे अनुभव में, यह नतीजा असल में “Reddit search करके ऊपर comments चढ़ा देने” जैसा ही लगता है

    • “ChatGPT 5 Pro” को भी मत भूलो। वह Deep Research से थोड़ा अलग है

    • मेरे हिसाब से यह बस default mode है। अलग से web search option on किए बिना भी यह auto search करता है। समझ नहीं आता कि अलग option क्यों है

    • मेरा अंदाज़ा है कि कम से कम profile level पर web search enabled वाला ChatGPT 5 Thinking mode है। जब recent information या research request हो, तो ChatGPT गहराई से सोचते हुए खोजबीन करने की प्रवृत्ति दिखाता है

  • मैं जिस podcast को सुनता हूँ उसकी income जानना चाहता था। Phoenix के दो comedians ने बिना follower base के शुरुआत की थी और अब Apple charts में ऊपर हैं। पहले मैं यह पता लगाने की कोशिश करता था लेकिन कोई साफ जवाब नहीं मिलता था; GPT-5 ने “हद से ज़्यादा” research करके कई sources cross-verify किए और मुझे एक reasonably trustworthy range बताई

    • तो वह range कितनी थी?

    • हाल में GPT भी ज्यादा verbose जवाब देने लगा है। Google Gemini कभी-कभी बेकार के papers निकाल देता है, और ChatGPT भी informational answer के बजाय verbose report देने लगा है। शायद लोग ऐसे लंबे report-style responses पर ज्यादा भरोसा करते हैं, इसलिए ऐसा हो रहा है। ऊपर से, भले ही detailed basis या numbers दिए जाएँ, कुछ जवाब verify करना आसान होता है और कुछ बहुत कठिन। मुझे चिंता है कि LLM का बहुत ज्यादा इस्तेमाल मेरी अपनी research skills को कमजोर न कर दे। और MCP के साथ प्रयोग करते हुए मुझे यह भी महसूस हुआ कि यह बेहिसाब resources खर्च करता है। ऐसा deep research शायद OpenAI अभी घाटा उठाकर सस्ते में दे रहा है, इसलिए अगर बाद में कीमतें बहुत बढ़ीं तो इस पर निर्भरता खुद जोखिम बन सकती है