Tongyi DeepResearch – OpenAI DeepResearch के बराबर का ओपन सोर्स 30B MoE मॉडल

(tongyi-agent.github.io)

10 पॉइंट द्वारा GN⁺ 2025-11-04 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Tongyi DeepResearch OpenAI DeepResearch के बराबर प्रदर्शन दिखाने वाला पहला पूरी तरह ओपन सोर्स वेब एजेंट है, जिसने जटिल सूचना-अन्वेषण बेंचमार्क में शीर्ष-स्तरीय परिणाम दर्ज किए हैं
- Tongyi Lab, Alibaba Group की AI research और development इकाइयों में से एक है, जो large language model (LLM), multimodal model और agent तकनीकों पर केंद्रित है, और यही QWEN मॉडल बनाने वाली टीम है
Agentic Continual Pre-training(CPT), Supervised Fine-Tuning(SFT), Reinforcement Learning(RL) को एकीकृत करने वाली end-to-end learning pipeline बनाई गई है
पूरी तरह synthetic data आधारित बड़े पैमाने की QA generation और IterResearch paradigm के जरिए long-term reasoning और planning क्षमता को मजबूत किया गया है
ReAct mode और Heavy mode का समर्थन करता है, जिससे सरल reasoning से लेकर जटिल multi-step research तक संभाली जा सकती है, और GRPO algorithm आधारित reinforcement learning से स्थिर प्रदर्शन हासिल किया गया है
इसे वास्तव में Gaode Mate और Tongyi FaRui जैसी Alibaba की आंतरिक और बाहरी सेवाओं में लागू किया गया है, जिससे open source AI research agent की उपयोगिता और scalability साबित होती है

चैटबॉट से autonomous agent तक

Tongyi DeepResearch, OpenAI DeepResearch स्तर का प्रदर्शन हासिल करने वाला पहला पूरी तरह ओपन सोर्स वेब एजेंट है
- Humanity’s Last Exam(HLE) 32.9, BrowseComp 43.4, BrowseComp-ZH 46.7, xbench-DeepSearch 75 अंक दर्ज किए
- इसने मौजूदा सभी commercial और open source Deep Research agents को पीछे छोड़ा
मॉडल के साथ-साथ data synthesis आधारित पूरी training methodology भी सार्वजनिक की गई है
- Agentic CPT, SFT, RL सहित पूरे process के लिए automated data generation और reinforcement learning infrastructure उपलब्ध कराया गया है
ReAct framework के जरिए prompt engineering के बिना भी मजबूत अंतर्निहित क्षमता दिखाई गई है
- Heavy Mode में जटिल planning और reasoning क्षमता की सीमा प्रदर्शित की गई है

synthetic data आधारित continual pre-training और post-training

Agentic CPT को अपनाकर agent-उन्मुख base model तैयार किया गया
- AgentFounder सिस्टम के जरिए large-scale data synthesis और cyclic data flywheel लागू किया गया
data reconstruction और question generation चरण में documents, crawling data, knowledge graph और tool-call logs आदि को एकीकृत किया गया
- इन्हें entity-centric open-world knowledge memory के रूप में पुनर्गठित किया गया, और विभिन्न रूपों में (question, answer) pairs बनाए गए
Action Synthesis के जरिए first-order और higher-order action data तैयार किया गया
- multi-step decision structure को model करके decision-making क्षमता मजबूत की गई
post-training data
- पूरी तरह automated synthetic QA generation pipeline बनाई गई
  - WebWalker, WebSailor, WebShaper जैसी शोध-श्रृंखलाओं के माध्यम से graph-based synthesis और difficulty-controlled QA data तैयार किया गया
- random-walk आधारित knowledge graph और tabular data fusion के जरिए यथार्थवादी information structure सुनिश्चित किया गया
  - entity merge जैसे ‘atomic operations’ के जरिए कठिनाई को व्यवस्थित रूप से नियंत्रित किया गया
- set-theory आधारित problem formalization से information structure और reasoning structure के बीच असंगति को न्यूनतम किया गया
  - QA consistency validation की दक्षता बढ़ी
- automated data engine से PhD-स्तर के research questions तैयार किए गए
  - multidisciplinary knowledge base से शुरू होकर iterative complexity-escalation loop के जरिए high-difficulty QA बनाया गया
- ReAct और IterResearch framework का उपयोग कर विभिन्न reasoning patterns सिखाए गए
  - IterResearch हर राउंड में workspace को पुनर्गठित करके long-term planning क्षमता को मजबूत करता है

rollout mode

मॉडल ReAct mode और Heavy mode दो execution modes का समर्थन करता है
Native ReAct Mode
- Thought–Action–Observation cyclic structure का पालन करते हुए, prompt engineering के बिना भी उत्कृष्ट प्रदर्शन देता है
  - 128K context length के साथ अनेक interaction rounds संभाले जा सकते हैं
- इसकी simplicity और generality, मॉडल की अंतर्निहित क्षमता का मूल्यांकन करने के लिए स्पष्ट मानदंड देती है
- “The Bitter Lesson” सिद्धांत के अनुसार scalable general methodology अपनाई गई है
Heavy Mode
- IterResearch paradigm के आधार पर जटिल multi-step research tasks किए जाते हैं
  - हर राउंड में केवल मुख्य परिणाम रखकर नया workspace पुनर्गठित किया जाता है
  - central report को लगातार अपडेट करते हुए high-quality reasoning बनाए रखा जाता है
- Research–Synthesis framework के जरिए कई research agents के परिणामों को parallel में खोजकर एकीकृत किया जाता है
  - सीमित context के भीतर अधिक व्यापक exploration paths सुनिश्चित होते हैं

end-to-end agent learning pipeline

Agentic CPT → SFT → RL तक जाने वाला पूरी तरह integrated learning loop बनाया गया
On-policy reinforcement learning(RL) चरण में Group Relative Policy Optimization(GRPO) algorithm का उपयोग किया गया
- token-level policy gradient loss, leave-one-out strategy, negative sample filtering आदि के जरिए stability सुनिश्चित की गई
- training के दौरान reward में वृद्धि और उच्च policy entropy बनाए रखकर exploration जारी रखा गया
synthetic data ने BrowseComp जैसी human-annotated data की तुलना में अधिक consistent distribution देकर training efficiency बढ़ाई
infrastructure configuration
- synthetic learning environment: offline Wikipedia DB और custom toolset का उपयोग कर simulation environment बनाया गया
- stable tool sandbox: caching, retry, backup API से tool-call errors रोके गए
- automated data curation: training dynamics के अनुसार real-time data synthesis और filtering से stability और performance बढ़ाई गई
- asynchronous On-policy framework: rLLM आधारित step-level asynchronous RL loop लागू किया गया
- इस process के जरिए self-evolving AI agent learning loop पूरा किया गया, जिससे जटिल dynamic environments में भी स्थिर problem solving संभव हुआ

वास्तविक उपयोग के उदाहरण

Gaode Mate (map·navigation agent)
- Amap टीम के साथ मिलकर ‘Xiao Gao’ AI copilot विकसित किया गया
- multi-step reasoning के जरिए यात्रा itinerary, pet-friendly lodging सहित routes जैसे complex plans बनाए गए
Tongyi FaRui (legal research agent)
- case-law search, statute cross-review, analysis integration जैसी lawyer-स्तर की multi-step research की गई
- सभी निष्कर्ष verifiable judicial materials पर आधारित हैं और सटीक citations शामिल करते हैं

सीमाएँ और आगे की चुनौतियाँ

128K context सीमा के कारण ultra-long tasks को संभालने में बाधा है
30B-स्तर के MoE मॉडल से आगे scalability की पुष्टि अभी आवश्यक है
reinforcement learning efficiency improvement के लिए partial rollout और off-policy learning पर शोध की योजना है

श्रृंखला शोध

WebWalker, WebDancer, WebSailor, WebShaper, WebWatcher सहित 11 संबंधित शोधपत्र जारी किए गए
पिछले 6 महीनों में हर महीने technical report प्रकाशित की गई, और इस बार Tongyi DeepResearch‑30B‑A3B मॉडल के साथ 6 नई reports एक साथ जारी की गईं
अगली पीढ़ी के agentic models के विकास को जारी रखा जाएगा

1 टिप्पणियां

GN⁺ 2025-11-04

Hacker News राय

“deep research” के लिए जारी किया गया 30B MoE मॉडल देखकर खुशी हुई
कई agents को parallel में चलाकर exploration·extraction हल्के मॉडल संभालें, और planning·tool routing·verification 30B मॉडल संभाले — यह संरचना काफ़ी efficient लगती है
MoE की specialization संरचना distributed agent AI के लिए अच्छी तरह फिट बैठती है, लेकिन retry·consensus·multi-step web research evaluation के लिए orchestration की ज़रूरत होती है
सोच रहा हूँ कि क्या आजकल specialized LLMs विस्फोटक रूप से बढ़ेंगे
अगर बड़े मॉडल इतने विशाल हो जाएँ कि pretraining अपनी सीमा तक पहुँच जाए, तो purpose-specific models और ज़्यादा बढ़ सकते हैं
GPT‑3.5 शतरंज में अच्छा था, लेकिन हाल के मॉडल वैसे नहीं हैं — इससे लगता है कि training data में trade-off होते हैं
- फिलहाल general-purpose बड़े मॉडल लगभग हर मामले में बेहतर हैं
  छोटे मॉडल को किसी खास काम के लिए fine-tune करना महँगा पड़ता है, और बड़े मॉडल इतनी तेज़ी से आगे बढ़ रहे हैं कि वे जल्दी पीछे छूट जाते हैं
  लेकिन अगर प्रगति की रफ़्तार धीमी हुई, तो छोटे मॉडलों की training फिर से मायने रख सकती है
- शतरंज में अच्छे LLM का benchmark देखना चाहूँगा
  पहले से सोचता रहा हूँ कि SvelteKit जैसे किसी खास framework को ही बहुत अच्छी तरह जानने वाला 4B~8B मॉडल हो तो अच्छा होगा
  ज़रूरी नहीं कि बड़े मॉडल की quality हमेशा बेहतर ही हो, और अगर छोटा मॉडल एक ही GPU पर चल जाए तो वह कहीं ज़्यादा practical लगेगा
  मैंने पहले अपने भाई को chess LLM comparison website का idea सुझाया था, लेकिन वह अभी तक बना नहीं
- GPT‑3.5 के शतरंज में अच्छा होने वाली बात से सहमत नहीं हूँ
  वास्तव में आज़माने पर hallucinated moves बहुत मिले
- seed‑tars.com/game‑tars लिंक साझा किया गया
- क्या MoE संरचना का मूल बिंदु यही नहीं है?
  ज़रूरत वाले हिस्सों को अलग-अलग train और improve किया जा सकता है — यही इसका फ़ायदा है
सोच रहा हूँ कि ऐसे deep research tools वास्तव में उपयोगी हैं या नहीं
मेरे अनुभव में ये search engine summary के स्तर से आगे नहीं बढ़ते और बस फीकी रिपोर्ट बना देते हैं
- UK में एक छोटी website चलाते हुए compliance के लिए इस्तेमाल किया था, और context देने पर इसने काफ़ी customized results दिए
  यह वकील के स्तर का नहीं है, लेकिन बिना budget वाले projects में बहुत मददगार है
- मेरा अनुभव भी लगभग ऐसा ही है
  यह सच में सीखने वालों से ज़्यादा ‘quality वाली दिखने’ वाली consulting report जैसा लगता है, इसलिए इसकी व्यावहारिक value कम है
- रिपोर्ट फीकी होती है, लेकिन source material ढूँढने में यह उपयोगी है
  “क्या इस विषय पर पहले से research हुई है?” जैसे सवालों के लिए reference examples खोजने में मदद मिलती है
- मैं ChatGPT अक्सर इस्तेमाल करता हूँ, और सवाल पूछने पर यह संबंधित sources को व्यवस्थित करके अच्छी तरह देता है
  यह खुद research को पूरी तरह replace नहीं करता, लेकिन शुरुआती जानकारी समेटने में बहुत मदद करता है
- अगर यह search engine स्तर की summary भी दे, तब भी नए ideas या unknown unknowns खोजने में काफ़ी काम की हो सकती है
मैंने पहले बनाया हुआ Qwen3 4B distill मॉडल और synthetic dataset Hugging Face पर सार्वजनिक किया था
- अच्छा होगा अगर browser में सीधे इस्तेमाल करने लायक Hugging Face Space भी बना दिया जाए
  Qwen3 4B मेरे Intel integrated GPU पर भी अच्छी तरह चला, जो काफ़ी प्रभावशाली था
  पहले मैंने ‘harmful content detection के लिए ultra-low-cost model’ का idea सोचा था, और लगता है कि ऐसे छोटे LLM वह भूमिका निभा सकते हैं
  इन्हें routing के लिए भी आज़माया जा सकता है
- मैंने इसे अपने web search MCP के साथ चलाकर देखा, और इतने छोटे मॉडल में ऐसी deep research quality पहली बार देखी
कुल मिलाकर यह दिलचस्प series है
लेकिन CSS property word-break: break-word; की वजह से पढ़ना बहुत मुश्किल है
- मैंने भी पढ़ने की कोशिश की, लेकिन शब्द आपस में जुड़ते नहीं लगते
रविवार सुबह, एक engineer hobby के रूप में self-hosting कैसे की जाए, यह जानने की जिज्ञासा है
2080Ti पर 128GB VRAM(?) के साथ इसे धीरे-धीरे ही सही, चलाकर देखना चाहता हूँ
मुझे लगता है constraints ही मज़े का हिस्सा हैं
- सस्ते में VRAM चाहिए तो AMD MI50 ठीक विकल्प है
  32GB वाला version AliExpress पर 150~250 डॉलर में मिल सकता है, और कई cards जोड़कर 128GB VRAM configuration बनाया जा सकता है
  यह latest GPUs जितना तेज़ नहीं है, लेकिन काफ़ी उपयोगी है
- अगर local में जल्दी चलाकर देखना हो तो Ollama app सबसे आसान है
  इसे ollama.com से install किया जा सकता है
  लेकिन 2080Ti पर 128GB VRAM कैसे होगा, यह जानने की उत्सुकता है
- मैं MacBook Pro 128GB unified memory पर मॉडल चलाता हूँ
  speed धीमी है, लेकिन यह offline भी ठीक चलता है और coffee shop में भी इस्तेमाल किया जा सकता है
  मैं Ollama इस्तेमाल करता हूँ, इसलिए नए मॉडल के लिए उसके port होने तक इंतज़ार करना पड़ता है
- limited budget में assembled मेरा setup यह है
  Ryzen 9 9950X, 96GB RAM, दो RTX 3090, 1600W PSU
  इसमें FP8 quantized 30B मॉडल आराम से चल जाता है
- शायद VRAM नहीं बल्कि RAM कहना चाह रहे थे
  यह मॉडल 30B MoE है, लेकिन active parameters लगभग 3B हैं, इसलिए Qwen3 MoE जैसा है
  मैं 11 साल पुराने i5‑6600 और Radeon 6600(8GB) पर 4bit quantized मॉडल चलाता हूँ, और 16k context में लगभग 12tps मिलते हैं
  run script example भी साझा किया गया
Tongyi मॉडल OpenRouter पर भी उपलब्ध है, और इसका free version भी है
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
मज़ाक में कहा गया कि कहीं “Deep research” का अनुवाद “Agree” तो नहीं कर दिया गया
- दरअसल इसका चीनी नाम Tongyi Qianwen है, जिसका मतलब “सभी सवालों को जानना” जैसा है
  इसका उच्चारण “同意(agree)” जैसा है, लेकिन अर्थ अलग है
  Alibaba Qwen official page देखें
इस मॉडल के weights तो एक महीने पहले ही जारी हो चुके थे
- फिर भी हर कोई real time में सब कुछ follow नहीं करता, इसलिए एक महीने पुराना मॉडल भी अब भी उपयोगी हो सकता है
- अगर ऐसा है, तो दूसरे मॉडलों के साथ performance comparison कैसा है, यह जानना चाहूँगा
OpenAI का “Deep research” कोई specific model नहीं, बल्कि functional pattern के अधिक क़रीब है
GPT‑5, GPT‑4o, o3 आदि में से कौन-सा मॉडल इस्तेमाल हो रहा है, उसके अनुसार परिणाम बदलते हैं
- अभी OpenAI, Perplexity, Google Gemini, Anthropic, Grok आदि लगभग सभी मिलता-जुलता research pattern दे रहे हैं
  यह search-based long-running task होता है, जो 5~10 मिनट तक सामग्री इकट्ठा करके citations वाली report बनाता है
  Tongyi मॉडल ऐसे looping search और report writing के लिए specialize किया गया है

Tongyi DeepResearch – OpenAI DeepResearch के बराबर का ओपन सोर्स 30B MoE मॉडल

चैटबॉट से autonomous agent तक

synthetic data आधारित continual pre-training और post-training

post-training data

rollout mode

Native ReAct Mode

Heavy Mode

end-to-end agent learning pipeline

infrastructure configuration

वास्तविक उपयोग के उदाहरण

सीमाएँ और आगे की चुनौतियाँ

श्रृंखला शोध

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय