14 पॉइंट द्वारा darjeeling 2026-03-31 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Shopify ने लाखों असंरचित commerce data (store pages, policies आदि) को structured data में बदलने के लिए One-Shot LLM तरीके से DSPy-आधारित specialized multi-agent आर्किटेक्चर में बदलाव किया। इस प्रक्रिया में GPT-4/5-स्तर के बड़े मॉडल की जगह self-hosted Qwen (32B/72B-स्तर) मॉडल और DSPy के Japa optimizer का उपयोग किया गया, जिससे लागत 75 गुना कम हुई और data extraction quality 2 गुना बेहतर हुई। खास तौर पर, single agent की तुलना में खास उद्देश्यों (fraud detection, store profiling आदि) के लिए specialized sub-agent संरचना प्रदर्शन सुधार में निर्णायक साबित हुई。


second सारांश

गहन विश्लेषण (Deep Dive)

1. समस्या की पृष्ठभूमि: असंरचित डेटा की बाढ़

Shopify merchants को बेहद अधिक लचीलापन देता है। इसका मतलब है कि हर store का HTML structure, language, और policy लिखने का तरीका अलग-अलग हो सकता है। "क्या यह store मोबाइल फोन बेचता है?", "return policy क्या है?" जैसे सरल सवालों के लिए भी पूरे संगठन में standardized उत्तर पाना बहुत कठिन था।

2. समाधान के विकास की प्रक्रिया
  • चरण 1: One-Shot LLM (प्रारंभिक दृष्टिकोण)
    • store के मुख्य page text को निकालकर GPT-4 (बाद में 5) को भेजा जाता था और schema extraction के लिए कहा जाता था।
    • सीमाएँ: context window की सीमा के कारण सभी pages भेजना संभव नहीं था (अगर return policy page छूट गया, तो उत्तर नहीं मिल सकता था)। जैसे-जैसे fields बढ़ती गईं, prompt fragile होता गया और लागत तेजी से बढ़ी।
  • चरण 2: Agentic दृष्टिकोण और DSPy का अपनाना
    • LLM को सारा data देने के बजाय, store को explore करने और ज़रूरी जानकारी खुद ढूँढने के लिए 'tools (Browsing, Investigation)' दिए गए ReAct agent ढाँचे में बदलाव किया गया।
    • इस प्रक्रिया में DSPy अपनाया गया, ताकि prompt की manual tuning की जगह programmatic optimization की जा सके।
  • चरण 3: Specialized sub-agents
    • एक single agent से सभी उद्देश्यों (fraud, tax, profiling) को संभालने के बजाय, इसे तीन specialized agents में बाँटा गया।
    • Fraud Agent: external review sites खोजने वाले tool का उपयोग।
    • Profile Agent: internal policy parsing पर फोकस।
    • हर agent को DSPy के माध्यम से स्वतंत्र रूप से optimize किया जाता है, जिससे बिना आपसी हस्तक्षेप के प्रदर्शन सुधारने वाली संरचना मिलती है।
3. तकनीकी समाधान: Eval Reliability & Snapshotting

अगर agent real-time websites crawl करे, तो site content बदलने पर evaluation dataset (Golden Dataset) की reliability टूट सकती है। इसे हल करने के लिए Shopify ने 'ShopNap' नाम की एक snapshot service बनाई।

  • labeling के समय store की स्थिति को statically freeze किया जाता है (Frozen context)।
  • DSPy optimizer इसी fixed snapshot पर चलता है, जिससे reproducible evaluation और training सुनिश्चित होती है।
4. इंफ्रास्ट्रक्चर आर्किटेक्चर

कुशल processing के लिए इसे 3 layers में चलाया जाता है।

  • Batch Layer (Flink): रोज़ 1.5 लाख से अधिक stores के processing requests का प्रबंधन।
  • Agent Layer (Kubernetes): CPU-आधारित cluster पर agent logic, HTML parsing, और tool calls का निष्पादन।
  • LLM Layer (GPU Cluster): vLLM आदि के माध्यम से self-hosted Qwen models उपलब्ध कराना।

प्रमुख डेटा और बेंचमार्क

यह Shopify द्वारा बताए गए आर्किटेक्चर बदलाव से पहले और बाद के performance और cost comparison के आँकड़े हैं।

मद One-Shot (GPT-5 अनुमानित) Agentic + DSPy + Qwen
लागत (Cost) baseline (High) 1/75 तक कम
गुणवत्ता (Quality) baseline लगभग 2 गुना (100% सुधार)
store coverage आंशिक (लागत समस्या के कारण सीमित) सभी stores (Full Coverage)
scalability नए fields जोड़ने पर पूरे सिस्टम का दोबारा validation ज़रूरी sub-agent जोड़कर आसानी से विस्तार
मुख्य सीख
  1. Monolithic vs specialized: जितना जटिल काम, उतना single agent की तुलना में Separation of Concerns लागू करने वाले sub-agents अधिक प्रभावी होते हैं [21:59].
  2. Architecture over Tuning: अलग-अलग prompt wording सुधारने की बजाय सही system architecture बनाना और automated optimization (DSPy) लागू करना लंबे समय तक टिकाऊ performance देता है [23:24].
  3. Small Models Win: specific domain tasks में optimized mid-size या small models (self-hosted) cost-effectiveness और performance दोनों में general-purpose बड़े models से बेहतर हो सकते हैं [23:54].

1 टिप्पणियां

 
roxie 2026-04-02

DSPy के बारे में कभी-कभी सुनने को मिलता है, क्या इसे इस्तेमाल करने वाले और लोग हैं? आपके अनुभव जानने की उत्सुकता है।