21 पॉइंट द्वारा narubrown 2026-01-01 | 9 टिप्पणियां | WhatsApp पर शेयर करें

इमेज labeling लागत में 96% कटौती: कम बजट और समय की कमी वाले माहौल में भी, इंसानों के काम को सिस्टम को सौंपकर दोहराए जाने वाले श्रम को software pipeline से बदलते हुए core functionality लागू करने का एक व्यावहारिक engineering case.

मुख्य सार
• समस्या की पहचान: मशहूर character dolls को अपने-आप पहचानकर register करने वाली feature के लिए उपयुक्त existing model मौजूद नहीं था, और human labeling में लागत, गति और scalability—तीनों की स्पष्ट सीमाएँ थीं.
• दृष्टिकोण: “और लोगों को लगाया जाए?” के बजाय, इंसानी निर्णय-प्रक्रिया को system में विभाजित कर pipeline बनाया गया.

4-स्टेप automation pipeline design
1. CLIP filtering – बेकार इमेजों को बड़ी मात्रा में हटाकर LLM लागत कम करना
2. YOLO detection – सिर्फ मुख्य object को crop करके analysis scope घटाना
3. LVM labeling – केवल साफ़-सुथरे data पर high-performance VLM लगाना
4. LVM verification – confidence-आधारित conditional verification से calls की संख्या और कम करना

नतीजे:
• मानवीय labeling लागत लगभग 21.6 लाख वॉन → 90 हज़ार वॉन
• लगभग 95.7% लागत में कमी, काम का समय कई दिनों से घटकर कुछ घंटों में
• मूलभूत मूल्य: यह सिर्फ एकबारगी बचत नहीं, बल्कि reuse की जा सकने वाली system हासिल करना है

यह साबित करता है कि पूंजी की सीमाओं को तकनीक से पार किया जा सकता है, और software लागत की समस्या को संरचनात्मक समस्या में बदलने वाला एक tool हो सकता है.

9 टिप्पणियां

 
chickendreamtree 2026-01-09

अच्छा कंटेंट साझा करने के लिए धन्यवाद।

 
winterjung 2026-01-02

ओहो, बहुत अच्छा लगा पढ़कर। आपने कहा कि अतिरिक्त सत्यापन करना है या नहीं, यह विश्वसनीयता के आधार पर तय किया जाता है, तो यह भी जानना चाहूंगा कि यह विश्वसनीयता किस तरह मापी गई वैल्यू थी।

संदर्भ के लिए, gpt-4o-mini मॉडल में image input के समय input tokens की लागत काफ़ी ज़्यादा होती है, इसलिए मैं सुझाव दूंगा कि आप दूसरे lightweight models पर भी विचार करें!

 
narubrown 2026-01-04

नमस्ते winterjung ji, मेरे काम में रुचि लेने के लिए धन्यवाद। विश्वसनीयता के लिए मैं VLM (GPT-4o) द्वारा सीधे लौटाए गए confidence value का उपयोग करता हूँ। जैसा आपने कहा, GPT-4o के confidence की गणना का आधार अस्पष्ट है और उसे पुनरुत्पादित नहीं किया जा सकता, यह एक सीमा है। लेकिन व्यावहारिक दृष्टिकोण से, इस धारणा के तहत कि VLM द्वारा लौटाया गया confidence कुछ हद तक सटीक है, मैंने इसे इस तरह इम्प्लीमेंट किया है कि अंतिम verification (Verifier) चरण में threshold के आधार पर यह तय किया जाए कि सत्यापन किया जाए या नहीं।

मुझे बिल्कुल पता नहीं था कि got-4o-mini मॉडल में image input tokens की कीमत जरूरत से ज्यादा महंगी है। बताने के लिए धन्यवाद। मैंने इसे तुरंत कोड में लागू कर दिया haha

 
yeorinhieut 2026-01-03

मुझे सच में समझ नहीं आता कि 4o mini की कीमत ऐसी क्यों है, मुझे तो पता है कि सामान्य 4o ज़्यादा सस्ता है lol

 
crawler 2026-01-02

VLM का इस्तेमाल करके समस्या को बहुत अच्छे से हल किया गया है, पढ़कर मज़ा आया।

पोस्ट पढ़कर मेरे मन में एक सवाल आया है।

  1. YOLO डिटेक्शन – सिर्फ मुख्य ऑब्जेक्ट को crop करके analysis की सीमा कम करना

यह प्रक्रिया आपने कैसे जोड़ी, यह जानने की जिज्ञासा है।

पोस्ट पढ़ते समय मुझे लगा कि VLM की performance शायद YOLO से बेहतर होगी, इसलिए उल्टा crop करने पर कहीं ऐसा तो नहीं कि YOLO मॉडल गलत निर्णय कर दे और VLM तक पहुँचने से पहले ही महत्वपूर्ण जानकारी खो जाए।

crop करने का विचार आपको किस समस्या के कारण आया, और उसकी accuracy को कैसे validate करके इसे लागू किया, यह जानना चाहता हूँ।

 
narubrown 2026-01-04

नमस्ते, लेख को दिलचस्पी से पढ़ने के लिए धन्यवाद!

आपने जो बात कही, उससे मैं सहमत हूँ। VLM का प्रदर्शन YOLO से बेहतर है, इसलिए YOLO की गलत पहचान की वजह से महत्वपूर्ण जानकारी खो सकती है — यह बिल्कुल सही बात है। लेकिन नीचे दिए गए कारणों की वजह से हमने crop चरण जोड़ा।

पहला कारण लागत है। अगर VLM में पूरी image सीधे इस्तेमाल की जाए, तो high-resolution image processing की वजह से लागत बहुत तेजी से बढ़ जाती है। crop को अपनाने का यह सबसे बड़ा कारण था।

दूसरा कारण processing speed है.
बड़े datasets को व्यावहारिक समय के भीतर process करने के लिए इस तरह की speed improvement ज़रूरी थी।

तीसरा कारण accuracy improvement है.
crop वास्तव में VLM के निर्णय की accuracy बढ़ाता है। पूरी image में complex background, कई characters, text, decorations आदि साथ में शामिल होते हैं, जिससे VLM के लिए यह तय करना भ्रमित करने वाला हो सकता है कि उसे किस object का आकलन करना है। उदाहरण के लिए, यह स्पष्ट न हो कि वह background के poster में मौजूद character है, main doll है, या बगल में मौजूद कोई दूसरा character। वहीं crop का उपयोग करने पर target object साफ़ तौर पर अलग हो जाता है, जिससे VLM उसी object पर ध्यान केंद्रित करके निर्णय ले सकता है।

बिल्कुल, YOLO की missed detections या false positives की समस्या पूरी तरह हल नहीं होती। लेकिन YOLO का confidence threshold 0.5 पर सेट करके recall बढ़ाया गया, और उसके बाद CLIP filtering तथा Verifier verification चरणों में false positives को हटाने के तरीके से इस समस्या को कम किया गया। साथ ही, क्योंकि हम large-scale data process कर रहे थे, इसलिए कुछ missed detections होने पर भी सांख्यिकीय रूप से पर्याप्त मात्रा में high-quality data सुरक्षित किया जा सका।

अंततः लक्ष्य लागत, speed और accuracy के बीच संतुलन बनाकर एक practical pipeline तैयार करना था, और crop चरण ने इन तीनों पहलुओं में सकारात्मक प्रभाव दिया।

 
crawler 2026-01-05

जवाब के लिए धन्यवाद।

मेरे मन में भी लागत का सवाल आया था, और लगता है कि input image की resolution के हिसाब से लागत काफी बदलती है। और input image के आकार और processing speed के बीच का संबंध तो मैंने सोचा ही नहीं था, यह दिलचस्प है। Crop करने से processing speed भी तेज़ हो जाती है।

और accuracy में सुधार वाकई चौंकाने वाला है!
VLM की performance काफ़ी बेहतर हुई है, लेकिन फिर भी क्या अभी तक वह किसी एक उद्देश्य के लिए train किए गए YOLO model की performance को पार नहीं कर पाई है?

आपने वास्तविक परिस्थितियों में हासिल किया गया अपना अनुभव और know-how लिखकर साझा किया, इसके लिए धन्यवाद।
अगर मुझे भी ऐसा मिलता-जुलता कोई problem मिले, तो मैं आपके इस्तेमाल किए गए तरीकों को ज़रूर संदर्भ के तौर पर देखूंगा।

 
skageektp 2026-01-02

ऐसा लग रहा है कि यह संरचनात्मक समस्या में बदलकर उसका समाधान करने से ज़्यादा, एक नया मॉडल बनाने जैसा है।

 
narubrown 2026-01-04

अच्छे सुझाव के लिए धन्यवाद!

"संरचनात्मक समस्या में बदलना" जैसा अभिव्यक्ति शायद थोड़ी अमूर्त थी।
मैं अपने लेख में यह कहना चाहता था कि

Before: "labeling = लोगों की भागीदारी = लागत के अनुपात में वृद्धि"
After: "labeling = pipeline = शुरुआती सेटअप के बाद variable cost न्यूनतम"

यानी, एकमुश्त लागत की समस्या को system निर्माण की समस्या में बदल दिया गया।
"एक नया कार्य मॉडल बनाया" कहना भी सही है!
ज़्यादा सटीक रूप से कहें तो, इसे "मानवीय श्रम को software pipeline से replace किया" भी कहा जा सकता है haha