इमेज labeling लागत में 96% कटौती: कम बजट और समय की कमी वाले माहौल में भी, इंसानों के काम को सिस्टम को सौंपकर दोहराए जाने वाले श्रम को software pipeline से बदलते हुए core functionality लागू करने का एक व्यावहारिक engineering case.
मुख्य सार
• समस्या की पहचान: मशहूर character dolls को अपने-आप पहचानकर register करने वाली feature के लिए उपयुक्त existing model मौजूद नहीं था, और human labeling में लागत, गति और scalability—तीनों की स्पष्ट सीमाएँ थीं.
• दृष्टिकोण: “और लोगों को लगाया जाए?” के बजाय, इंसानी निर्णय-प्रक्रिया को system में विभाजित कर pipeline बनाया गया.
4-स्टेप automation pipeline design
1. CLIP filtering – बेकार इमेजों को बड़ी मात्रा में हटाकर LLM लागत कम करना
2. YOLO detection – सिर्फ मुख्य object को crop करके analysis scope घटाना
3. LVM labeling – केवल साफ़-सुथरे data पर high-performance VLM लगाना
4. LVM verification – confidence-आधारित conditional verification से calls की संख्या और कम करना
नतीजे:
• मानवीय labeling लागत लगभग 21.6 लाख वॉन → 90 हज़ार वॉन
• लगभग 95.7% लागत में कमी, काम का समय कई दिनों से घटकर कुछ घंटों में
• मूलभूत मूल्य: यह सिर्फ एकबारगी बचत नहीं, बल्कि reuse की जा सकने वाली system हासिल करना है
यह साबित करता है कि पूंजी की सीमाओं को तकनीक से पार किया जा सकता है, और software लागत की समस्या को संरचनात्मक समस्या में बदलने वाला एक tool हो सकता है.
9 टिप्पणियां
अच्छा कंटेंट साझा करने के लिए धन्यवाद।
ओहो, बहुत अच्छा लगा पढ़कर। आपने कहा कि अतिरिक्त सत्यापन करना है या नहीं, यह विश्वसनीयता के आधार पर तय किया जाता है, तो यह भी जानना चाहूंगा कि यह विश्वसनीयता किस तरह मापी गई वैल्यू थी।
संदर्भ के लिए, gpt-4o-mini मॉडल में image input के समय input tokens की लागत काफ़ी ज़्यादा होती है, इसलिए मैं सुझाव दूंगा कि आप दूसरे lightweight models पर भी विचार करें!
नमस्ते winterjung ji, मेरे काम में रुचि लेने के लिए धन्यवाद। विश्वसनीयता के लिए मैं VLM (GPT-4o) द्वारा सीधे लौटाए गए confidence value का उपयोग करता हूँ। जैसा आपने कहा, GPT-4o के confidence की गणना का आधार अस्पष्ट है और उसे पुनरुत्पादित नहीं किया जा सकता, यह एक सीमा है। लेकिन व्यावहारिक दृष्टिकोण से, इस धारणा के तहत कि VLM द्वारा लौटाया गया confidence कुछ हद तक सटीक है, मैंने इसे इस तरह इम्प्लीमेंट किया है कि अंतिम verification (Verifier) चरण में threshold के आधार पर यह तय किया जाए कि सत्यापन किया जाए या नहीं।
मुझे बिल्कुल पता नहीं था कि got-4o-mini मॉडल में image input tokens की कीमत जरूरत से ज्यादा महंगी है। बताने के लिए धन्यवाद। मैंने इसे तुरंत कोड में लागू कर दिया haha
मुझे सच में समझ नहीं आता कि 4o mini की कीमत ऐसी क्यों है, मुझे तो पता है कि सामान्य 4o ज़्यादा सस्ता है lol
VLM का इस्तेमाल करके समस्या को बहुत अच्छे से हल किया गया है, पढ़कर मज़ा आया।
पोस्ट पढ़कर मेरे मन में एक सवाल आया है।
यह प्रक्रिया आपने कैसे जोड़ी, यह जानने की जिज्ञासा है।
पोस्ट पढ़ते समय मुझे लगा कि VLM की performance शायद YOLO से बेहतर होगी, इसलिए उल्टा crop करने पर कहीं ऐसा तो नहीं कि YOLO मॉडल गलत निर्णय कर दे और VLM तक पहुँचने से पहले ही महत्वपूर्ण जानकारी खो जाए।
crop करने का विचार आपको किस समस्या के कारण आया, और उसकी accuracy को कैसे validate करके इसे लागू किया, यह जानना चाहता हूँ।
नमस्ते, लेख को दिलचस्पी से पढ़ने के लिए धन्यवाद!
आपने जो बात कही, उससे मैं सहमत हूँ। VLM का प्रदर्शन YOLO से बेहतर है, इसलिए YOLO की गलत पहचान की वजह से महत्वपूर्ण जानकारी खो सकती है — यह बिल्कुल सही बात है। लेकिन नीचे दिए गए कारणों की वजह से हमने crop चरण जोड़ा।
पहला कारण लागत है। अगर VLM में पूरी image सीधे इस्तेमाल की जाए, तो high-resolution image processing की वजह से लागत बहुत तेजी से बढ़ जाती है। crop को अपनाने का यह सबसे बड़ा कारण था।
दूसरा कारण processing speed है.
बड़े datasets को व्यावहारिक समय के भीतर process करने के लिए इस तरह की speed improvement ज़रूरी थी।
तीसरा कारण accuracy improvement है.
crop वास्तव में VLM के निर्णय की accuracy बढ़ाता है। पूरी image में complex background, कई characters, text, decorations आदि साथ में शामिल होते हैं, जिससे VLM के लिए यह तय करना भ्रमित करने वाला हो सकता है कि उसे किस object का आकलन करना है। उदाहरण के लिए, यह स्पष्ट न हो कि वह background के poster में मौजूद character है, main doll है, या बगल में मौजूद कोई दूसरा character। वहीं crop का उपयोग करने पर target object साफ़ तौर पर अलग हो जाता है, जिससे VLM उसी object पर ध्यान केंद्रित करके निर्णय ले सकता है।
बिल्कुल, YOLO की missed detections या false positives की समस्या पूरी तरह हल नहीं होती। लेकिन YOLO का confidence threshold 0.5 पर सेट करके recall बढ़ाया गया, और उसके बाद CLIP filtering तथा Verifier verification चरणों में false positives को हटाने के तरीके से इस समस्या को कम किया गया। साथ ही, क्योंकि हम large-scale data process कर रहे थे, इसलिए कुछ missed detections होने पर भी सांख्यिकीय रूप से पर्याप्त मात्रा में high-quality data सुरक्षित किया जा सका।
अंततः लक्ष्य लागत, speed और accuracy के बीच संतुलन बनाकर एक practical pipeline तैयार करना था, और crop चरण ने इन तीनों पहलुओं में सकारात्मक प्रभाव दिया।
जवाब के लिए धन्यवाद।
मेरे मन में भी लागत का सवाल आया था, और लगता है कि input image की resolution के हिसाब से लागत काफी बदलती है। और input image के आकार और processing speed के बीच का संबंध तो मैंने सोचा ही नहीं था, यह दिलचस्प है। Crop करने से processing speed भी तेज़ हो जाती है।
और accuracy में सुधार वाकई चौंकाने वाला है!
VLM की performance काफ़ी बेहतर हुई है, लेकिन फिर भी क्या अभी तक वह किसी एक उद्देश्य के लिए train किए गए YOLO model की performance को पार नहीं कर पाई है?
आपने वास्तविक परिस्थितियों में हासिल किया गया अपना अनुभव और know-how लिखकर साझा किया, इसके लिए धन्यवाद।
अगर मुझे भी ऐसा मिलता-जुलता कोई problem मिले, तो मैं आपके इस्तेमाल किए गए तरीकों को ज़रूर संदर्भ के तौर पर देखूंगा।
ऐसा लग रहा है कि यह संरचनात्मक समस्या में बदलकर उसका समाधान करने से ज़्यादा, एक नया मॉडल बनाने जैसा है।
अच्छे सुझाव के लिए धन्यवाद!
"संरचनात्मक समस्या में बदलना"जैसा अभिव्यक्ति शायद थोड़ी अमूर्त थी।मैं अपने लेख में यह कहना चाहता था कि
Before:
"labeling = लोगों की भागीदारी = लागत के अनुपात में वृद्धि"After:
"labeling = pipeline = शुरुआती सेटअप के बाद variable cost न्यूनतम"यानी, एकमुश्त लागत की समस्या को system निर्माण की समस्या में बदल दिया गया।
"एक नया कार्य मॉडल बनाया"कहना भी सही है!ज़्यादा सटीक रूप से कहें तो, इसे
"मानवीय श्रम को software pipeline से replace किया"भी कहा जा सकता है haha