ClawWork — AI असिस्टेंट को “आर्थिक जिम्मेदारी उठाने वाले AI co-worker” में बदलने वाला बेंचमार्क फ्रे

यह हांगकांग यूनिवर्सिटी (HKUDS) की शोध टीम द्वारा फ़रवरी 2026 में जारी किया गया एक open source प्रोजेक्ट है। यह OpenAI के GDPVal dataset का उपयोग करके यह सत्यापित करने वाली प्रणाली है कि क्या AI agent वास्तव में पैसा कमा सकता है। यह सिर्फ़ साधारण chatbot performance मापना नहीं है, बल्कि आर्थिक रूप से जीवित रहने के दृष्टिकोण से यह मापता है कि AI वास्तविक पेशेवर काम कर सकता है और राजस्व उत्पन्न कर सकता है या नहीं.

मुख्य विचार: आर्थिक रूप से जीवित रहने का दबाव

Agent $10 से शुरू करता है। हर LLM call पर वास्तविक token cost काटी जाती है, और आय तभी आती है जब काम पूरा किया जाए। हर दिन agent को दो में से एक चुनना होता है: तुरंत आय के लिए काम करना (work), या लंबी अवधि के performance improvement के लिए सीखना (learn)। आय की गणना भी यथार्थवादी है।

Payment = गुणवत्ता स्कोर(0.0~1.0) × (अनुमानित लगने वाला समय × BLS की आधिकारिक प्रति घंटा मजदूरी)

काम के मूल्य की सीमा $82~$5,004 है और औसत लगभग $259 है।

बेंचमार्क: GDPVal dataset
यह OpenAI द्वारा AI के GDP contribution को मापने के लिए बनाए गए GDPVal dataset का उपयोग करता है। यह 44 job categories और 220 वास्तविक work tasks से बना है, और technology·engineering, business·finance, healthcare, legal·operations सहित 4 domains को कवर करता है। Task deliverables के रूप में Word, Excel, PDF, data analysis report जैसी वास्तविक files जमा करनी होती हैं, और GPT-4o आधारित LLM evaluation से quality score दिया जाता है।

संरचना

यह Nanobot के ऊपर चलने वाली एक lightweight संरचना है, और agent tools में web search, file creation(.docx/.xlsx/.pdf), Python code execution (E2B isolated sandbox), video generation आदि शामिल हैं। Real-time React dashboard में balance change, work completion, और learning progress को दृश्य रूप से मॉनिटर किया जा सकता है। Telegram, Discord, Slack सहित 9 channels के साथ integration का support भी है.

सीमाएँ

शीर्षक में दिया गया “$10K in 7 hours” एक isolated simulation environment में equivalent revenue है, और evaluation भी GPT-4o ही करता है। यह ध्यान में रखने की ज़रूरत है कि OpenAI model को OpenAI-आधारित evaluator द्वारा स्कोर किया जाता है। इसे सार्वजनिक हुए अभी ज़्यादा समय नहीं हुआ है, इसलिए community validation भी अभी पर्याप्त नहीं है। फिर भी, “accuracy” नहीं बल्कि “economic survival” के आधार पर AI का मूल्यांकन करने वाला यह फ्रेमवर्क अपने आप में दिलचस्प है.

ClawWork — AI असिस्टेंट को “आर्थिक जिम्मेदारी उठाने वाले AI co-worker” में बदलने वाला बेंचमार्क फ्रेमवर्क

मुख्य विचार: आर्थिक रूप से जीवित रहने का दबाव

संरचना

सीमाएँ

अभी कोई टिप्पणी नहीं है.

ClawWork — AI असिस्टेंट को “आर्थिक जिम्मेदारी उठाने वाले AI co-worker” में बदलने वाला बेंचमार्क फ्रेमवर्क

मुख्य विचार: आर्थिक रूप से जीवित रहने का दबाव

संरचना

सीमाएँ

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.