कृपया मेरे workflow पर A/B test मत चलाइए

(backnotprop.com)

4 पॉइंट द्वारा GN⁺ 2026-03-15 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Claude Code ने उपयोगकर्ता की सहमति के बिना A/B test चलाया, जिससे plan mode का व्यवहार बिना किसी पूर्व सूचना के बदल गया और काम की दक्षता घट गई
महीने के $200 देने वाले professional tool में core feature को पहले से बताए बिना बदलना transparency और user control, दोनों के लिहाज़ से समस्या है
एक test में plan को 40 लाइनों तक सीमित किया गया, context section पर रोक लगाई गई, और prose हटाकर सिर्फ file path छोड़ने का निर्देश दिया गया — यह एक बहुत आक्रामक variant था
यह test चलाने वाले Anthropic engineer ने कहा कि उद्देश्य rate-limit load कम करना था, लेकिन शुरुआती नतीजों में बड़ा असर न दिखने पर experiment बंद कर दिया गया
यह बात रेखांकित की गई कि AI tools की reliability और responsible deployment के लिए user control और transparent experiment management अनिवार्य हैं

Claude Code के A/B test से user experience में गिरावट

Claude Code को ऐसा tool मानने वाले एक उत्साही user, जिसने उनके काम करने का तरीका पूरी तरह बदल दिया था, ने पिछले एक हफ्ते में अपने workflow के खराब होने का अनुभव किया
Anthropic Claude Code में A/B test चला रहा था, और उसके कारण user workflow सक्रिय रूप से खराब हो रहा था
A/B test अपने आप में गलत नहीं है, और न ही Anthropic जानबूझकर experience खराब करना चाहता था, लेकिन test design मायने रखता है; plan mode जैसे core feature का अनुभवजन्य व्यवहार बिना कारण बताए बदलना ही समस्या है

Paid tool में transparency की मांग

यह $200 प्रति माह का professional work tool है, इसलिए इसके काम करने के तरीके पर transparency और configuration की क्षमता होनी चाहिए
core feature का बिना सूचना बदल जाना, या बिना सहमति destructive test में शामिल कर दिया जाना, स्वीकार करना मुश्किल है
AI tools को responsibly steer करने के लिए transparency और configurability बुनियादी हैं, और users को ऐसा करने में सक्षम बनाना चाहिए
हर दिन engineers Claude Code की regression को लेकर शिकायत कर रहे हैं, और कई बार उन्हें यह भी नहीं पता होता कि वे A/B test का हिस्सा हैं

Test की सामग्री और सबूत

लिखा गया plan context के बिना सिर्फ संक्षिप्त bullet list के रूप में लौटने लगा
जब Claude से पूछा गया कि वह इतना खराब plan क्यों लिख रहा है, तो उसने जवाब दिया कि वह एक खास system instruction का पालन कर रहा है: plan को 40 लाइनों पर hard cap करना, context section को प्रतिबंधित करना, और "prose हटा दो, सिर्फ file path छोड़ो"
ठोस सबूत जुटाने की विधि Hacker News पर ध्यान आकर्षित कर रही थी, इसलिए दूसरों को वही कोशिश न करने देने के लिए विस्तृत विवरण हटा दिए गए
लेखक ने कहा कि यह तरीका transparency और responsible AI deployment/use — दोनों के विपरीत है

Hacker News की प्रतिक्रिया और लागत का दृष्टिकोण

Hacker News की एक टिप्पणी में कहा गया कि Anthropic को Claude Code के हर चरण में throughput से जुड़े trade-off चुनने पड़ते हैं; अगर सब कुछ अधिकतम पर रखा जाए, तो प्रति user अधिक loss या कम profit हो सकता है
यह भी दृष्टिकोण सामने आया कि $200/माह की सेवा की वास्तविक लागत $400/माह तक हो सकती है, और process के अलग-अलग हिस्सों में A/B test करके baseline ढूँढना मनमाने limits तय करने से बेहतर तरीका हो सकता है

Anthropic engineer की प्रतिक्रिया

यह test चलाने वाले Claude Code engineer ने Hacker News thread में सीधे जवाब दिया
plan-mode prompt में 3.x series models के बाद से बड़ा बदलाव नहीं हुआ था, और 4.x model बहुत कम instructions के साथ भी सफलतापूर्वक काम कर सकते हैं
परिकल्पना यह थी कि plan छोटा रखने से rate-limit hit कम होंगे और फिर भी मिलते-जुलते नतीजे मिल सकते हैं
कई variants चलाए गए, और उस लेखक को — साथ ही हजारों अन्य users को — plan को 40 लाइनों तक सीमित करने वाले सबसे आक्रामक variant में रखा गया
शुरुआती नतीजों में rate limit पर कोई बड़ा असर नहीं दिखा, इसलिए experiment बंद कर दिया गया
planning के दो उद्देश्य हैं: model को सही दिशा में बनाए रखना, और user को model की अगली कार्रवाई पर भरोसा देने में मदद करना; engineer के अनुसार दोनों ही लक्ष्य धुंधले, जटिल और non-obvious क्षेत्र हैं

निष्कर्ष: AI tool experiments की जवाबदेही और user trust

लेखक ने Claude Code के इस मामले के ज़रिए दिखाया कि AI tool experiments सीधे user experience को प्रभावित कर सकते हैं
उन्होंने जोर दिया कि transparent experiment management और user choice की गारंटी professional tools में trust बनाए रखने के लिए आवश्यक है
भले ही AI systems आगे बढ़ते रहें, मानव-नियंत्रित संरचना बनाए रखना जरूरी है

कृपया मेरे workflow पर A/B test मत चलाइए

Claude Code के A/B test से user experience में गिरावट

Paid tool में transparency की मांग

Test की सामग्री और सबूत

Hacker News की प्रतिक्रिया और लागत का दृष्टिकोण

Anthropic engineer की प्रतिक्रिया

निष्कर्ष: AI tool experiments की जवाबदेही और user trust

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.