इन-हाउस AI review tool चलाते हुए, "क्या AI रिव्यू पर भरोसा किया जा सकता है?", "क्या यह वास्तव में अच्छी तरह सत्यापन कर रहा है?" जैसे सवालों का जवाब देने के लिए quality को quantitative तरीके से मापने और सुधारने की प्रक्रिया साझा की गई है.

पृष्ठभूमि

  • AI से जनरेट किया गया code, मानव code की तुलना में प्रति PR 1.7 गुना अधिक issue और 75% अधिक logic error रखता है (CodeRabbit)
  • Amazon ने AI code outage के बाद senior PR approval अनिवार्य किया, Shopify ने AI PR auto-merge पर रोक लगाई
  • AI review को ऐसी स्थिति में issue और error को शुरुआती चरण में पकड़ने के लिए एक validation साधन के रूप में अपनाया गया
  • लेकिन AI review स्वयं non-deterministic है, इसलिए "क्या यह validation साधन वास्तव में अच्छी तरह सत्यापन कर रहा है?" इसे मापने का चरण पहले आना चाहिए

अपना benchmark बनाना

  • Hotfix PR → मूल PR को reverse-trace करके यह मापा गया कि "क्या मूल समय पर AI review इस bug को पकड़ सकता था"
  • केवल वे case शामिल किए गए जिनका निर्णय सिर्फ PR diff से किया जा सकता था; जिनमें बाहरी context चाहिए था, उन्हें बाहर रखा गया
  • scoring के लिए GPT-4o mini को LLM-as-a-Judge के रूप में इस्तेमाल किया गया. absolute value भले सटीक न हो, relative comparison के लिए यह पर्याप्त था
  • पहला score 33 था. "लगता है हम अच्छा कर रहे हैं" जैसा एहसास, बहुत कम सफल case के कारण पैदा हुआ भ्रम निकला

विफलता 1 (sub-agent orchestration)

  • डोमेन-वार विशेषज्ञ sub-agent रखकर main agent से उन्हें संचालित कराने वाली संरचना आज़माई गई
  • परिणाम: detection rate ↓, cost 1.5~3 गुना ↑
  • इसके 3 कारण
    • context compression के कारण information loss
    • concern सीमित होने से नज़र का दायरा संकरा होना
    • cross-domain जिम्मेदारियों में खाली जगह बनना

विफलता 2 (benchmark contamination)

  • loop के ज़रिये prompt auto-tuning करने पर यह "Division by Zero check करो" जैसे निर्देशों की सूची की ओर converge हो गया
  • SWE-bench भी पहले से contaminated स्थिति में है
  • इससे यह पुष्टि हुई कि external benchmark के आधार पर model selection का ठोस आधार नहीं बनाया जा सकता

नया metric (Adoption Rate)

  • adopted: review के कारण वास्तव में code change हुआ
  • engaged: change नहीं हुआ, लेकिन reply के माध्यम से interaction हुआ (cross-validation value को मान्यता)
  • noised: न change हुआ, न reply आया
  • निर्णय का तरीका: review समय के commit SHA और merge समय के SHA की तुलना करके, comment line के ±3 line के भीतर बदलाव होने पर adopted माना गया

Opus 4.6 vs GPT-5.2 Codex A/B

  • PR नंबर के even/odd के आधार पर model branch किया गया, और लगभग 100 PR की तुलना की गई
  • Opus 4.6: तेज़ और creative, लेकिन बारीकी की कमी, आसानी से Approve कर देता है
  • GPT-5.2 Codex: धीमा, लेकिन बारीक; review फिर से माँगे जाने के समय भी वैध अतिरिक्त point कई बार पकड़ता है
  • Codex पर स्थिर करने के बाद weekly adoption rate का उच्चतम 60% दर्ज हुआ

Adoption Rate बढ़ाने के लिए 3 कदम

  • Question: जो बात पक्की न हो, उसे point out करने के बजाय सवाल के रूप में रखना
  • PR template में Intent/Decisions section
    • Intent: create-pr skill से "यह क्यों ज़रूरी है" सवाल का जवाब शामिल किया गया
    • Decisions: Claude Stop hook से conversation session ke decision अपने-आप निकाले गए
    • reviewer के context की कमी से होने वाले false positive लगभग 29% कम हुए
  • thread auto-resolve: review reflect होने की पुष्टि पर AI खुद thread बंद कर देता है

परिणाम

  • monthly adoption rate 63% हासिल किया गया (2026-04-17 के आधार पर)
  • सभी action data-driven होने से अगले experiment पर भी आधार के साथ निर्णय लेना संभव हुआ
  • Adoption Rate भी यह गारंटी नहीं देता कि "adoption = सही जवाब", इसलिए इस metric के contaminated होने की संभावना से भी सावधान रहना ज़रूरी है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.