• LLM मूल्यांकन अभी भी "SAT score" पर अटका हुआ है — MMLU, HumanEval, SWE-bench सभी single-session·single-answer paradigm पर आधारित हैं। असली coding agents कई sessions में काम करते हैं, गलतियों से सीखते हैं, और मौजूदा conventions को पढ़ते हैं। यह knowledge की नहीं, behavior की समस्या है।

• जब हम इंसानों की भर्ती करते हैं तो सिर्फ grades नहीं, बल्कि "वे कैसे सोचते हैं" यह देखते हैं — फिर LLM evaluation में ऐसा क्यों नहीं करते? अभी हम उस "GPA check" चरण पर रुके हुए हैं जहाँ हर मॉडल 90 percentile तक पहुँच रहा है।

• एक ही bug को ठीक करने पर भी approach पूरी तरह अलग हो सकती है — Model A 30 सेकंड में grep करके patch करता है (prototyping प्रकार), Model B sub-tasks में बाँटकर systematic approach अपनाता है (architecture प्रकार), Model C git log में precedents सीखकर फिर सुधार करता है (maintenance प्रकार)। तीनों bug ठीक कर देते हैं। score समान है। लेकिन role-fit पूरी तरह अलग है।

• behavior को देखने के 4 आयामों का प्रस्ताव — Decomposition (क्या यह समस्या को तोड़ता है या सीधे निष्पादित करता है), Approach (क्या यह patterns ढूँढता है या principles से reasoning करता है), Recovery (रुकने पर strategy बदलता है या उसी पर अड़ा रहता है), Consistency (क्या मिलती-जुलती समस्याओं में एक जैसा approach दिखाता है)।

knowledge evaluation vs behavior evaluation

मौजूदा बेंचमार्क क्या मापता है क्या छूट जाता है
MMLU knowledge memorization application judgment, "जो नहीं पता उसकी पहचान"
HumanEval first-attempt pass rate debugging, iteration, adaptation process
SWE-bench patch pass हुआ या नहीं approach path, architecture understanding, cross-session learning

2026 में, असली ज़रूरी सवाल

अब जबकि coding agents demo नहीं बल्कि वास्तविक team tools बन चुके हैं, हमें यह नहीं पूछना चाहिए कि "score कितना है":

  • "legacy maintenance के लिए कौन-सा model उपयुक्त है"
  • "junior pair programming के लिए किस तरह का debugging style सही है"
  • "कौन-सा model हफ्तों के स्तर पर सबसे predictable behavior दिखाता है"

यह role-fit का सवाल है। यह hiring का सवाल है। और हम अभी भी इसका जवाब SAT score से दे रहे हैं।

यह कोई पूर्ण framework पेश नहीं करता। "अगर मैं गलत हूँ तो मुझे सुधारें" वाले रवैये के साथ 4 assumptions को स्पष्ट रूप से खुला छोड़ते हुए comment discussion को आमंत्रित किया गया है। अप्रैल 2026 में Tang et al. का पेपर "In-Situ Behavioral Evaluation for LLM Fairness" भी इसी तरह की दिशा सुझाता है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.