• LLM मूल्यांकन अभी भी "SAT score" पर अटका हुआ है — MMLU, HumanEval, SWE-bench सभी single-session·single-answer paradigm पर आधारित हैं। असली coding agents कई sessions में काम करते हैं, गलतियों से सीखते हैं, और मौजूदा conventions को पढ़ते हैं। यह knowledge की नहीं, behavior की समस्या है।
• जब हम इंसानों की भर्ती करते हैं तो सिर्फ grades नहीं, बल्कि "वे कैसे सोचते हैं" यह देखते हैं — फिर LLM evaluation में ऐसा क्यों नहीं करते? अभी हम उस "GPA check" चरण पर रुके हुए हैं जहाँ हर मॉडल 90 percentile तक पहुँच रहा है।
• एक ही bug को ठीक करने पर भी approach पूरी तरह अलग हो सकती है — Model A 30 सेकंड में grep करके patch करता है (prototyping प्रकार), Model B sub-tasks में बाँटकर systematic approach अपनाता है (architecture प्रकार), Model C git log में precedents सीखकर फिर सुधार करता है (maintenance प्रकार)। तीनों bug ठीक कर देते हैं। score समान है। लेकिन role-fit पूरी तरह अलग है।
• behavior को देखने के 4 आयामों का प्रस्ताव — Decomposition (क्या यह समस्या को तोड़ता है या सीधे निष्पादित करता है), Approach (क्या यह patterns ढूँढता है या principles से reasoning करता है), Recovery (रुकने पर strategy बदलता है या उसी पर अड़ा रहता है), Consistency (क्या मिलती-जुलती समस्याओं में एक जैसा approach दिखाता है)।
knowledge evaluation vs behavior evaluation
| मौजूदा बेंचमार्क | क्या मापता है | क्या छूट जाता है |
|---|---|---|
| MMLU | knowledge memorization | application judgment, "जो नहीं पता उसकी पहचान" |
| HumanEval | first-attempt pass rate | debugging, iteration, adaptation process |
| SWE-bench | patch pass हुआ या नहीं | approach path, architecture understanding, cross-session learning |
2026 में, असली ज़रूरी सवाल
अब जबकि coding agents demo नहीं बल्कि वास्तविक team tools बन चुके हैं, हमें यह नहीं पूछना चाहिए कि "score कितना है":
- "legacy maintenance के लिए कौन-सा model उपयुक्त है"
- "junior pair programming के लिए किस तरह का debugging style सही है"
- "कौन-सा model हफ्तों के स्तर पर सबसे predictable behavior दिखाता है"
यह role-fit का सवाल है। यह hiring का सवाल है। और हम अभी भी इसका जवाब SAT score से दे रहे हैं।
यह कोई पूर्ण framework पेश नहीं करता। "अगर मैं गलत हूँ तो मुझे सुधारें" वाले रवैये के साथ 4 assumptions को स्पष्ट रूप से खुला छोड़ते हुए comment discussion को आमंत्रित किया गया है। अप्रैल 2026 में Tang et al. का पेपर "In-Situ Behavioral Evaluation for LLM Fairness" भी इसी तरह की दिशा सुझाता है।
अभी कोई टिप्पणी नहीं है.