LLM मूल्यांकन की अंधी जगह: हम 'behavior' नहीं, सिर्फ 'knowledge' ही क्यों देखते हैं?

(dev.to/johnonlee)

14 पॉइंट द्वारा johnonlee 2026-05-27 | 5 टिप्पणियां | WhatsApp पर शेयर करें

• LLM मूल्यांकन अभी भी "SAT score" पर अटका हुआ है — MMLU, HumanEval, SWE-bench सभी single-session·single-answer paradigm पर आधारित हैं। असली coding agents कई sessions में काम करते हैं, गलतियों से सीखते हैं, और मौजूदा conventions को पढ़ते हैं। यह knowledge की नहीं, behavior की समस्या है।

• जब हम इंसानों की भर्ती करते हैं तो सिर्फ grades नहीं, बल्कि "वे कैसे सोचते हैं" यह देखते हैं — फिर LLM evaluation में ऐसा क्यों नहीं करते? अभी हम उस "GPA check" चरण पर रुके हुए हैं जहाँ हर मॉडल 90 percentile तक पहुँच रहा है।

• एक ही bug को ठीक करने पर भी approach पूरी तरह अलग हो सकती है — Model A 30 सेकंड में grep करके patch करता है (prototyping प्रकार), Model B sub-tasks में बाँटकर systematic approach अपनाता है (architecture प्रकार), Model C git log में precedents सीखकर फिर सुधार करता है (maintenance प्रकार)। तीनों bug ठीक कर देते हैं। score समान है। लेकिन role-fit पूरी तरह अलग है।

• behavior को देखने के 4 आयामों का प्रस्ताव — Decomposition (क्या यह समस्या को तोड़ता है या सीधे निष्पादित करता है), Approach (क्या यह patterns ढूँढता है या principles से reasoning करता है), Recovery (रुकने पर strategy बदलता है या उसी पर अड़ा रहता है), Consistency (क्या मिलती-जुलती समस्याओं में एक जैसा approach दिखाता है)।

knowledge evaluation vs behavior evaluation

मौजूदा बेंचमार्क	क्या मापता है	क्या छूट जाता है
MMLU	knowledge memorization	application judgment, "जो नहीं पता उसकी पहचान"
HumanEval	first-attempt pass rate	debugging, iteration, adaptation process
SWE-bench	patch pass हुआ या नहीं	approach path, architecture understanding, cross-session learning

2026 में, असली ज़रूरी सवाल

अब जबकि coding agents demo नहीं बल्कि वास्तविक team tools बन चुके हैं, हमें यह नहीं पूछना चाहिए कि "score कितना है":

"legacy maintenance के लिए कौन-सा model उपयुक्त है"
"junior pair programming के लिए किस तरह का debugging style सही है"
"कौन-सा model हफ्तों के स्तर पर सबसे predictable behavior दिखाता है"

यह role-fit का सवाल है। यह hiring का सवाल है। और हम अभी भी इसका जवाब SAT score से दे रहे हैं।

यह कोई पूर्ण framework पेश नहीं करता। "अगर मैं गलत हूँ तो मुझे सुधारें" वाले रवैये के साथ 4 assumptions को स्पष्ट रूप से खुला छोड़ते हुए comment discussion को आमंत्रित किया गया है। अप्रैल 2026 में Tang et al. का पेपर "In-Situ Behavioral Evaluation for LLM Fairness" भी इसी तरह की दिशा सुझाता है।

5 टिप्पणियां

husky81 2026-05-28

सोचें तो, लोगों का मूल्यांकन करने वाली सूनुंग परीक्षा भी व्यवहार नहीं बल्कि सिर्फ ज्ञान को ही देखती है।

cronex 2026-05-27

अगर एक जैसा पैटर्न बना रहे तो समझ आ सकता है, लेकिन हर बार इस्तेमाल करने पर अलग होता है... इसलिए समझ नहीं आता कि इसका मूल्यांकन कैसे किया जाए।

johnonlee 2026-05-27

सही है। कोई एक तय जवाब नहीं है, लेकिन मुझे लगता है कि इस दिशा से भी एक बार देखने की ज़रूरत है। अभी हम एक ही मॉडल से शुरुआत से अंत तक काम करवा रहे हैं, लेकिन क्या ऐसा नहीं हो सकता कि कल बीच-बीच में हर मॉडल को सिर्फ वही हिस्से दिए जाएँ जिनमें वह सबसे अच्छा है? अगर सभी मेहनत से सीखें तो एक हद तक उनके पास मिलते-जुलते स्तर का ज्ञान होगा, लेकिन उनके behavior pattern के आधार पर अंतिम परिणाम में फर्क आ सकता है।

b8g6pn 2026-05-27

सही जवाब तो है नहीं, और असली बात यह है कि मानव मानदंड सटीक हों और कम resources लगें, तो क्या token की मात्रा और हासिल किए गए स्तर के आधार पर मूल्यांकन करना सही नहीं होगा? अगर तरीके तक दखल दें, तो बात सच में बहुत मुश्किल हो जाती है...

aliveornot 2026-05-27

यह गलत बात नहीं है, लेकिन क्या इसका कोई जवाब है? असल hiring में भी उसे score करना मुश्किल होता है, इसलिए लोगों को भी पहले hire करके काम पर लगाते हैं, फिर न होने पर निकालते हैं... ठीक वैसे ही जैसे AI model इस्तेमाल करते-करते बदल देते हैं।

LLM मूल्यांकन की अंधी जगह: हम 'behavior' नहीं, सिर्फ 'knowledge' ही क्यों देखते हैं?

knowledge evaluation vs behavior evaluation

2026 में, असली ज़रूरी सवाल

संबंधित पढ़ाई

5 टिप्पणियां