Code as Agent Harness — कोड को एजेंट की execution foundation के रूप में देखने वाला 102-पेज का सर्वे

(code-as-harness.github.io)

4 पॉइंट द्वारा johnonlee 4 시간 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

UIUC × Meta × Stanford का संयुक्त काम। यह मई में arXiv पर आया सर्वे पेपर है, और इसका नज़रिया काफ़ी दिलचस्प है.

मुख्य दावा

"कोड अब सिर्फ़ वह output नहीं है जिसे LLM generate करता है। यह वह operational substrate है जिस पर एजेंट reasoning करता है, action लेता है, state store करता है, और feedback verify करता है।"

यानी, कोड सिर्फ़ एक .py फ़ाइल नहीं है, बल्कि वह पूरा संसार है जिसमें एजेंट रहता है। इस दृष्टिकोण को code as agent harness कहा गया है।

3-स्तरीय संरचना

पेपर एजेंट सिस्टम को 3 layers में बाँटकर विश्लेषित करता है:

① Harness Interface — कोड एजेंट को environment से किस तरह जोड़ता है

Program-of-Thoughts की तरह reasoning को कोड के रूप में externalize करके execute/verify करना
GUI/रोबोट नियंत्रण में generated program policy की तरह काम करता है
codebase, traces, simulator खुद environment को represent करते हैं

② Harness Mechanisms — लंबे समय तक execution को जारी रखने वाला control system

Planning: साधारण decomposition से आगे बढ़कर PLAN.md जैसी filesystem-आधारित persistent planning तक विकास। Meta-Harness harness design को ही search space मानता है
Memory: working/semantic/experiential/long-term/multi-agent + context compaction के आधार पर विश्लेषण। मुख्य बात यह है कि "memory कोई एक vector DB नहीं, बल्कि एक integrated state management layer है"
PEV Loop: Plan → Execute → Verify cycle को cybernetic governor के रूप में फिर से परिभाषित किया गया है। execution के लिए read-only → sandbox-edit → full-access(HITL) वाला 3-स्तरीय permission model
AHE: harness को खुद measure और optimize करने वाली meta layer

③ Scaling the Harness — multi-agent सिस्टम कोड नामक shared medium पर कैसे सहयोग करते हैं

एक दिलचस्प निष्कर्ष: "topology complexity, shared state representation की अपरिपक्वता से लगने वाला tax है" — जिन सिस्टमों में state अच्छी तरह डिज़ाइन की गई होती है, वे सरल संरचना में भी अच्छे से चलते हैं; जबकि जो implicit state पर निर्भर करते हैं, वे इस कमी की भरपाई जटिल topology से करते हैं

प्रभावशाली बिंदु

Context Compaction + State Offloading: सब कुछ context window में ठूँसने के बजाय, decision के लिए ज़रूरी सारांश ही active context में रखें और पूरा data MCP-style protocol से offload करें — यह वाकई बहुत practical टिप है
Verification को deterministic sensor की तरह: linter, type checker, tests, fuzzer जैसे deterministic feedback, LLM critique की तुलना में ज़्यादा भरोसेमंद control signal हैं
असफलता की वजह मॉडल नहीं, harness है: "ज़्यादातर agent failures अपर्याप्त repository context, fragile tool interfaces, weak verifiers, अत्यधिक token cost, और गलत retry policies से आते हैं"

Open Problems

पेपर द्वारा छोड़े गए 7 open problems में से:

final success से आगे का evaluation: intermediate traces, recovery attempts, और safety checks को भी first-class metrics माना जाए
regression के बिना harness improvement: failures से सीखते हुए मौजूदा behavior को तोड़े बिना सुधार कैसे किया जाए
multi-agent के बीच transactional shared state: जब कई agents एक साथ code modify करें, तब conflict resolution कैसे हो

संदर्भ

पेपर: https://arxiv.org/abs/2605.18747
साफ़-सुथरी summary site: https://code-as-harness.github.io/code-as-harness-webpage/
संबंधित पेपर संग्रह: https://github.com/YennNing/Awesome-Code-as-Agent-Harness-Papers