Pi coding agent बनाते समय सीखी गई बातें

(mariozechner.at)

15 पॉइंट द्वारा GN⁺ 2026-02-02 | 2 टिप्पणियां | WhatsApp पर शेयर करें

pi-coding-agent एक coding agent framework है जिसे जटिल फीचर्स को न्यूनतम रखते हुए इस तरह डिज़ाइन किया गया है कि उपयोगकर्ता context control और transparency पर पूरी पकड़ रख सके
इसके चार मुख्य घटक हैं: pi-ai, pi-agent-core, pi-tui, pi-coding-agent; जो क्रमशः LLM API integration, agent loop, terminal UI, और CLI integration संभालते हैं
system prompt और tool set को 1000 token से कम रखते हुए, सिर्फ read/write/edit/bash ये चार tools देने वाली अत्यधिक सरलता अपनाई गई है
security restrictions, sub-agents, plan mode, और MCP support को पूरी तरह हटाकर, उसकी जगह पूर्ण observability और control को महत्व दिया गया है
benchmark परिणामों और वास्तविक उपयोग अनुभव के आधार पर यह दिखाया गया है कि सरल और पारदर्शी डिज़ाइन, जटिल agents की तुलना में पर्याप्त रूप से प्रतिस्पर्धी हो सकता है

pi-ai और pi-agent-core

pi-ai Anthropic, OpenAI, Google, xAI, Groq आदि के लिए एक unified LLM provider integration API देता है
- इसमें streaming, tool calling, reasoning(trace) support, token और cost tracking, तथा browser compatibility शामिल हैं
- सिर्फ चार प्रमुख APIs(OpenAI Completions/Responses, Anthropic Messages, Google Generative AI) से अधिकांश models के साथ communication संभव है
यह हर provider के API differences को एकीकृत तरीके से संभालता है
- उदाहरण: max_tokens field name में अंतर, reasoning field की location, developer role का unsupported होना
- token reporting हर provider में अलग होने के कारण सटीक cost calculation संभव नहीं, इसलिए pi-ai best-effort आधार पर tracking करता है
Context handoff फीचर से session के बीच model या provider बदला जा सकता है
- उदाहरण: Anthropic → OpenAI → Google में स्विच करने पर reasoning contents `` tags में बदलकर संरक्षित रहते हैं
model registry के जरिए type-safe model definitions का support मिलता है
- OpenRouter और models.dev data को parse करके प्रत्येक model की cost और feature information अपने-आप generate की जाती है
request abort और partial result return का पूरा support है
- AbortController से streaming रोकने पर भी बीच का result वैसे ही उपयोग किया जा सकता है
tool result separation structure अपनाई गई है
- LLM के लिए text और UI display के लिए data अलग-अलग return किया जाता है, तथा TypeBox/AJV से arguments validation किया जाता है
- आगे चलकर tool result streaming फीचर जोड़ने की योजना है
agent loop message processing, tool execution, और result feedback को अपने-आप दोहराता है
- event-based structure होने से responsive UI लागू करना आसान होता है
- अनावश्यक control parameters(जैसे अधिकतम steps) हटाकर इसे सरल बनाया गया है

pi-tui

pi-tui Node.js-आधारित terminal UI framework है, जो बहुत कम flicker के साथ real-time updates देता है
- differential rendering के जरिए सिर्फ बदली हुई lines ही refresh की जाती हैं
- synchronized output sequence (CSI ?2026h/l) से flicker को न्यूनतम किया जाता है
दो TUI approaches में से, scrollback buffer बनाए रखने वाला CLI-style output approach चुना गया है
- इससे natural scrolling, search जैसी terminal की मूल सुविधाएँ वैसे ही मिलती रहती हैं
- इसकी संरचना Claude Code, Codex, Droid जैसी है
इसमें retained mode UI का उपयोग किया गया है
- हर component अपना render result cache करता है और सिर्फ बदलाव होने पर दोबारा render करता है
- पूरे screen को फिर से render किए बिना efficient updates संभव हैं
performance और memory usage बहुत कम हैं, और कुछ सौ KB स्तर पर बड़े sessions भी आसानी से संभाले जा सकते हैं

pi-coding-agent

pi-coding-agent एक CLI-आधारित coding agent है, जो ये सुविधाएँ देता है
- Windows/Linux/macOS support, session management(resume·branch), model switching, और project-specific AGENTS.md loading
- OAuth authentication, real-time theme change, HTML session export, और headless mode(JSON/RPC) support
system prompt 1000 token से कम की संक्षिप्त संरचना रखता है
- इसमें सिर्फ read/write/edit/bash ये चार tools बताए गए हैं
- अनावश्यक विवरण या जटिल नियम हटाए गए हैं, और उपयोगकर्ता AGENTS.md से इसे स्वतंत्र रूप से बढ़ा सकते हैं
tool set को न्यूनतम 4 tools तक सीमित रखा गया है
- सिर्फ read, write, edit, bash का उपयोग होता है, और यह अधिकांश coding tasks के लिए पर्याप्त है
- अतिरिक्त tools को वैकल्पिक रूप से enable किया जा सकता है (जैसे: grep, find, ls)
YOLO mode डिफ़ॉल्ट रूप से लागू है
- पूरे file system access और command execution पर कोई restriction नहीं है
- security prompt या pre-validation process हटाए गए हैं, और उसकी जगह container environment के उपयोग की सिफारिश की गई है
built-in To-do, Plan mode, MCP, Background bash, Sub-agent सब हटाए गए हैं
- To-do/Plan को सरल file-based management(TODO.md, PLAN.md) से बदला गया है
- MCP को token waste और complexity के कारण हटाया गया, और उसकी जगह CLI+README तरीका अपनाया गया
- Background bash के लिए tmux उपयोग करने की सिफारिश है
- Sub-agent को visibility की कमी के कारण निष्क्रिय रखा गया है; ज़रूरत पड़ने पर bash से खुद को कॉल किया जा सकता है
Observability को बहुत महत्व दिया गया है
- सभी commands, file access, और outputs पारदर्शी रूप से दिखाए जाते हैं
- यह Claude Code जैसे अन्य agents की “black box” संरचना से अलग है

Benchmarks

Terminal-Bench 2.0 में Claude Opus 4.5 model के साथ testing की गई
- Codex, Cursor, Windsurf आदि की तुलना में प्रतिस्पर्धी performance हासिल की गई
- result file(results.json) को सार्वजनिक repository में जमा किया गया
Terminus 2 जैसे सरल agents ने भी समान प्रदर्शन दिखाया, जिससे minimal approach की प्रभावशीलता सिद्ध हुई

निष्कर्ष

pi एक coding agent है जो जटिल फीचर्स से अधिक context control, simplicity, और transparency को प्राथमिकता देता है
वास्तविक उपयोग और benchmarks दोनों में इसने बड़े agents के बराबर efficiency दिखाई
आगे जो फीचर्स जोड़े जाने की योजना है, वे मुख्यतः context compaction और tool result streaming हैं
यह project open source के रूप में उपलब्ध है, और fork तथा extension की स्वतंत्रता देता है
मुख्य सीख यह है: “सरलता ही नियंत्रण है, और नियंत्रण ही उत्पादकता है”

2 टिप्पणियां

xguru 2026-02-02

Pi: OpenClaw के मूल और बेहद सरल बनाए गए डेवलपर-उन्मुख AI एजेंट का विश्लेषण

GN⁺ 2026-02-02

Hacker News की राय

लगता है आपने वाकई एक शानदार और विचारपूर्ण प्रोजेक्ट बनाया है
मैं भी context engineering और ट्री-आधारित बातचीत संरचना की अहमियत से पूरी तरह सहमत हूँ
मौजूदा linear conversation flow बहुत सीमित है, इसलिए research या idea generation के समय LLM के साथ सहयोग करना असुविधाजनक लगता था
मैंने भी इसी तरह की सोच के साथ एक personal tool बनाया था, जिसमें context को अच्छी तरह बनाकर reuse किया जाता था, या side quest चलाकर सिर्फ अच्छे नतीजे वापस लाए जाते थे
आपने जो version बनाया है, वह इससे कहीं ज़्यादा मूल्यवान implementation है। इसकी वजह से Pi के बारे में जानकर खुशी हुई
- मैंने भी ऐसा ही एक प्रयास किया था। MIND_MAP.md नाम की Markdown फ़ाइल को graph के रूप में manage करते हुए citations को inline रिकॉर्ड करता हूँ
  यह sessions के बीच memory बनाए रखता है और sub-agent बनाते समय context waste कम करता है
  मेरा example code देखा जा सकता है
OpenClaw और Pi-agent का रिश्ता कुछ ollama/llama-cpp जैसा लगता है
पहले वाले पर ज़्यादा ध्यान जाता है, लेकिन असल में दूसरा ज़्यादा प्रभावशाली है
Claude Code अभी subscription benefits की वजह से ठीक है, लेकिन जब market स्थिर हो जाएगा और API pricing के करीब आ जाएगा, तब token-based paid premium experience शायद बेहतर विकल्प होगा
आखिरकार customizable agent framework बंद ऐप्स से बेहतर स्थिति में होंगे
- मेरा मानना है कि API कीमतें और नीचे जा सकती हैं, और Claude Code के subscription benefits और बढ़ सकते हैं
  inference cost structure उम्मीद से ज़्यादा efficient है, और R&D funding भी पर्याप्त है
  सभी tools लगातार बेहतर हो रहे हैं, और competing products भी परफेक्ट नहीं हैं
- Pi में subscription integration भी संभव है। OpenAI ने Pi में GPT subscription इस्तेमाल करने की अनुमति दी है
  निजी तौर पर मुझे खुशी है कि Peter के project को ध्यान मिल रहा है
  OpenClaw की तरफ अभी भी बहुत सारे PR आते हैं, लेकिन Pi में वे उसका लगभग 1/100 हैं, इसलिए manage करना बहुत आसान है
- यह लगभग ChatGPT और GPT-3 के रिश्ते जैसा ही मामला है
  OpenAI ने भी कहा था, “समझ नहीं आता ChatGPT इतना लोकप्रिय क्यों है, GPT तो पहले से API के रूप में मौजूद था”
- मुझे लगता है कि यह भी ollama की तरह अंत में enshittification (गुणवत्ता में गिरावट) की तरफ जा सकता है
- इसका नाम “pi” होना थोड़ा confusing है। पहले से एक और प्रसिद्ध “Pi” है, तो यही नाम क्यों चुना गया, यह सवाल है
यह हैरानी की बात है कि Google अब तक tool call streaming को support नहीं करता
वह local tokenizer भी उपलब्ध नहीं कराता, इसलिए AI Studio हर बार token गिनने के लिए API call करता है, जो काफी inefficient structure है
- AI Studio में एक bug है जिसमें input न होने पर भी यह लगातार tokens गिनता रहता है
  CPU usage 100% तक चला जाता है, ऐसा लगता है जैसे मेरा laptop किसी TPU cluster से भी ज़्यादा बिजली खा रहा हो
- सच तो यह है कि Anthropic भी tokenizer उपलब्ध नहीं कराता
दूसरे coding agents की ज़्यादातर security measures सिर्फ security theater हैं
Codex commands को OS sandbox (जैसे macOS Seatbelt) के भीतर चलाता है, इसलिए यह पूरी तरह बेकार तो नहीं है
- मेरा मानना है कि read के अलावा हर tool call के लिए manual approval process होना चाहिए
  भले यह झंझट भरा हो, लेकिन गलत command को recover करने से बेहतर है
- मेरा Codex जब sandbox के बाहर के SDK को patch करने के लिए कहा जाता है, तो Python से फ़ाइल modify कर देता है
- agent को container के बाहर चलाना खतरनाक है। यह तो बिल्कुल बुनियादी बात है
- मैंने Codex को GitHub repo से जोड़कर PR अपने-आप बनाने के लिए सेट किया है
  वह DB को नहीं छूता, सिर्फ UI और middle-layer code में बदलाव करता है
- क्या Codex भी Claude Code की तरह मनमाने ढंग से sandbox disable कर देता है, यह जानने की जिज्ञासा है
- YOLO mode सिर्फ container के भीतर ही इस्तेमाल होना चाहिए। access को सिर्फ ज़रूरी resources तक सीमित रखना चाहिए
मैंने पहले ही कुछ power users को Pi पर switch करते देखा है, और मैं खुद भी इस पर विचार कर रहा हूँ
Pi की ताकत है context पर पूरा control और extensible tool structure
system prompt, todo extensions, MCP adapters जैसी कई examples मौजूद हैं
अगर आप context performance limits या context rot, contextual drift जैसी समस्याओं को समझते हैं, तो Pi की value साफ़ हो जाती है
संबंधित links का संग्रह
- Pi, moltXYZ का वह हिस्सा है जिस पर सबसे ज़्यादा ध्यान मिलना चाहिए
  Armin वाकई अपने समय से आगे है
  Claude Code में अभी भी hooks और context management उथले स्तर के हैं
मैं अभी भी Cursor इस्तेमाल कर रहा हूँ
Claude Code पर जाने की कोशिश की थी, लेकिन मेरी छोटी codebase में Cursor काफ़ी तेज़ है
हालाँकि diff-review UI का Git के साथ integrated न होना असुविधाजनक है
AI द्वारा किए गए changes और मेरे अपने changes में फर्क करना मुश्किल है, और मुझे लगता है कि Git-integrated review ज़्यादा महत्वपूर्ण है
- Cursor की ताकत short feedback loop है
  Claude Code में ऐसा लगता है कि परिणाम पर भरोसा करके छोड़ देना पड़ता है, जो असहज बनाता है
  models को स्वतंत्र रूप से बदल पाने की क्षमता ही असली बात है। language या task type के हिसाब से model performance अलग होती है
- अगर आप VS Code के लिए Claude Code extension install करें, तो large codebase exploration और CC integration दोनों का लाभ एक साथ मिल सकता है
- Claude Code में default रूप से project index नहीं होता, इसलिए यह files को एक-एक करके खोजता है
  मैंने startup पर file list को context में डालने वाला hook बनाया, जिससे speed बेहतर हुई
  कई files को एक साथ edit करने वाला custom tool भी बनाया, जिससे लगभग 3 गुना तेजी मिली, लेकिन कुछ edge cases की वजह से उसे disable कर दिया
- मैं भी bootstrap solo developer हूँ, और Claude को छोटे tasks automate करने के लिए इस्तेमाल करता हूँ
  जैसे frontend test automation या landing page edits
  main features को मैं अलग Claude instance में tight feedback loop के साथ manage करता हूँ
- Cursor भी सुधार कर रहा है। जल्द ही AI-authored line tracking (blame) feature आएगा, जिससे पता चल सकेगा कि कौन-सी line किस model ने किस prompt से लिखी
minimal agent architecture पर लिखी गई बात प्रभावशाली लगी
“ज़रूरत न हो तो मत बनाओ” वाली philosophy पसंद आई
मैं OpenClaw का उपयोग कई workflows को parallel manage करने के लिए करता हूँ — customer support, deployment monitoring, code review आदि
असली कुंजी context engineering है
OpenClaw का workspace-first model AGENTS.md, TOOLS.md, memory/ directory के ज़रिए sessions के बीच learning जारी रखता है
आप logs में agent को खुद सीखते हुए देख सकते हैं
security theater के बजाय realistic threat model को स्वीकार करने वाला यह approach अच्छा लगा
यह बात भी सही लगी कि कई specialized agents को parallel रखना एक general-purpose agent से बेहतर है
Pi और OpenClaw की Terminal-Bench में तुलना करना दिलचस्प होगा
Armin Ronacher ने Pi क्यों इस्तेमाल किया, इस पर लिखा गया लेख अच्छा लगा
Armin की post देखकर मुझे पहली बार पता चला कि Pi, OpenClaw का agent harness है
Pi की JavaScript-आधारित संरचना browser sandbox architecture के साथ अच्छी तरह फिट बैठती है
मुझे लगता है कि यह AI agents की भविष्य दिशा के लिए उपयुक्त है
हालाँकि अच्छा होता अगर लेखक vendor extensions को लेकर थोड़ा और flexible होता
संबंधित चर्चा
- “intersection को standardize करो, और union को expose करो” यह अभिव्यक्ति काफ़ी प्रभावशाली लगी
मैं अभी भी YOLO mode इस्तेमाल नहीं कर रहा हूँ
tooling को पूरी तरह तैयार होने में शायद 6 महीने और लगेंगे
agents को मनमाने commands चलाने की ज़रूरत बहुत कम होती है
अगर lint, search, edit, और web access को permission system में integrate कर दिया जाए, तो वही काफ़ी है
Deno या Workerd जैसे sandboxing और permission control वाले runtimes पहली defense line बन सकते हैं
इसलिए Anthropic ने Bun को चुना, यह समझना मुश्किल है — उसकी security architecture लगभग नहीं के बराबर है

Pi coding agent बनाते समय सीखी गई बातें

pi-ai और pi-agent-core

pi-tui

pi-coding-agent

Benchmarks

निष्कर्ष

संबंधित पढ़ाई

2 टिप्पणियां

Hacker News की राय