Code w/ Claude में घोषित सभी बातें

xguru · 2026-05-14T11:50:02+09:00

Anthropic का developer conference: यह online और offline दोनों तरह से आयोजित हो रहा है, और offline कार्यक्रम San Francisco 5/6, London 5/19, Tokyo 6/10 में होंगे। San Francisco कार्यक्रम के 19 sessions के वीडियो जारी किए गए Claude लंबे काम करने, long-term memory, ज़्यादा tools इस्तेमाल करने, और बेहतर verification की दिशा में विकसित हो रहा है मुख्य बदलाव यह है कि जो iterative execution, tool selection, verification, memory, context management पहले developers खुद बनाते थे, वे अब Claude product और platform के भीतर आ रहे हैं products और organizations के differentiation का केंद्र अब model को कैसे call किया जाता है, यह नहीं; बल्कि model के लिए कौन-से tools, data, permissions, context खोले जाते हैं, यह बनता जा रहा है सिर्फ code लिखने से ज़्यादा verification, security, permission management, observability, evaluation framework, organizational operations नए bottleneck बनते जा रहे हैं आगे महत्वपूर्ण क्षेत्र custom tools, भरोसेमंद memory, evaluation, security boundaries, context engineering, agent experience होंगे सेशन 1 - Keynote फोकस उन product improvements पर था जो Claude Code और Claude Platform को developers के लिए बेहतर काम करने लायक बनाते हैं ज़्यादातर users Claude API या terminal को सीधे इस्तेमाल करने के बजाय, developer द्वारा बनाए गए products के भीतर Claude का उपयोग करते हैं Claude Platform API usage साल-दर-साल लगभग 17 गुना बढ़ी है Claude Code का औसत developer हर हफ्ते 20 घंटे Claude चलाता है Claude Code की 5-घंटे usage limit को Pro, Max, Team, और seat-based Enterprise plans में दोगुना कर दिया गया है Claude Opus API limits भी काफ़ी बढ़ाई गई हैं SpaceX के Colossus One data center की capacity का उपयोग करके individual developers और small teams को अधिक compute resources देने की योजना है Opus 4.7 ने Amp, Rakuten, और Intuit में coding agent performance, planning quality, और real engineering task solve rate को बेहतर बनाया आगे का Claude बेहतर judgment, बड़ा context और memory, और multi-agent collaboration की दिशा में जा रहा है सेशन 2 - What's new in Claude Code Claude Code की नई features को दो धुरियों में बाँधा गया है: developer usability और autonomy को मज़बूत करना Remote Control terminal में शुरू किए गए session को web या mobile पर आगे जारी रखने देता है Full screen terminal UI virtual scrollback का उपयोग करके बिना flicker वाला rendering और clickable tool call screen देता है Claude Code GUI को इस तरह बदला गया है कि कई sessions को pin, filter, group, और split screen में manage किया जा सके plan view, diff view, और files view में line-level comments छोड़े जा सकते हैं, जिन्हें Claude बाद में इकट्ठा करके process कर सकता है Auto Mode tool calls को destructive होने या prompt injection जैसा दिखने के आधार पर classify करता है, और सुरक्षित होने पर permission confirmation के बिना चलाता है worktree कई Claude sessions को अपने-अपने isolated branch और file copies में parallel काम करने देता है auto memory में Claude project-specific memory.md और संबंधित files को manage करता है, और build commands, debugging clues, तथा project preferences को अगले sessions में फिर इस्तेमाल करता है Routines और /loop cron, GitHub webhook, और API trigger के ज़रिए Claude Code sessions को अपने-आप चलाने देते हैं सेशन 3 - Memory and dreaming for self-learning agents Memory को MCP, Claude Code, Agent SDK, और Skills के बाद अगले मूल building block के रूप में देखा गया Claude Managed Agents की memory को file system की तरह संगठित किया गया है, ताकि Claude खुद Bash और Grep से उसे व्यवस्थित और अपडेट कर सके Opus 4.7 यह बेहतर तय करता है कि क्या store करना है, files को कैसे बाँटना है, और memory structure को कैसे बनाए रखना है कई agents एक ही memory store को पढ़ और लिख सकें, इसके लिए read-only organizational memory और read-write working memory को अलग किया जा सकता है सैकड़ों agents एक साथ memory बदलें तब भी overwrite न हो, इसके लिए content hash-based optimistic concurrency control इस्तेमाल किया जाता है change history, author, session, timestamp को रिकॉर्ड करके enterprise environment में memory को auditable बनाया जाता है Dreaming हाल के agent sessions और transcripts का asynchronous analysis करके दोहराई जाने वाली गलतियाँ, सफल रणनीतियाँ, duplicate memory, और पुरानी memory को ढूँढ़कर व्यवस्थित करता है Harvey ने Dreaming को legal benchmark पर लागू करके एक legal scenario की task completion rate को 6 गुना बढ़ाया SRE demo में Dreaming ने 60-second retry pattern को खोजकर memory में जोड़ा, जिसे कई agents अलग-अलग देखने पर चूक रहे थे लक्ष्य ऐसी continuous learning structure बनाना है जिसमें आज का agent work कल के agent को अपने-आप बेहतर बनाए सेशन 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale GitHub Copilot के scale पर prompt caching cost और latency कम करने का मुख्य साधन बन जाता है target cache hit rate 94-96% है, और 70% के आसपास का स्तर prompt assembly या caching design में समस्या का संकेत माना जाता है system prompt और tool list के शुरुआती हिस्से को जितना हो सके static रखना चाहिए अगर UUID, timestamp, या dynamic tool loading शुरुआती हिस्से में आ जाए, तो cache आसानी से टूट जाता है कई models के बीच जाने वाले harness में भी cache affinity बनाए रखनी चाहिए, ताकि Opus calls पहले के cache को reuse कर सकें GitHub नए models को offline benchmark, internal use, A/B testing, online evaluation (eval), post-launch optimization के क्रम में चलाता है Advisor strategy में सस्ता execution model ज़्यादातर काम करता है, और सिर्फ़ महत्वपूर्ण judgment की ज़रूरत होने पर Opus को advisor के रूप में बुलाया जाता है model से ज़्यादा prompt, tools, cache, model selection, evaluation, online feedback को जोड़ने वाली operational layer quality और cost तय करती है सेशन 5 - The expanding toolkit जो auxiliary code पिछले साल तक developers खुद बनाते थे, वह अब model और API के भीतर शामिल होता जा रहा है tool use में manual routers या retry decorators की अहमियत कम हो रही है Claude खुद tools खोज सकता है, failed tool calls को देखकर recover कर सकता है, और फिर दोबारा call कर सकता है tool guidance में inputs के साथ output schema भी लिखना बेहतर होता है output structure पहले से पता हो, तो Claude बिना अनावश्यक round trips के नतीजों का बेहतर उपयोग कर सकता है Claude Code के pre/post tool hooks का उपयोग खास calls को रोकने या results को अपने-आप log और analyze करने में किया जा सकता है 10 लाख token context, server-side compression, context editing के कारण लंबे tasks का context management सरल हो जाता है पुराने screenshots, search results, और file read results को समय-समय पर हटाया जा सकता है, जबकि उनसे बने judgments को बरकरार रखा जा सकता है Opus 4.7 अधिकतम 1440p तक के original resolution screenshots में 1:1 pixel coordinates लौटाता है, जिससे screen automation में coordinate correction का बोझ कम होता है model limitations की भरपाई करने वाला code कम उम्र का होता है, जबकि Claude जो नहीं देख सकता, ऐसे tools, data, authentication, domain context को जोड़ने वाला code लंबे समय तक टिकता है सेशन 6 - Claude Managed Agents के साथ production तक तेज़ी से कैसे पहुँचे Claude Managed Agents लंबी अवधि तक चलने वाले production agents के लिए ज़रूरी context management, credential management, security, access control, human review, observability को एक platform में समेटता है इसकी बुनियादी संरचना agent configuration, environment, और session है session events के ज़रिए user events, agent events, session events, और segment events देखे जा सकते हैं Console एक ही स्क्रीन पर settings, environment, पूरा execution trace, bottlenecks, recommended actions दिखाता है outcomes ऐसा feature है जो Claude को पहले से तय termination criteria और scoring criteria पूरे होने तक दोहराव करने देता है कई agents का orchestration, memory, और Dreaming को advanced features के रूप में साथ में कवर किया जाता है dashboard demo में agent ने parallelization, fast mode, और prompt optimization खोजकर rendering time को लगभग 37 सेकंड से 10 सेकंड तक घटा दिया production agents के लिए सिर्फ model call loop नहीं, बल्कि tracing, bottleneck analysis, permissions, validation भी साथ में होना चाहिए सेशन 7 - A conversation with Dario Amodei & Daniela Amodei Anthropic में उम्मीद से तेज़ usage और revenue growth के कारण compute resources की कमी हो गई कंपनी अतिरिक्त compute capacity हासिल करके developers और users तक ज़्यादा पहुंचाना चाहती है developers को Claude के मुख्य users और AI के पूरी अर्थव्यवस्था में फैलने का शुरुआती संकेत देने वाले समूह के रूप में देखा जाता है Claude Code का अगला बदलाव personal productivity से team और organizational productivity की ओर बढ़ रहा है code लिखने की रफ़्तार बढ़ने के साथ security, validation, reliability, maintenance नए bottlenecks बन जाते हैं model capabilities तेज़ी से बदलने के कारण कुछ महीने पहले तक असंभव दिखने वाले products अचानक संभव हो जाते हैं API market आगे भी महत्वपूर्ण रहेगा आगे का Claude एक व्यक्ति के काम में मदद करने से आगे बढ़कर पूरे organization में कई लोगों और कई agents के काम को scale करने की दिशा में जाएगा सेशन 8 - Live coding session with Boris Cherny and Jarred Sumner Bun का Robobun GitHub issues को अपने-आप reproduce करता है और tests सहित PR बनाता है पुराने version में failure और fix branch में pass होने की शर्त को PR submission criteria बनाया जाता है CLAUDE.md agent operations document बन जाता है, जिसमें build commands, test commands, test locations, past failure patterns, folder structure, और CI logs पढ़ने का तरीका शामिल होता है CodeRabbit, Claude Code Review, और Robobun को साथ इस्तेमाल करके style, CLAUDE.md compliance, और diff के बाहर edge cases की review को automate किया जाता है Claude Code और Opus 4.7 उन कामों के लिए उपयुक्त हैं जहाँ goal, measurement method, और validation loop स्पष्ट हों और performance को धीरे-धीरे ऊपर ले जाना हो bottleneck code writing से हटकर planning और validation की ओर जा रहा है agent द्वारा बनाया गया PR ऐसा output नहीं होना चाहिए जिसे अनिवार्य रूप से merge करना ही पड़े, बल्कि उसे review किए जा सकने वाले proposal की तरह माना जा सकता है agent PR बढ़ने पर भी human merge criteria कम नहीं होते, बल्कि और सख्त हो सकते हैं सेशन 9 - Building with Claude Managed Agents and Asana AI teammates Asana के AI teammates का लक्ष्य ऐसे agents बनाना है जो enterprise के अंदर वास्तविक सहकर्मियों की तरह काम करें agents actor बनकर approvals, workflows, और multi-step tasks को लोगों के साथ मिलकर संभालते हैं कई enterprises में agents का उपयोग अभी भी single-user flow तक सीमित है, जहाँ एक व्यक्ति result लेकर उसे अगले व्यक्ति को सौंप देता है Asana ऐसा collaborative workflow चाहता है जहाँ कई लोग एक ही agent के साथ interact करें और knowledge व memory इकट्ठा होती जाए Asana work graph goals, portfolios, projects, tasks, approvals, और past decisions को जोड़कर agent context के रूप में इस्तेमाल होता है AI teammate shared configuration, role-based access control, auditability के साथ सिस्टम में किसी मानवीय सहकर्मी की तरह प्रवेश करता है Claude Managed Agents campaign brief लिखने और HTML landing page mockup बनाने जैसे multi-step tasks संभालता है Asana human interface, enterprise context, security, और auditability पर ध्यान देता है, जबकि Claude Managed Agents validation loops, graders, outcomes, और multi-agent execution संभालता है 21 से अधिक prebuilt AI teammates PMO, marketing, IT, HR, और R&D कार्यों के लिए उपलब्ध कराए जाते हैं feedback agent memory में रह जाता है ताकि अगला user वही गलती दोबारा न दोहराए सेशन 10 - Running an AI-native engineering org AI-native engineering organization में code writing throughput सबसे महंगा bottleneck नहीं रह जाता validation, review, security, maintenance, cross-functional coordination नए bottlenecks के रूप में बढ़ते हैं 6 महीने के roadmap या हर काम से पहले design documents की बजाय सही समय पर planning और तेज़ prototyping वाला flow Claude Code team के लिए बेहतर बैठता है technical debates लंबे whiteboard discussion की जगह कई implementation PRs बनाकर उनके वास्तविक असर और API shape की तुलना करने की ओर बढ़ते हैं code generation आसान होने के साथ testing, automation, और पहले validation का महत्व और बढ़ जाता है "यह code किसने लिखा" से ज़्यादा महत्वपूर्ण यह अलग करना हो जाता है कि regression का कारण क्या है, expert answer की ज़रूरत है या नहीं, और context किस उद्देश्य से जुटाना है Claude Code team style, lint, PR feedback, कुछ bug fixes, और tests जोड़ने जैसे काम Claude को सौंपती है legal review, security-sensitive code, trust boundaries, product sense अब भी human experts देखते हैं hiring में साधारण throughput से ज़्यादा product sense वाले creative builders और deep systems expertise को महत्व दिया जाता है success metrics को कम onboarding time, कम PR cycle time, और Claude-assisted commits में वृद्धि के रूप में देखा जा सकता है सेशन 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey Gamma tool calling और agent orchestration में हुए सुधारों को तेज़ी से product में लागू कर agent-based editing flow को मज़बूत करता है Gamma MCP connector का उपयोग सिर्फ integration feature के रूप में नहीं, बल्कि customer acquisition और workflow entry point के रूप में भी करता है Cognition ने models के code editing, file system usage, और long-running planning में बेहतर होने पर अपने कुछ planning और memory systems को कम किया Harvey foundation model, reasoning model, और coding agent के हर inflection point पर product architecture को फिर से डिज़ाइन करता है Harvey की मौजूदा platform capability agent-native architecture के बिना हासिल करना मुश्किल था AI-native products को यह मानकर चलना चाहिए कि 6-12 महीनों के भीतर मौजूदा architecture पुराना पड़ सकता है logging, observability, replay, evaluation तेज़ architectural बदलावों से निपटने के लिए आवश्यक तंत्र बन जाते हैं कानून जैसे संवेदनशील क्षेत्रों में public data, private data, memory, और agent flows के बीच मज़बूत data boundaries की ज़रूरत होती है किसी खास model limitation पर आधारित architecture से अधिक महत्वपूर्ण ऐसा architecture है जो capability के अगले बड़े jump को तेज़ी से absorb कर सके सेशन 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch Vercel एजेंट-आधारित इन्फ्रास्ट्रक्चर को अपनी मुख्य दिशा मानता है cloud ऐसे इन्फ्रास्ट्रक्चर तक फैल सकता है जो खुद को recover करे, optimize करे और settings बदले AI Gateway को tokens के लिए CDN की तरह देखा जा रहा है यह कई providers और models को संभालते हुए routing, fault handling और cost control की layer बनता है Opus tokens में उपयोग हिस्सेदारी की तुलना में खर्च हिस्सेदारी कहीं अधिक है, इसलिए high-intelligence model को product में जोड़ते समय cost structure को साफ़ तौर पर देखना चाहिए Opus 4.5 अपनाने के बाद V0 grammar checking, auto-fix और कुछ processing steps को सरल कर सका, जो पहले पुराने model को compensate करते थे model capabilities में छलांग केवल नए features जोड़ने तक सीमित नहीं रहती, बल्कि मौजूदा compensation code हटाने जैसे बदलाव भी लाती है V0 में Opus के उपयोग बढ़ने के बाद product credit spend 2x हो गया आगे चलकर CLI और UI-आधारित development के अलावा asynchronous और कम human supervision वाले agents भी अधिक बड़े हो सकते हैं सत्र 13 - The thinking lever test-time compute वह axis है जिसमें Claude inference के दौरान अधिक tokens और समय लगाकर कठिन समस्याएँ हल करता है वही Opus 4.7 भी low, high, max effort के अनुसार traffic simulation quality में बड़ा अंतर दिखाता है जितना अधिक समय और tokens खर्च किए जाते हैं, graphics, traffic flow और vehicle movement उतने ही अधिक realistic हो जाते हैं Claude के tokens को thinking tokens, tool-calling tokens और text tokens में बाँटा जाता है thinking tokens internal reasoning के लिए, tool-calling tokens बाहरी दुनिया के साथ interaction के लिए, और text tokens user से communication के लिए उपयोग होते हैं effort समय, लागत और quality के संतुलन को दिखाने वाला control knob है Task Budgets Claude को किसी खास task में उपयोग किए जा सकने वाले tokens, समय और लागत की upper limit तय करने देता है adaptive thinking Claude को ज़रूरत के अनुसार सोचना, tools का उपयोग करना और user को जवाब देना—इनका क्रम स्वतंत्र रूप से चुनने देता है coding और agentic use case में extra high को अच्छा default माना जाता है साधारण बड़े पैमाने की classification या extraction के लिए छोटे models बेहतर होते हैं, जबकि intelligence-भरे tasks को जल्दी खत्म करने के लिए बड़े model का low effort अधिक अच्छा हो सकता है सत्र 14 - How Datadog built a universal machine tool for Claude Code Datadog engineers के लगभग 90% production code पर AI coding tools का उपयोग करते हैं उनमें से कम-से-कम 2/3 Claude Code का उपयोग करते हैं AI coding tools का उपयोग individual functions, tests और glue code से बढ़कर system-level tasks तक फैल रहा है bottleneck code writing से feedback iteration और production validation की ओर खिसक गया है Helix experiment में Claude Code कुछ ही दिनों में Kafka जैसी streaming service बना सका इसे production environment में ले जाने के लिए shadowing, validation ladder और system mileage की ज़रूरत होती है Tempor agents को ad hoc tools तुरंत बनाने के बजाय पहले state, transitions, effects और invariants वाला blueprint बनाने देता है transition tables, policy docs, typed effects, validators, property tests agent द्वारा बनाए गए software को inspectable बनाते हैं agent को आज़ादी देनी है तो production systems के invariants और validation procedures को machine-readable बनाना होगा सत्र 15 - Building with Claude on Google Cloud Google Cloud पर Claude Code सेट करने का सबसे आसान तरीका Application Default Credentials-आधारित setup wizard है setup wizard project, region और उपलब्ध model को detect करके pin कर सकता है Google Cloud पर Claude model उपयोग करने से token-based billing, provisioned throughput, API key rotation burden में कमी, project policies का application, project के भीतर data retention, regional/global endpoint जैसे लाभ मिलते हैं demo पाँच भूमिकाओं—PM, UI/UX designer, software engineer, security engineer और data/growth marketer—के साथ एक feedback app को शुरू से अंत तक बनाने के flow में चलता है PM hand-drawn wireframe को Claude Code में डालकर जल्दी prototype बनाता है UI/UX चरण में plan mode का उपयोग करके Claude से implementation से पहले planning निकलवाई जाती है Google Cloud developer knowledge API और MCP server Claude Code को नवीनतम docs और architecture guidance से जोड़ते हैं Google Cloud Skills का उपयोग Cloud Run API deployment, Cloud Run और Firestore connection जैसे individual blocks के implementation में मदद के लिए होता है sub-agent का उपयोग करके API, ingestion pipeline और dashboard implementation को parallel में आगे बढ़ाया जाता है security review prompt OWASP issues या service account permissions की जाँच करता है, मिले हुए issues को ठीक करता है और फिर Cloud Run पर deploy करता है सत्र 16 - Getting more out of the Claude Platform production agents को optimize करने की प्राथमिकताएँ prompt caching, context engineering और Advisor strategy हैं prompt caching input token cost घटाता है, first token तक का समय कम करता है और cached tokens की usage-limit burden को कम करता है cache hit rate के लिए 90% range को लक्ष्य माना जाता है शुरुआती prompt की stability, tool definitions की position और dynamic values कहाँ insert की जाती हैं—ये सब cache को प्रभावित करते हैं tool search tool ज़रूरत के समय सिर्फ़ आवश्यक tool definitions लाकर context बचाता है अगर शुरुआत से ही सभी tools डाल दिए जाएँ तो context और cache दोनों पर बोझ बढ़ता है programmatic tool calling बहुत से tool results को जस का तस डालने के बजाय केवल ज़रूरी हिस्से चुनकर context में रखता है compaction पुराने conversations और tool results को घटाकर लंबे tasks को जारी रखने देता है Advisor strategy में Sonnet या Haiku ज़्यादातर काम करते हैं, और केवल महत्वपूर्ण judgment की ज़रूरत होने पर Opus को advisor के रूप में बुलाया जाता है मुख्य बात models को ज़्यादा बार बुलाना नहीं, बल्कि यह design करना है कि models किस context, tools और cache structure में काम करेंगे सत्र 17 - Evaluating and improving Replit Agent at scale Replit Agent के users उम्मीद करते हैं कि framework या test बताए बिना केवल natural language से काम करने वाला app बन जाए सामान्य coding benchmarks की तरह सिर्फ़ यह देखना कि patch tests pass करता है या नहीं, Replit Agent की quality मापने के लिए काफ़ी नहीं है evaluation को यह देखना चाहिए कि app user के अनुरोध के अनुसार काम करता है या नहीं Replit offline evaluation और online evaluation दोनों का साथ में उपयोग करता है offline evaluation नई agent release से पहले gate की तरह काम करता है, और online evaluation वास्तविक उपयोग के बाद तेज़ response के लिए इस्तेमाल होता है VibeBench एक public benchmark है जिसमें 20 वास्तविक PRD input के रूप में दिए जाते हैं, खाली repository से app बनाया जाता है, और automated evaluator browser में app को test करता है अधिकांश models अपने ही बनाए code को आगे बढ़ाकर expand करने में अधिक कठिनाई महसूस करते हैं features के बीच testing और validation steps रखने चाहिए, ताकि डगमगाती नींव पर लगातार निर्माण कम हो Telescope एक internal system है जो production execution traces को semantic आधार पर समूहित करके long-tail failures ढूँढता है, issues को classify करता है, agent से PR बनवाता है, और VibeBench या A/B tests से validate करता है evaluation आख़िरी release checklist नहीं, बल्कि agents को हर दिन बेहतर बनाने वाला engine बन जाता है सत्र 18 - The capability curve Claude Code उपयोगकर्ता पिछले साल की तुलना में ज़्यादा भरोसे के साथ तेज़ी से deploy कर रहे हैं प्रस्तुति के दौरान प्रतिभागियों के मतदान में कई लोगों ने बताया कि Claude के साथ उन्हें 10x, 5x, 2x speed improvement महसूस हुआ SWE-bench Verified में Sonnet 3.7 ने लगभग 62% और Opus 4.7 ने 87% स्कोर किया Opus 4.7 के लिए उन कठिन PRs को सफलतापूर्वक पूरा करने की संभावना 3 गुना से अधिक थी, जिनमें Sonnet 3.7 विफल हो जाता था उसी prompt के साथ Claude.ai को दोबारा बनाने वाले डेमो में पुराने मॉडल ने सामान्य chat UI और errors दिए, जबकि Opus 4.7 ने Claude colors, API responses, chat history, inline graphics और dark mode लागू किया जिन क्षेत्रों में सुधार हुआ है, वे हैं planning, error recovery, और लंबे execution के दौरान ध्यान बनाए रखना नया मॉडल पहले plan करता है, असफल होने पर वापस जाता है, और लंबे context में भी system prompt और goal को बेहतर बनाए रखता है वास्तविक सुधार देखने के लिए ऐसे evaluations बनाने होंगे जिनका distribution product के करीब हो जैसे-जैसे मॉडल बेहतर होते जाते हैं, मौजूदा evaluations जल्दी saturate हो जाते हैं, इसलिए evaluations को भी लगातार अधिक कठिन बनाना होगा नया frontier model आने पर मौजूदा calibration process और prompts को फिर से कम करके देखना ज़रूरी हो सकता है सत्र 19 - Giving coding agents their own computers: How Cursor built cloud agents Cursor का मानना है कि bottleneck model intelligence से ज़्यादा इस बात में है कि इंसान मॉडल को पर्याप्त tools, context और बड़े goals नहीं दे पाते जैसे किसी human developer को onboard किया जाता है, वैसे ही agents को भी कंप्यूटर, development environment और documentation मिलनी चाहिए Cursor का onboarding agent repository को explore करता है और समझता है कि app कैसे चलाना है, कौन-सी services हैं, environment variables क्या हैं, और permissions कैसी हैं AnyDev CLI ऐसा tool है जो agents को services शुरू करने, readiness का इंतज़ार करने, status जांचने, और test account बनाना या login तक संभालने में मदद करता है agent development environment जितना बेहतर होता है, developers उतने अधिक cloud agents चलाते हैं और उन्हें बड़े tasks सौंपते हैं autonomy का मूल सिद्धांत है agents को आँखें, tools और अच्छा context देना agents को इंसानों की तरह app state, दूसरे agents की बातचीत और service status देखने में सक्षम होना चाहिए Cursor के लिए computer use coding के बाद अगला महत्वपूर्ण foundational element है Claude 4.7 agents को खुद end-to-end demo record करके feature verify करने देता है, जिससे code review से पहले इंसान जल्दी से परिणाम समझ सकते हैं Cursor agent experience को एक अलग design target मानता है, और जब agents किसी परेशान करने वाले, टूटे हुए या भ्रमित करने वाले flow से टकराते हैं, तो उसे work on the factory issue के रूप में छोड़ते हैं अंतिम लक्ष्य यह नहीं है कि इंसान हाथ पकड़कर A से D तक ले जाए, बल्कि ऐसी system बनाना है जो A से Z तक हल कर सके

(claude.com)

9 पॉइंट द्वारा xguru 5 시간 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

Anthropic का developer conference: यह online और offline दोनों तरह से आयोजित हो रहा है, और offline कार्यक्रम San Francisco 5/6, London 5/19, Tokyo 6/10 में होंगे। San Francisco कार्यक्रम के 19 sessions के वीडियो जारी किए गए
Claude लंबे काम करने, long-term memory, ज़्यादा tools इस्तेमाल करने, और बेहतर verification की दिशा में विकसित हो रहा है
मुख्य बदलाव यह है कि जो iterative execution, tool selection, verification, memory, context management पहले developers खुद बनाते थे, वे अब Claude product और platform के भीतर आ रहे हैं
products और organizations के differentiation का केंद्र अब model को कैसे call किया जाता है, यह नहीं; बल्कि model के लिए कौन-से tools, data, permissions, context खोले जाते हैं, यह बनता जा रहा है
सिर्फ code लिखने से ज़्यादा verification, security, permission management, observability, evaluation framework, organizational operations नए bottleneck बनते जा रहे हैं
आगे महत्वपूर्ण क्षेत्र custom tools, भरोसेमंद memory, evaluation, security boundaries, context engineering, agent experience होंगे

सेशन 1 - Keynote

फोकस उन product improvements पर था जो Claude Code और Claude Platform को developers के लिए बेहतर काम करने लायक बनाते हैं
ज़्यादातर users Claude API या terminal को सीधे इस्तेमाल करने के बजाय, developer द्वारा बनाए गए products के भीतर Claude का उपयोग करते हैं
Claude Platform API usage साल-दर-साल लगभग 17 गुना बढ़ी है
Claude Code का औसत developer हर हफ्ते 20 घंटे Claude चलाता है
Claude Code की 5-घंटे usage limit को Pro, Max, Team, और seat-based Enterprise plans में दोगुना कर दिया गया है
Claude Opus API limits भी काफ़ी बढ़ाई गई हैं
SpaceX के Colossus One data center की capacity का उपयोग करके individual developers और small teams को अधिक compute resources देने की योजना है
Opus 4.7 ने Amp, Rakuten, और Intuit में coding agent performance, planning quality, और real engineering task solve rate को बेहतर बनाया
आगे का Claude बेहतर judgment, बड़ा context और memory, और multi-agent collaboration की दिशा में जा रहा है

सेशन 2 - What's new in Claude Code

Claude Code की नई features को दो धुरियों में बाँधा गया है: developer usability और autonomy को मज़बूत करना
Remote Control terminal में शुरू किए गए session को web या mobile पर आगे जारी रखने देता है
Full screen terminal UI virtual scrollback का उपयोग करके बिना flicker वाला rendering और clickable tool call screen देता है
Claude Code GUI को इस तरह बदला गया है कि कई sessions को pin, filter, group, और split screen में manage किया जा सके
plan view, diff view, और files view में line-level comments छोड़े जा सकते हैं, जिन्हें Claude बाद में इकट्ठा करके process कर सकता है
Auto Mode tool calls को destructive होने या prompt injection जैसा दिखने के आधार पर classify करता है, और सुरक्षित होने पर permission confirmation के बिना चलाता है
worktree कई Claude sessions को अपने-अपने isolated branch और file copies में parallel काम करने देता है
auto memory में Claude project-specific memory.md और संबंधित files को manage करता है, और build commands, debugging clues, तथा project preferences को अगले sessions में फिर इस्तेमाल करता है
Routines और /loop cron, GitHub webhook, और API trigger के ज़रिए Claude Code sessions को अपने-आप चलाने देते हैं

सेशन 3 - Memory and dreaming for self-learning agents

Memory को MCP, Claude Code, Agent SDK, और Skills के बाद अगले मूल building block के रूप में देखा गया
Claude Managed Agents की memory को file system की तरह संगठित किया गया है, ताकि Claude खुद Bash और Grep से उसे व्यवस्थित और अपडेट कर सके
Opus 4.7 यह बेहतर तय करता है कि क्या store करना है, files को कैसे बाँटना है, और memory structure को कैसे बनाए रखना है
कई agents एक ही memory store को पढ़ और लिख सकें, इसके लिए read-only organizational memory और read-write working memory को अलग किया जा सकता है
सैकड़ों agents एक साथ memory बदलें तब भी overwrite न हो, इसके लिए content hash-based optimistic concurrency control इस्तेमाल किया जाता है
change history, author, session, timestamp को रिकॉर्ड करके enterprise environment में memory को auditable बनाया जाता है
Dreaming हाल के agent sessions और transcripts का asynchronous analysis करके दोहराई जाने वाली गलतियाँ, सफल रणनीतियाँ, duplicate memory, और पुरानी memory को ढूँढ़कर व्यवस्थित करता है
Harvey ने Dreaming को legal benchmark पर लागू करके एक legal scenario की task completion rate को 6 गुना बढ़ाया
SRE demo में Dreaming ने 60-second retry pattern को खोजकर memory में जोड़ा, जिसे कई agents अलग-अलग देखने पर चूक रहे थे
लक्ष्य ऐसी continuous learning structure बनाना है जिसमें आज का agent work कल के agent को अपने-आप बेहतर बनाए

सेशन 4 - Caching, harnesses, and advisors: Building on Claude at GitHub scale

GitHub Copilot के scale पर prompt caching cost और latency कम करने का मुख्य साधन बन जाता है
target cache hit rate 94-96% है, और 70% के आसपास का स्तर prompt assembly या caching design में समस्या का संकेत माना जाता है
system prompt और tool list के शुरुआती हिस्से को जितना हो सके static रखना चाहिए
अगर UUID, timestamp, या dynamic tool loading शुरुआती हिस्से में आ जाए, तो cache आसानी से टूट जाता है
कई models के बीच जाने वाले harness में भी cache affinity बनाए रखनी चाहिए, ताकि Opus calls पहले के cache को reuse कर सकें
GitHub नए models को offline benchmark, internal use, A/B testing, online evaluation (eval), post-launch optimization के क्रम में चलाता है
Advisor strategy में सस्ता execution model ज़्यादातर काम करता है, और सिर्फ़ महत्वपूर्ण judgment की ज़रूरत होने पर Opus को advisor के रूप में बुलाया जाता है
model से ज़्यादा prompt, tools, cache, model selection, evaluation, online feedback को जोड़ने वाली operational layer quality और cost तय करती है

सेशन 5 - The expanding toolkit

जो auxiliary code पिछले साल तक developers खुद बनाते थे, वह अब model और API के भीतर शामिल होता जा रहा है
tool use में manual routers या retry decorators की अहमियत कम हो रही है
Claude खुद tools खोज सकता है, failed tool calls को देखकर recover कर सकता है, और फिर दोबारा call कर सकता है
tool guidance में inputs के साथ output schema भी लिखना बेहतर होता है
output structure पहले से पता हो, तो Claude बिना अनावश्यक round trips के नतीजों का बेहतर उपयोग कर सकता है
Claude Code के pre/post tool hooks का उपयोग खास calls को रोकने या results को अपने-आप log और analyze करने में किया जा सकता है
10 लाख token context, server-side compression, context editing के कारण लंबे tasks का context management सरल हो जाता है
पुराने screenshots, search results, और file read results को समय-समय पर हटाया जा सकता है, जबकि उनसे बने judgments को बरकरार रखा जा सकता है
Opus 4.7 अधिकतम 1440p तक के original resolution screenshots में 1:1 pixel coordinates लौटाता है, जिससे screen automation में coordinate correction का बोझ कम होता है
model limitations की भरपाई करने वाला code कम उम्र का होता है, जबकि Claude जो नहीं देख सकता, ऐसे tools, data, authentication, domain context को जोड़ने वाला code लंबे समय तक टिकता है

सेशन 6 - Claude Managed Agents के साथ production तक तेज़ी से कैसे पहुँचे

Claude Managed Agents लंबी अवधि तक चलने वाले production agents के लिए ज़रूरी context management, credential management, security, access control, human review, observability को एक platform में समेटता है
इसकी बुनियादी संरचना agent configuration, environment, और session है
session events के ज़रिए user events, agent events, session events, और segment events देखे जा सकते हैं
Console एक ही स्क्रीन पर settings, environment, पूरा execution trace, bottlenecks, recommended actions दिखाता है
outcomes ऐसा feature है जो Claude को पहले से तय termination criteria और scoring criteria पूरे होने तक दोहराव करने देता है
कई agents का orchestration, memory, और Dreaming को advanced features के रूप में साथ में कवर किया जाता है
dashboard demo में agent ने parallelization, fast mode, और prompt optimization खोजकर rendering time को लगभग 37 सेकंड से 10 सेकंड तक घटा दिया
production agents के लिए सिर्फ model call loop नहीं, बल्कि tracing, bottleneck analysis, permissions, validation भी साथ में होना चाहिए

सेशन 7 - A conversation with Dario Amodei & Daniela Amodei

Anthropic में उम्मीद से तेज़ usage और revenue growth के कारण compute resources की कमी हो गई
कंपनी अतिरिक्त compute capacity हासिल करके developers और users तक ज़्यादा पहुंचाना चाहती है
developers को Claude के मुख्य users और AI के पूरी अर्थव्यवस्था में फैलने का शुरुआती संकेत देने वाले समूह के रूप में देखा जाता है
Claude Code का अगला बदलाव personal productivity से team और organizational productivity की ओर बढ़ रहा है
code लिखने की रफ़्तार बढ़ने के साथ security, validation, reliability, maintenance नए bottlenecks बन जाते हैं
model capabilities तेज़ी से बदलने के कारण कुछ महीने पहले तक असंभव दिखने वाले products अचानक संभव हो जाते हैं
API market आगे भी महत्वपूर्ण रहेगा
आगे का Claude एक व्यक्ति के काम में मदद करने से आगे बढ़कर पूरे organization में कई लोगों और कई agents के काम को scale करने की दिशा में जाएगा

सेशन 8 - Live coding session with Boris Cherny and Jarred Sumner

Bun का Robobun GitHub issues को अपने-आप reproduce करता है और tests सहित PR बनाता है
पुराने version में failure और fix branch में pass होने की शर्त को PR submission criteria बनाया जाता है
CLAUDE.md agent operations document बन जाता है, जिसमें build commands, test commands, test locations, past failure patterns, folder structure, और CI logs पढ़ने का तरीका शामिल होता है
CodeRabbit, Claude Code Review, और Robobun को साथ इस्तेमाल करके style, CLAUDE.md compliance, और diff के बाहर edge cases की review को automate किया जाता है
Claude Code और Opus 4.7 उन कामों के लिए उपयुक्त हैं जहाँ goal, measurement method, और validation loop स्पष्ट हों और performance को धीरे-धीरे ऊपर ले जाना हो
bottleneck code writing से हटकर planning और validation की ओर जा रहा है
agent द्वारा बनाया गया PR ऐसा output नहीं होना चाहिए जिसे अनिवार्य रूप से merge करना ही पड़े, बल्कि उसे review किए जा सकने वाले proposal की तरह माना जा सकता है
agent PR बढ़ने पर भी human merge criteria कम नहीं होते, बल्कि और सख्त हो सकते हैं

सेशन 9 - Building with Claude Managed Agents and Asana AI teammates

Asana के AI teammates का लक्ष्य ऐसे agents बनाना है जो enterprise के अंदर वास्तविक सहकर्मियों की तरह काम करें
agents actor बनकर approvals, workflows, और multi-step tasks को लोगों के साथ मिलकर संभालते हैं
कई enterprises में agents का उपयोग अभी भी single-user flow तक सीमित है, जहाँ एक व्यक्ति result लेकर उसे अगले व्यक्ति को सौंप देता है
Asana ऐसा collaborative workflow चाहता है जहाँ कई लोग एक ही agent के साथ interact करें और knowledge व memory इकट्ठा होती जाए
Asana work graph goals, portfolios, projects, tasks, approvals, और past decisions को जोड़कर agent context के रूप में इस्तेमाल होता है
AI teammate shared configuration, role-based access control, auditability के साथ सिस्टम में किसी मानवीय सहकर्मी की तरह प्रवेश करता है
Claude Managed Agents campaign brief लिखने और HTML landing page mockup बनाने जैसे multi-step tasks संभालता है
Asana human interface, enterprise context, security, और auditability पर ध्यान देता है, जबकि Claude Managed Agents validation loops, graders, outcomes, और multi-agent execution संभालता है
21 से अधिक prebuilt AI teammates PMO, marketing, IT, HR, और R&D कार्यों के लिए उपलब्ध कराए जाते हैं
feedback agent memory में रह जाता है ताकि अगला user वही गलती दोबारा न दोहराए

सेशन 10 - Running an AI-native engineering org

AI-native engineering organization में code writing throughput सबसे महंगा bottleneck नहीं रह जाता
validation, review, security, maintenance, cross-functional coordination नए bottlenecks के रूप में बढ़ते हैं
6 महीने के roadmap या हर काम से पहले design documents की बजाय सही समय पर planning और तेज़ prototyping वाला flow Claude Code team के लिए बेहतर बैठता है
technical debates लंबे whiteboard discussion की जगह कई implementation PRs बनाकर उनके वास्तविक असर और API shape की तुलना करने की ओर बढ़ते हैं
code generation आसान होने के साथ testing, automation, और पहले validation का महत्व और बढ़ जाता है
"यह code किसने लिखा" से ज़्यादा महत्वपूर्ण यह अलग करना हो जाता है कि regression का कारण क्या है, expert answer की ज़रूरत है या नहीं, और context किस उद्देश्य से जुटाना है
Claude Code team style, lint, PR feedback, कुछ bug fixes, और tests जोड़ने जैसे काम Claude को सौंपती है
legal review, security-sensitive code, trust boundaries, product sense अब भी human experts देखते हैं
hiring में साधारण throughput से ज़्यादा product sense वाले creative builders और deep systems expertise को महत्व दिया जाता है
success metrics को कम onboarding time, कम PR cycle time, और Claude-assisted commits में वृद्धि के रूप में देखा जा सकता है

सेशन 11 - Building AI-native: Inside the stacks powering Cognition, Gamma, and Harvey

Gamma tool calling और agent orchestration में हुए सुधारों को तेज़ी से product में लागू कर agent-based editing flow को मज़बूत करता है
Gamma MCP connector का उपयोग सिर्फ integration feature के रूप में नहीं, बल्कि customer acquisition और workflow entry point के रूप में भी करता है
Cognition ने models के code editing, file system usage, और long-running planning में बेहतर होने पर अपने कुछ planning और memory systems को कम किया
Harvey foundation model, reasoning model, और coding agent के हर inflection point पर product architecture को फिर से डिज़ाइन करता है
Harvey की मौजूदा platform capability agent-native architecture के बिना हासिल करना मुश्किल था
AI-native products को यह मानकर चलना चाहिए कि 6-12 महीनों के भीतर मौजूदा architecture पुराना पड़ सकता है
logging, observability, replay, evaluation तेज़ architectural बदलावों से निपटने के लिए आवश्यक तंत्र बन जाते हैं
कानून जैसे संवेदनशील क्षेत्रों में public data, private data, memory, और agent flows के बीच मज़बूत data boundaries की ज़रूरत होती है
किसी खास model limitation पर आधारित architecture से अधिक महत्वपूर्ण ऐसा architecture है जो capability के अगले बड़े jump को तेज़ी से absorb कर सके

सेशन 12 - Architecting for model step-changes: A fireside with Vercel's Guillermo Rauch

Vercel एजेंट-आधारित इन्फ्रास्ट्रक्चर को अपनी मुख्य दिशा मानता है
cloud ऐसे इन्फ्रास्ट्रक्चर तक फैल सकता है जो खुद को recover करे, optimize करे और settings बदले
AI Gateway को tokens के लिए CDN की तरह देखा जा रहा है
यह कई providers और models को संभालते हुए routing, fault handling और cost control की layer बनता है
Opus tokens में उपयोग हिस्सेदारी की तुलना में खर्च हिस्सेदारी कहीं अधिक है, इसलिए high-intelligence model को product में जोड़ते समय cost structure को साफ़ तौर पर देखना चाहिए
Opus 4.5 अपनाने के बाद V0 grammar checking, auto-fix और कुछ processing steps को सरल कर सका, जो पहले पुराने model को compensate करते थे
model capabilities में छलांग केवल नए features जोड़ने तक सीमित नहीं रहती, बल्कि मौजूदा compensation code हटाने जैसे बदलाव भी लाती है
V0 में Opus के उपयोग बढ़ने के बाद product credit spend 2x हो गया
आगे चलकर CLI और UI-आधारित development के अलावा asynchronous और कम human supervision वाले agents भी अधिक बड़े हो सकते हैं

सत्र 13 - The thinking lever

test-time compute वह axis है जिसमें Claude inference के दौरान अधिक tokens और समय लगाकर कठिन समस्याएँ हल करता है
वही Opus 4.7 भी low, high, max effort के अनुसार traffic simulation quality में बड़ा अंतर दिखाता है
जितना अधिक समय और tokens खर्च किए जाते हैं, graphics, traffic flow और vehicle movement उतने ही अधिक realistic हो जाते हैं
Claude के tokens को thinking tokens, tool-calling tokens और text tokens में बाँटा जाता है
thinking tokens internal reasoning के लिए, tool-calling tokens बाहरी दुनिया के साथ interaction के लिए, और text tokens user से communication के लिए उपयोग होते हैं
effort समय, लागत और quality के संतुलन को दिखाने वाला control knob है
Task Budgets Claude को किसी खास task में उपयोग किए जा सकने वाले tokens, समय और लागत की upper limit तय करने देता है
adaptive thinking Claude को ज़रूरत के अनुसार सोचना, tools का उपयोग करना और user को जवाब देना—इनका क्रम स्वतंत्र रूप से चुनने देता है
coding और agentic use case में extra high को अच्छा default माना जाता है
साधारण बड़े पैमाने की classification या extraction के लिए छोटे models बेहतर होते हैं, जबकि intelligence-भरे tasks को जल्दी खत्म करने के लिए बड़े model का low effort अधिक अच्छा हो सकता है

सत्र 14 - How Datadog built a universal machine tool for Claude Code

Datadog engineers के लगभग 90% production code पर AI coding tools का उपयोग करते हैं
उनमें से कम-से-कम 2/3 Claude Code का उपयोग करते हैं
AI coding tools का उपयोग individual functions, tests और glue code से बढ़कर system-level tasks तक फैल रहा है
bottleneck code writing से feedback iteration और production validation की ओर खिसक गया है
Helix experiment में Claude Code कुछ ही दिनों में Kafka जैसी streaming service बना सका
इसे production environment में ले जाने के लिए shadowing, validation ladder और system mileage की ज़रूरत होती है
Tempor agents को ad hoc tools तुरंत बनाने के बजाय पहले state, transitions, effects और invariants वाला blueprint बनाने देता है
transition tables, policy docs, typed effects, validators, property tests agent द्वारा बनाए गए software को inspectable बनाते हैं
agent को आज़ादी देनी है तो production systems के invariants और validation procedures को machine-readable बनाना होगा

सत्र 15 - Building with Claude on Google Cloud

Google Cloud पर Claude Code सेट करने का सबसे आसान तरीका Application Default Credentials-आधारित setup wizard है
setup wizard project, region और उपलब्ध model को detect करके pin कर सकता है
Google Cloud पर Claude model उपयोग करने से token-based billing, provisioned throughput, API key rotation burden में कमी, project policies का application, project के भीतर data retention, regional/global endpoint जैसे लाभ मिलते हैं
demo पाँच भूमिकाओं—PM, UI/UX designer, software engineer, security engineer और data/growth marketer—के साथ एक feedback app को शुरू से अंत तक बनाने के flow में चलता है
PM hand-drawn wireframe को Claude Code में डालकर जल्दी prototype बनाता है
UI/UX चरण में plan mode का उपयोग करके Claude से implementation से पहले planning निकलवाई जाती है
Google Cloud developer knowledge API और MCP server Claude Code को नवीनतम docs और architecture guidance से जोड़ते हैं
Google Cloud Skills का उपयोग Cloud Run API deployment, Cloud Run और Firestore connection जैसे individual blocks के implementation में मदद के लिए होता है
sub-agent का उपयोग करके API, ingestion pipeline और dashboard implementation को parallel में आगे बढ़ाया जाता है
security review prompt OWASP issues या service account permissions की जाँच करता है, मिले हुए issues को ठीक करता है और फिर Cloud Run पर deploy करता है

सत्र 16 - Getting more out of the Claude Platform

production agents को optimize करने की प्राथमिकताएँ prompt caching, context engineering और Advisor strategy हैं
prompt caching input token cost घटाता है, first token तक का समय कम करता है और cached tokens की usage-limit burden को कम करता है
cache hit rate के लिए 90% range को लक्ष्य माना जाता है
शुरुआती prompt की stability, tool definitions की position और dynamic values कहाँ insert की जाती हैं—ये सब cache को प्रभावित करते हैं
tool search tool ज़रूरत के समय सिर्फ़ आवश्यक tool definitions लाकर context बचाता है
अगर शुरुआत से ही सभी tools डाल दिए जाएँ तो context और cache दोनों पर बोझ बढ़ता है
programmatic tool calling बहुत से tool results को जस का तस डालने के बजाय केवल ज़रूरी हिस्से चुनकर context में रखता है
compaction पुराने conversations और tool results को घटाकर लंबे tasks को जारी रखने देता है
Advisor strategy में Sonnet या Haiku ज़्यादातर काम करते हैं, और केवल महत्वपूर्ण judgment की ज़रूरत होने पर Opus को advisor के रूप में बुलाया जाता है
मुख्य बात models को ज़्यादा बार बुलाना नहीं, बल्कि यह design करना है कि models किस context, tools और cache structure में काम करेंगे

सत्र 17 - Evaluating and improving Replit Agent at scale

Replit Agent के users उम्मीद करते हैं कि framework या test बताए बिना केवल natural language से काम करने वाला app बन जाए
सामान्य coding benchmarks की तरह सिर्फ़ यह देखना कि patch tests pass करता है या नहीं, Replit Agent की quality मापने के लिए काफ़ी नहीं है
evaluation को यह देखना चाहिए कि app user के अनुरोध के अनुसार काम करता है या नहीं
Replit offline evaluation और online evaluation दोनों का साथ में उपयोग करता है
offline evaluation नई agent release से पहले gate की तरह काम करता है, और online evaluation वास्तविक उपयोग के बाद तेज़ response के लिए इस्तेमाल होता है
VibeBench एक public benchmark है जिसमें 20 वास्तविक PRD input के रूप में दिए जाते हैं, खाली repository से app बनाया जाता है, और automated evaluator browser में app को test करता है
अधिकांश models अपने ही बनाए code को आगे बढ़ाकर expand करने में अधिक कठिनाई महसूस करते हैं
features के बीच testing और validation steps रखने चाहिए, ताकि डगमगाती नींव पर लगातार निर्माण कम हो
Telescope एक internal system है जो production execution traces को semantic आधार पर समूहित करके long-tail failures ढूँढता है, issues को classify करता है, agent से PR बनवाता है, और VibeBench या A/B tests से validate करता है
evaluation आख़िरी release checklist नहीं, बल्कि agents को हर दिन बेहतर बनाने वाला engine बन जाता है

सत्र 18 - The capability curve

Claude Code उपयोगकर्ता पिछले साल की तुलना में ज़्यादा भरोसे के साथ तेज़ी से deploy कर रहे हैं
प्रस्तुति के दौरान प्रतिभागियों के मतदान में कई लोगों ने बताया कि Claude के साथ उन्हें 10x, 5x, 2x speed improvement महसूस हुआ
SWE-bench Verified में Sonnet 3.7 ने लगभग 62% और Opus 4.7 ने 87% स्कोर किया
Opus 4.7 के लिए उन कठिन PRs को सफलतापूर्वक पूरा करने की संभावना 3 गुना से अधिक थी, जिनमें Sonnet 3.7 विफल हो जाता था
उसी prompt के साथ Claude.ai को दोबारा बनाने वाले डेमो में पुराने मॉडल ने सामान्य chat UI और errors दिए, जबकि Opus 4.7 ने Claude colors, API responses, chat history, inline graphics और dark mode लागू किया
जिन क्षेत्रों में सुधार हुआ है, वे हैं planning, error recovery, और लंबे execution के दौरान ध्यान बनाए रखना
नया मॉडल पहले plan करता है, असफल होने पर वापस जाता है, और लंबे context में भी system prompt और goal को बेहतर बनाए रखता है
वास्तविक सुधार देखने के लिए ऐसे evaluations बनाने होंगे जिनका distribution product के करीब हो
जैसे-जैसे मॉडल बेहतर होते जाते हैं, मौजूदा evaluations जल्दी saturate हो जाते हैं, इसलिए evaluations को भी लगातार अधिक कठिन बनाना होगा
नया frontier model आने पर मौजूदा calibration process और prompts को फिर से कम करके देखना ज़रूरी हो सकता है

सत्र 19 - Giving coding agents their own computers: How Cursor built cloud agents

Cursor का मानना है कि bottleneck model intelligence से ज़्यादा इस बात में है कि इंसान मॉडल को पर्याप्त tools, context और बड़े goals नहीं दे पाते
जैसे किसी human developer को onboard किया जाता है, वैसे ही agents को भी कंप्यूटर, development environment और documentation मिलनी चाहिए
Cursor का onboarding agent repository को explore करता है और समझता है कि app कैसे चलाना है, कौन-सी services हैं, environment variables क्या हैं, और permissions कैसी हैं
AnyDev CLI ऐसा tool है जो agents को services शुरू करने, readiness का इंतज़ार करने, status जांचने, और test account बनाना या login तक संभालने में मदद करता है
agent development environment जितना बेहतर होता है, developers उतने अधिक cloud agents चलाते हैं और उन्हें बड़े tasks सौंपते हैं
autonomy का मूल सिद्धांत है agents को आँखें, tools और अच्छा context देना
agents को इंसानों की तरह app state, दूसरे agents की बातचीत और service status देखने में सक्षम होना चाहिए
Cursor के लिए computer use coding के बाद अगला महत्वपूर्ण foundational element है
Claude 4.7 agents को खुद end-to-end demo record करके feature verify करने देता है, जिससे code review से पहले इंसान जल्दी से परिणाम समझ सकते हैं
Cursor agent experience को एक अलग design target मानता है, और जब agents किसी परेशान करने वाले, टूटे हुए या भ्रमित करने वाले flow से टकराते हैं, तो उसे work on the factory issue के रूप में छोड़ते हैं
अंतिम लक्ष्य यह नहीं है कि इंसान हाथ पकड़कर A से D तक ले जाए, बल्कि ऐसी system बनाना है जो A से Z तक हल कर सके