19 पॉइंट द्वारा humblebee 2025-05-23 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Anthropic ने 23 मई 2025 को Claude 4 सीरीज़ लॉन्च की। इस बार घोषित Claude Opus 4 और Claude Sonnet 4 ऐसे मॉडल हैं जिनमें पिछले वर्ज़न की तुलना में coding और लंबे समय तक काम करने की क्षमता बेहतर की गई है, और कीमत पहले जैसी ही रखी गई है।

  1. लगातार काम करने की क्षमता

    • 7 घंटे लगातार काम: Rakuten द्वारा सत्यापित open source refactoring में 7 घंटे तक स्वतंत्र रूप से काम किया
    • हज़ारों चरणों वाले जटिल कार्य भी बिना रुके संभाल सकता है
    • मौजूदा AI agent की सीमाओं से काफी आगे जाने वाली कार्य-निरंतरता
  2. बेहतर memory system

    • 'Navigation Guide' जैसी memory files अपने आप बनाकर लंबे कार्यों में संदर्भ-समझ बेहतर करता है
    • Pokémon गेम खेलते समय navigation guide खुद लिखने जैसे व्यावहारिक memory उपयोग
    • पिछले मॉडल की तुलना में shortcut/loophole इस्तेमाल करने वाला व्यवहार 65% कम
  3. hybrid reasoning model

    • तुरंत response mode: जब तेज़ जवाब चाहिए
    • extended thinking mode: अधिकतम 64K tokens तक गहन reasoning संभव
    • परिस्थिति के अनुसार दोनों modes के बीच स्वचालित रूप से स्विच
  4. tool usage

    • parallel tool execution: कई tools को एक साथ इस्तेमाल कर दक्षता बढ़ाना
    • thinking के दौरान tools का उपयोग: reasoning प्रक्रिया में web search आदि का उपयोग कर अधिक सटीक जवाब बनाना
  5. code quality में सुधार

    • Block evaluation: "editing और debugging के दौरान code quality बेहतर करने वाला पहला मॉडल"
    • iGent report: codebase exploration error rate 20% से घटकर लगभग 0%
    • Sourcegraph: अधिक elegant code quality और समस्याओं की गहरी समझ
  6. Claude Code का व्यावहारिक एकीकरण

    • सीधा IDE integration: code changes सीधे editor में दिखते हैं
    • GitHub PR support: PR reviewer feedback को अपने आप प्रोसेस करना, CI errors ठीक करना
    • background tasks: GitHub Actions के ज़रिए automation support
    • expandable SDK: developers अपने खुद के agents बना सकते हैं
  7. API की नई सुविधाएँ

    • code execution tool
    • MCP connector
    • Files API
    • अधिकतम 1 घंटे की prompt caching
  8. सुरक्षा

    • ASL-3 (AI Safety Level 3) सुरक्षा उपाय लागू
    • निर्देशों का अधिक परिष्कृत पालन करने की क्षमता
    • दुरुपयोग की संभावना कम करने वाला अधिक ज़िम्मेदार व्यवहार

2 टिप्पणियां

 
humblebee 2025-05-23

इसमें लिखा है कि इसने 7 घंटे तक बिना रुके refactoring किया। अगर quality ठीक-ठाक हो, तो यह उम्मीद की जा सकती है कि developer इसे दफ़्तर से निकलते समय सौंप दे और अगले दिन review करे—यानी किसी high-end outsourced काम के स्तर तक भी पहुँच सकता है 😂

 
sinbumu 2025-05-23

इस हिस्से को पकड़कर Google जैसी कंपनियां Jules जैसे coding agent को ट्रायल तौर पर beta में चला रही हैं... AI को काम सौंप दो, तो वह local machine नहीं बल्कि cloud environment में अपने-आप इधर-उधर काम निपटाता रहता है, और बाद में नतीजे देखकर commit, deploy वगैरह करने को कहता है