- Anthropic ने अपग्रेड किया हुआ Claude 3.5 Sonnet और नया मॉडल Claude 3.5 Haiku घोषित किया
- Claude को इंसानों की तरह कंप्यूटर इस्तेमाल करने के लिए निर्देश देने वाला Computer Use फीचर public beta में नया जोड़ा गया
- मौजूदा कीमत और स्पीड को बनाए रखते हुए समग्र प्रदर्शन में सुधार किया गया
Computer Use फीचर का परिचय
- डेवलपर्स API के जरिए Claude को वास्तविक इंसान की तरह कंप्यूटर इस्तेमाल करने के लिए निर्देश दे सकते हैं
- स्क्रीन देखना, कर्सर मूव करना, बटन क्लिक करना, टेक्स्ट इनपुट करना जैसे काम कर सकता है
- फिलहाल यह experimental चरण में है, इसलिए कभी-कभी असुविधा और त्रुटियां हो सकती हैं
- Asana, Canva, Cognition, DoorDash, Replit और The Browser Company ने पहले ही उन कार्यों के लिए इसकी संभावनाएं तलाशना शुरू कर दिया है जिनमें दर्जनों, और कभी-कभी सैकड़ों चरण लगते हैं
Claude 3.5 Sonnet: इंडस्ट्री-स्तरीय शीर्ष सॉफ्टवेयर इंजीनियरिंग क्षमता
- अपडेट किया गया Claude 3.5 Sonnet इंडस्ट्री बेंचमार्क में व्यापक सुधार दिखाता है, खासकर agent coding और tool use कार्यों में मजबूत प्रदर्शन वृद्धि के साथ
- SWE-bench Verified में प्रदर्शन 33.4% से बढ़कर 49.0% हुआ, जो सार्वजनिक रूप से उपलब्ध सभी मॉडलों से अधिक स्कोर है
- TAU-bench में भी retail domain में 62.6% से 69.2% और airline domain में 36.0% से 46.0% तक सुधार हुआ
- GitLab, Cognition, The Browser Company जैसी ग्राहक कंपनियों के शुरुआती फीडबैक के अनुसार Claude 3.5 Sonnet AI-आधारित coding में एक बड़ा छलांग दर्शाता है
Claude 3.5 Haiku: अत्याधुनिक तकनीक के साथ किफायत और स्पीड का मेल
- Claude 3.5 Haiku सबसे तेज मॉडल का अगली पीढ़ी का संस्करण है
- पिछली पीढ़ी के Haiku जैसी ही लागत और समान स्पीड पर सभी skill क्षेत्रों में सुधार हुआ है, और यह पहले के सबसे बड़े मॉडल Claude 3 Opus से भी आगे निकलता है
- खासकर coding कार्यों में इसकी ताकत दिखती है; SWE-bench Verified में 40.6% स्कोर के साथ यह मौजूदा Claude 3.5 Sonnet और GPT-4o सहित सार्वजनिक state-of-the-art मॉडलों का उपयोग करने वाले कई agents से आगे है
- low latency, बेहतर instruction following और अधिक सटीक tool use जैसी विशेषताओं के कारण यह user-facing products, specialized sub-agent कार्यों और विशाल डेटा से personalized experiences बनाने के लिए उपयुक्त है
Claude को जिम्मेदारी के साथ कंप्यूटर नेविगेट करना सिखाना
- Computer Use फीचर के जरिए मूल रूप से कुछ नया करने की कोशिश की जा रही है
- हर अलग काम को पूरा करने में मदद करने वाले विशिष्ट tools बनाने के बजाय Claude को सामान्य computer skills सिखाई जा रही हैं
- डेवलपर्स इन शुरुआती क्षमताओं का उपयोग करके दोहराए जाने वाले processes को automate कर सकते हैं, software बना और test कर सकते हैं, और research जैसे open-ended कार्य कर सकते हैं
- OSWorld में Claude 3.5 Sonnet ने screenshot-only श्रेणी में 14.9% स्कोर किया, जो दूसरे सर्वश्रेष्ठ AI system के 7.8% स्कोर से काफी आगे है
- Computer Use फीचर अभी अधूरा है और spam, misinformation, fraud जैसी धमकियों के लिए नए रास्ते खोल सकता है, इसलिए सुरक्षित deployment के लिए proactive approach अपनाई जा रही है
Computer Use का आगे का परिदृश्य
- शुरुआती चरण में मौजूद इस तकनीक की प्रारंभिक deployment से मिलने वाली सीखें लगातार अधिक शक्तिशाली होते AI systems की क्षमता और प्रभाव को बेहतर समझने में मदद करेंगी
- नए मॉडलों और Computer Use फीचर के public beta को आजमाने और फीडबैक साझा करने का आग्रह किया गया है
- विश्वास है कि ये विकास Claude के साथ सहयोग करने के तरीके में नई संभावनाएं खोलेंगे
GN⁺ की राय
- Computer Use फीचर RPA(Robotic Process Automation) जैसा है, लेकिन यह अधिक flexible और general approach देता हुआ दिखता है
- कंपनियों के repetitive कार्यों के automation में इससे बड़ी मदद मिलने की उम्मीद है, लेकिन शुरुआत में त्रुटि की संभावना को देखते हुए कम महत्व वाले कार्यों से शुरू करना बेहतर होगा
- अनुमान है कि यह फीचर Power Automate, UiPath जैसे मौजूदा RPA tools से प्रतिस्पर्धा करेगा, और आगे चलकर AI और RPA के बीच की सीमा और धुंधली होगी
- सुरक्षा के दृष्टिकोण से कंप्यूटर नियंत्रण की अनुमति AI को देना नए जोखिम पैदा कर सकता है, इसलिए कड़े access control और monitoring की जरूरत होगी
1 टिप्पणियां
Hacker News राय