10 पॉइंट द्वारा GN⁺ 2024-10-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Anthropic ने अपग्रेड किया हुआ Claude 3.5 Sonnet और नया मॉडल Claude 3.5 Haiku घोषित किया
  • Claude को इंसानों की तरह कंप्यूटर इस्तेमाल करने के लिए निर्देश देने वाला Computer Use फीचर public beta में नया जोड़ा गया
  • मौजूदा कीमत और स्पीड को बनाए रखते हुए समग्र प्रदर्शन में सुधार किया गया

Computer Use फीचर का परिचय

  • डेवलपर्स API के जरिए Claude को वास्तविक इंसान की तरह कंप्यूटर इस्तेमाल करने के लिए निर्देश दे सकते हैं
  • स्क्रीन देखना, कर्सर मूव करना, बटन क्लिक करना, टेक्स्ट इनपुट करना जैसे काम कर सकता है
  • फिलहाल यह experimental चरण में है, इसलिए कभी-कभी असुविधा और त्रुटियां हो सकती हैं
  • Asana, Canva, Cognition, DoorDash, Replit और The Browser Company ने पहले ही उन कार्यों के लिए इसकी संभावनाएं तलाशना शुरू कर दिया है जिनमें दर्जनों, और कभी-कभी सैकड़ों चरण लगते हैं

Claude 3.5 Sonnet: इंडस्ट्री-स्तरीय शीर्ष सॉफ्टवेयर इंजीनियरिंग क्षमता

  • अपडेट किया गया Claude 3.5 Sonnet इंडस्ट्री बेंचमार्क में व्यापक सुधार दिखाता है, खासकर agent coding और tool use कार्यों में मजबूत प्रदर्शन वृद्धि के साथ
  • SWE-bench Verified में प्रदर्शन 33.4% से बढ़कर 49.0% हुआ, जो सार्वजनिक रूप से उपलब्ध सभी मॉडलों से अधिक स्कोर है
  • TAU-bench में भी retail domain में 62.6% से 69.2% और airline domain में 36.0% से 46.0% तक सुधार हुआ
  • GitLab, Cognition, The Browser Company जैसी ग्राहक कंपनियों के शुरुआती फीडबैक के अनुसार Claude 3.5 Sonnet AI-आधारित coding में एक बड़ा छलांग दर्शाता है

Claude 3.5 Haiku: अत्याधुनिक तकनीक के साथ किफायत और स्पीड का मेल

  • Claude 3.5 Haiku सबसे तेज मॉडल का अगली पीढ़ी का संस्करण है
  • पिछली पीढ़ी के Haiku जैसी ही लागत और समान स्पीड पर सभी skill क्षेत्रों में सुधार हुआ है, और यह पहले के सबसे बड़े मॉडल Claude 3 Opus से भी आगे निकलता है
  • खासकर coding कार्यों में इसकी ताकत दिखती है; SWE-bench Verified में 40.6% स्कोर के साथ यह मौजूदा Claude 3.5 Sonnet और GPT-4o सहित सार्वजनिक state-of-the-art मॉडलों का उपयोग करने वाले कई agents से आगे है
  • low latency, बेहतर instruction following और अधिक सटीक tool use जैसी विशेषताओं के कारण यह user-facing products, specialized sub-agent कार्यों और विशाल डेटा से personalized experiences बनाने के लिए उपयुक्त है

Claude को जिम्मेदारी के साथ कंप्यूटर नेविगेट करना सिखाना

  • Computer Use फीचर के जरिए मूल रूप से कुछ नया करने की कोशिश की जा रही है
  • हर अलग काम को पूरा करने में मदद करने वाले विशिष्ट tools बनाने के बजाय Claude को सामान्य computer skills सिखाई जा रही हैं
  • डेवलपर्स इन शुरुआती क्षमताओं का उपयोग करके दोहराए जाने वाले processes को automate कर सकते हैं, software बना और test कर सकते हैं, और research जैसे open-ended कार्य कर सकते हैं
  • OSWorld में Claude 3.5 Sonnet ने screenshot-only श्रेणी में 14.9% स्कोर किया, जो दूसरे सर्वश्रेष्ठ AI system के 7.8% स्कोर से काफी आगे है
  • Computer Use फीचर अभी अधूरा है और spam, misinformation, fraud जैसी धमकियों के लिए नए रास्ते खोल सकता है, इसलिए सुरक्षित deployment के लिए proactive approach अपनाई जा रही है

Computer Use का आगे का परिदृश्य

  • शुरुआती चरण में मौजूद इस तकनीक की प्रारंभिक deployment से मिलने वाली सीखें लगातार अधिक शक्तिशाली होते AI systems की क्षमता और प्रभाव को बेहतर समझने में मदद करेंगी
  • नए मॉडलों और Computer Use फीचर के public beta को आजमाने और फीडबैक साझा करने का आग्रह किया गया है
  • विश्वास है कि ये विकास Claude के साथ सहयोग करने के तरीके में नई संभावनाएं खोलेंगे

GN⁺ की राय

  • Computer Use फीचर RPA(Robotic Process Automation) जैसा है, लेकिन यह अधिक flexible और general approach देता हुआ दिखता है
  • कंपनियों के repetitive कार्यों के automation में इससे बड़ी मदद मिलने की उम्मीद है, लेकिन शुरुआत में त्रुटि की संभावना को देखते हुए कम महत्व वाले कार्यों से शुरू करना बेहतर होगा
  • अनुमान है कि यह फीचर Power Automate, UiPath जैसे मौजूदा RPA tools से प्रतिस्पर्धा करेगा, और आगे चलकर AI और RPA के बीच की सीमा और धुंधली होगी
  • सुरक्षा के दृष्टिकोण से कंप्यूटर नियंत्रण की अनुमति AI को देना नए जोखिम पैदा कर सकता है, इसलिए कड़े access control और monitoring की जरूरत होगी

1 टिप्पणियां

 
GN⁺ 2024-10-23
Hacker News राय
  • Sonnet ने aider के code editing leaderboard में 84.2% के साथ पहला स्थान हासिल किया। "architect" mode का उपयोग करने पर यह SOTA को 85.7% पर सेट करता है। "editor" model के रूप में DeepSeek का उपयोग किया गया
    • Sonnet ने अधिक कठिन refactoring benchmark में भी 92.1% के साथ SOTA दर्ज किया
  • Claude 3.5 Opus का अब Anthropic के आधिकारिक दस्तावेज़ों में उल्लेख नहीं है। इससे संकेत मिलता है कि इसकी रिलीज़ में देरी हुई है या इसे रद्द कर दिया गया है
  • AI SaaS products बनाने वाले व्यक्ति के रूप में, मैंने सोचा था कि API integration AI automation की अधिकांश समस्याओं को हल कर देगा, लेकिन वास्तव में यह समझ आया कि बहुत-सा software सीधे इंसानों के साथ interface करता है
    • उदाहरण के लिए, मेरे जीजा जो डॉक्टर हैं, वे Windows पर MFC forms इस्तेमाल करने वाला custom software उपयोग करते हैं, और एक accountant Cantax नाम का शक्तिशाली software उपयोग करता है
    • अगर आप SaaS space में हों, तो यह मानने लगते हैं कि हर किसी के पास client-server backend API होना चाहिए, लेकिन वास्तविकता में ऐसा नहीं है
  • computer use capability बहुत प्रभावशाली है
    • यह सिर्फ़ computer को tool की तरह इस्तेमाल करने वाला agent नहीं है, बल्कि एक autonomous reasoning agent है जो लक्ष्य दिए जाने पर उसे हासिल करने के लिए computer और browser का उपयोग करता है
    • यह OpenAI GPT-o1 को पीछे छोड़ सकता है
  • AI safety पर Anthropic का फ़ोकस दिलचस्प है। AI में computer और browser का उपयोग करके माँगे गए लक्ष्य को हासिल करने की क्षमता है
  • पिछले 8 महीनों से Claude, ChatGPT से बेहतर रहा है, लेकिन इसका user base छोटा है
  • Sonnet और Opus के बीच का अंतर स्पष्ट नहीं है। Anthropic वेबसाइट पर Opus को सबसे advanced model कहा गया है, लेकिन दूसरी जगह Sonnet को सबसे fast और advanced model कहा गया है
    • मैन्युअल testing के नतीजे में लगा कि Opus थोड़ा बेहतर response देता है, लेकिन पक्के तौर पर नहीं कह सकता
  • Claude का उपयोग करके coding demo पर और चर्चा होनी चाहिए
    • संभव है कि असली end-user programming और product manager programming जल्द आने वाली हो
  • नए API के साथ training के दौरान कुछ मज़ेदार बातें हुईं
    • Claude ने लंबी screen recording रोक दी जिससे पूरा video खो गया, या coding demo के दौरान Yellowstone National Park की तस्वीरें देखने जैसी बातें हुईं