- Claude 3.5 Sonnet इस समय conversational AI क्षेत्र में सबसे उत्कृष्ट मॉडल है
- Claude 3.5 Sonnet, Claude.ai और Claude iOS ऐप में मुफ़्त उपलब्ध है। अधिक usage limit चाहिए तो subscription भी लिया जा सकता है
- दस्तावेज़ की संरचना को यथासंभव बनाए रखते हुए सामग्री का सार दिया गया है, और Markdown का उपयोग करके इसे साफ़-सुथरे तरीके से व्यवस्थित किया गया है
- इसकी गति Claude Opus की तुलना में 2 गुना तेज़ है और लागत भी कम है
- नए Artifacts फ़ीचर के ज़रिए code, documents, website design आदि को अलग विंडो में रियल-टाइम में देखा और संपादित किया जा सकता है
- OpenAI, Google DeepMind, Anthropic सभी high-performance large models विकसित कर रहे हैं, लेकिन अभी रुझान तेज़, सस्ते और बेहतर performance देने वाले models पर केंद्रित है
बेंचमार्क और मूल्यांकन परिणाम
- कई benchmarks में इसने मौजूदा models से बेहतर प्रदर्शन दिखाया है। खासकर GPQA में यह बहुत बड़े अंतर से पहले स्थान पर है
- Artifacts का उपयोग करने वाली functional coding evaluation में इसने 64% समस्याएँ हल कीं, जो पिछले model (38%) से काफ़ी बेहतर है
- क़ानून, वित्त, दर्शन जैसे विभिन्न क्षेत्रों में experts द्वारा किए गए मूल्यांकन में भी इसने 82% ~ 73% की ऊँची win rate दर्ज की
- visual recognition क्षमता भी बेहतर हुई है, और अतिरिक्त prompt के माध्यम से face recognition functionality को सीमित करने के लिए इसे डिज़ाइन किया गया है
नया Artifacts फ़ीचर
- Artifacts फ़ीचर के माध्यम से conversation के बगल वाली विंडो में code, documents, web design आदि को रियल-टाइम में बनाया और संपादित किया जा सकता है
- इसे conversational AI से collaborative work environment की ओर विकास का पहला चरण माना जा रहा है
- उम्मीद है कि आगे चलकर यह team collaboration को support करेगा और organization-level knowledge management tool के रूप में विकसित होगा
सुरक्षा और नैतिकता की समीक्षा
- Claude 3.5 Sonnet अभी ASL-2 स्तर पर है, इसलिए फिलहाल चिंताजनक क्षमताएँ मौजूद नहीं हैं
- UK Artificial Intelligence Safety Institute (UK AISI) ने रिलीज़ से पहले इसकी safety evaluation की
- refusal rate के मामले में भी इसने पिछले model की तुलना में सुधार दिखाया है
- user data को model training में उपयोग न करने के सिद्धांत पर यह कायम है
- frontier technology development को लेकर इसका रुख़ सावधानीपूर्ण है, लेकिन कोई स्पष्ट वादा नहीं किया गया है
software engineering पर प्रभाव
- Claude 3.5 Sonnet engineers के coding काम को काफ़ी बेहतर बनाता है। यह अड़चनों को अपने-आप हल करता है और documentation भी कर देता है
- pull request test pass rate, Opus के 38% से बढ़कर Sonnet में 64% हो गया है
- Anthropic के भीतर भी non-specialists से लेकर experienced engineers तक सभी Claude का उपयोग करके काफ़ी समय बचा रहे हैं
- यह engineers के काम का समय बहुत घटा सकता है और coding को सभी के लिए आसान बना सकता है
- AI-आधारित engineering productivity में तेज़ी आने की संभावना है
मॉडल की सीमाएँ
- यह अब भी कुछ प्रसिद्ध puzzles या games में गलती करता है। हालांकि context information देने पर कभी-कभी उन्हें हल भी कर लेता है
- sophisticated deception या attacks के प्रति इसकी संवेदनशीलता हो सकती है
- ऐसा लगता है कि किसी एक विशेष समस्या पर अटकने के बजाय इसने समग्र reasoning क्षमता सुधारने पर ज़ोर दिया है
- यह अब भी मानव-निर्मित ज्ञान का उपयोग करने के स्तर पर है, इसलिए इसकी बुनियादी सीमाएँ बनी हुई हैं
उपयोगकर्ताओं की प्रतिक्रियाएँ
- physics, chemistry, mechanical engineering जैसे विशेषज्ञता वाले क्षेत्रों में यह चौंकाने वाला प्रदर्शन दिखा रहा है
- SVG image generation, web app development, 3D simulation जैसे अनेक Artifacts उपयोग के उदाहरण सामने आ रहे हैं
- वहीं कुछ लोगों का मानना है कि यह अब भी मानवीय रचनात्मकता से आगे नहीं निकल पाया है
GN⁺ की राय
- Claude 3.5 Sonnet के आने से conversational AI तकनीक ने एक बड़ा मोड़ लिया है
- speed और cost के लिहाज़ से इसमें बड़ा सुधार हुआ है, इसलिए कई क्षेत्रों में इसका उपयोग बढ़ने की संभावना है। खासकर SW engineering की productivity बढ़ाने में यह महत्वपूर्ण योगदान दे सकता है
- Artifacts फ़ीचर यह दिखाता है कि यह सिर्फ़ साधारण बातचीत से आगे बढ़कर वास्तविक काम में उपयोगी collaborative tool बन सकता है। लंबे समय में यह enterprise knowledge management system के रूप में भी विकसित हो सकता है
- सुरक्षा और नैतिकता के मामले में Anthropic के प्रयास सराहनीय हैं। हालांकि यह अब भी पूर्ण नहीं है और निरंतर शोध व निगरानी की ज़रूरत बनी हुई है
- GPT-4 जैसे अन्य बड़े models के साथ प्रतिस्पर्धा तेज़ होने से AI तकनीक का विकास और तेज़ हो सकता है। लंबे समय में मानव-स्तर के AGI विकास की संभावना से भी इनकार नहीं किया जा सकता
- कुल मिलाकर Claude 3.5 Sonnet को इस समय का सर्वश्रेष्ठ conversational AI माना जा सकता है। यह व्यक्तियों और कंपनियों की productivity में बड़ा बदलाव ला सकता है, लेकिन इसके सामाजिक प्रभावों के लिए तैयारी भी ज़रूरी है
1 टिप्पणियां
Hacker News राय
प्रोजेक्ट फीचर: Anthropic का प्रोजेक्ट फीचर उपयोगी है, और एक साथ कई प्रोजेक्ट्स पर काम कर पाना अच्छा लगता है। लेकिन हर प्रोजेक्ट की context window छोटी महसूस हो सकती है। आगे चलकर बड़ी context window की उम्मीद है.
Claude 3.5 Sonnet: Claude 3.5 Sonnet की coding क्षमता बेहद प्रभावशाली है। यह expert programmers को और तेज़ी से काम करने में मदद करता है। high-quality code के लिए detailed instructions और results का evaluation ज़रूरी है.
कोडिंग प्रयोग: Anthropic के API के साथ coding experiment किया गया, और प्रोजेक्ट का 95% से अधिक हिस्सा Claude ने लिखा। तैयार नतीजा बहुत high quality का है.
Sonnet 3.5 की consistency: Sonnet 3.5 की consistency शानदार है, और यह पिछले models की तुलना में ज़्यादा stable responses देता है। यह एक बड़ी प्रगति है.
कोडिंग क्षमता का मूल्यांकन: GPT-4 की coding क्षमता संतोषजनक नहीं लगती। response speed धीमी हो गई है, इसलिए दूसरे options देखे जा रहे हैं.
AI तुलना: Claude इंसान की तरह सुनाई देता है और data questions में मज़बूत है। GPT-4 logical reasoning में बेहतर है। कीमत और output speed लगभग समान हैं.
बेंचमार्क ग्राफ: इस दावे से सहमति नहीं है कि benchmark graphs तेज़ी से आगे बढ़ रहे हैं। अधिक विस्तृत graphs की ज़रूरत है.
अकाउंट ब्लॉक: Anthropic Sonnet में automatic review के बाद अकाउंट ब्लॉक कर दिया गया। इससे OpenAI subscription ज़्यादा पसंद आने लगा.
अत्याधुनिक तकनीक: मौजूदा प्रतिस्पर्धी AI development environment दिलचस्प है। ऐसे दौर को सीधे अनुभव करना आनंददायक है.
AI की summary सुविधा: AI का अलग-अलग design options और नए tech stack का summary देना बहुत उपयोगी है। code examples के साथ बातचीत की लागत भी कम है.
ML models का समानीकरण: एक ही dataset इस्तेमाल करने पर लगभग समान performance वाले models सामने आते हैं। data मॉडल प्रदर्शन में अंतर ला सकता है। ML technology अब भी काफी हद तक साझा है.