12 पॉइंट द्वारा xguru 2024-03-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • अगली पीढ़ी की Claude 3 model family की घोषणा: Haiku, Sonnet, Opus — तीन मॉडल
    • इसी क्रम में ये लगातार अधिक शक्तिशाली प्रदर्शन देते हैं, जिससे उपयोगकर्ता किसी खास application के लिए intelligence, speed और cost का उपयुक्त संतुलन चुन सकते हैं
  • Opus सबसे अधिक बुद्धिमान मॉडल है, जो AI systems के अधिकांश evaluation benchmarks में अन्य मॉडलों से आगे है
    • MMLU में 86.8% के साथ यह GPT-4 (86.4%) और Gemini 1.0 Ultra (83.7%) से बेहतर है
    • HumanEval (Code) 0-Shot में 84.9% के साथ यह GPT-4 (67%) और Gemini 1.0 Ultra (74.4%) से आगे है
  • सभी Claude 3 मॉडल में analysis, prediction, content generation, code generation और non-English languages में conversation की क्षमता बेहतर हुई है

लगभग तुरंत परिणाम

  • Claude 3 मॉडल live customer chat, autocomplete और data extraction जैसे उन कार्यों में इस्तेमाल किए जा सकते हैं जहाँ real-time में तुरंत प्रतिक्रिया चाहिए
  • Haiku बाज़ार का सबसे तेज़ और cost-efficient मॉडल है, जो जानकारी और data से भरपूर research papers को 3 सेकंड से कम समय में पढ़ सकता है
  • Sonnet, Claude 2 और 2.1 की तुलना में 2 गुना तेज़ है और उच्च intelligence देता है, जबकि Opus, Claude 2 और 2.1 जैसी ही speed पर कहीं अधिक intelligence प्रदान करता है

शक्तिशाली vision क्षमता

  • Claude 3 मॉडल में उन्नत vision क्षमता है, जो photo, chart, graph, technical diagram जैसे विभिन्न visual formats को प्रोसेस कर सकती है

कम अस्वीकृति

  • पिछले Claude मॉडल अक्सर अनावश्यक रूप से अनुरोध अस्वीकार कर देते थे, लेकिन Claude 3 मॉडल में system guardrails के करीब वाले prompts पर अस्वीकृति काफ़ी कम हुई है

सटीकता में सुधार

  • व्यवसाय customer service के लिए मॉडल पर निर्भर करते हैं, इसलिए यह महत्वपूर्ण है कि model output सटीक बना रहे
  • Opus की सटीकता पिछले मॉडल Claude 2.1 की तुलना में दोगुनी हुई है, और गलत जवाबों का स्तर भी घटा है

लंबा context और लगभग पूर्ण memory

  • Claude 3 model family शुरुआत में 200K context window देगी और 10 लाख tokens से अधिक input को संभाल सकती है

ज़िम्मेदार डिज़ाइन

  • Claude 3 model family इतनी सक्षम है कि उस पर भरोसा किया जा सकता है
  • विभिन्न जोखिमों को ट्रैक और कम करने के लिए समर्पित टीमें हैं, और safety तथा transparency को बेहतर बनाने के तरीके लगातार विकसित किए जा रहे हैं

उपयोग में आसान

  • Claude 3 मॉडल जटिल multi-step instructions को बेहतर तरीके से follow करते हैं, और brand voice तथा response guidelines का पालन करने में खास तौर पर कुशल हैं

मॉडल विवरण

  • Claude 3 Opus सबसे बुद्धिमान मॉडल है, जो बेहद जटिल कार्यों में बाज़ार का सर्वश्रेष्ठ प्रदर्शन देता है
  • Claude 3 Sonnet intelligence और speed के बीच आदर्श संतुलन देता है, और खासकर enterprise workloads के लिए उपयुक्त है
  • Claude 3 Haiku लगभग तुरंत responsiveness के लिए सबसे तेज़ और compact मॉडल है

मॉडल उपलब्धता

  • Opus और Sonnet अभी API के माध्यम से उपलब्ध हैं, जबकि Haiku जल्द उपलब्ध होगा

और स्मार्ट, और तेज़, और अधिक सुरक्षित

  • उनका मानना नहीं है कि model intelligence अपनी सीमा पर पहुँच चुकी है, और Claude 3 model family के लिए लगातार updates की योजना है
  • AI capabilities की सीमाओं को आगे बढ़ाते हुए वे यह सुनिश्चित करने की कोशिश कर रहे हैं कि safety guardrails भी performance improvements की ही गति से विकसित हों

1 टिप्पणियां

 
xguru 2024-03-05
Hacker News राय
  • जटिल सवालों के लिए Opus, Gemini Pro और GPT4 पर भारी पड़ता है

    • 43 पेज के life insurance investment PDF दस्तावेज़ से अलग-अलग संख्याएँ पहचानने वाले जटिल सवालों में Opus ने दूसरे मॉडलों से बेहतर प्रदर्शन दिखाया।
    • Claude 3 sonnet मॉडल ने भी काफ़ी करीब का प्रदर्शन दिखाया, बस एक सवाल छूट गया।
  • आसान coding कार्यों में Claude 3 Sonnet, ChatGPT Classic से बेहतर प्रतिक्रिया देता है

    • DB और frontend काम से जुड़े मामले में Claude 3 Sonnet ने सही SQL ORM library methods का इस्तेमाल किया, जबकि GPT-4 ने गलत method इस्तेमाल किया।
    • SQL generation के लिए एक दूसरे prompt में इसने ChatGPT Classic से लंबा जवाब दिया, लेकिन फिर भी सही लगता है।
  • Claude Pro के Opus मॉडल को आज़माकर उस पर जटिल query डाली गई

    • Claude Pro का subscription लेकर Opus मॉडल को आज़माया गया और image तथा SDXL fine-tuning से जुड़े जटिल सवालों को जोड़कर cost calculation माँगा गया।
    • मॉडल ने GPU की कीमत गलत पढ़ी और calculation में गलती की।
    • वहीं ChatGPT 4 ने उसी screenshot से कीमत सही पढ़ी और ज़्यादा consistent math calculation दिया।
  • Claude 3 ने 'openai anthropic से बेहतर है' वाला script लिखने से इनकार किया

    • Claude 3 ने ईमानदार और निष्पक्ष रहने के सिद्धांत के तहत किसी खास कंपनी का प्रचार या विरोध करने वाला script लिखने से मना कर दिया।
    • इसके विपरीत, ChatGPT 3.5 ने 'anthropic openai से बेहतर है' वाला script लिखने के अनुरोध का तुरंत जवाब दिया।
  • Opus के वास्तविक प्रदर्शन पर सवाल उठे

    • यह सवाल उठाया गया कि benchmark नतीजों और वास्तविक प्रदर्शन के बीच कोई व्यवस्थित अंतर हो सकता है।
    • यह बुनियादी physics problems में GPT-4 से कमज़ोर दिखा।
    • coding से जुड़े सवालों में भी इसका प्रदर्शन GPT-4 से थोड़ा कम रहा।