Claude 3 मॉडल परिवार
(anthropic.com)- Anthropic ने Claude 3 परिवार पेश किया है, जिसमें Haiku, Sonnet और Opus के साथ intelligence, speed और cost के बीच संतुलन चुनने वाली नई model lineup दी गई है
- Opus MMLU, GPQA, GSM8K जैसे प्रमुख evaluations में समान श्रेणी के models से आगे है, और Claude 3 कुल मिलाकर analysis, prediction, code generation और non-English conversations में बेहतर हुआ है
- speed differentiation इसका मुख्य आधार है: Haiku लगभग 10k-token वाले arXiv paper को 3 सेकंड से कम में पढ़ सकता है, और Sonnet अधिकतर workloads में Claude 2 और 2.1 से 2 गुना तेज है
- Claude 3 photos, charts, graphs और technical diagrams जैसे vision inputs को process करता है, और launch के समय 200K context window तथा 1 million tokens से अधिक input की संभावना के साथ आता है
- Opus और Sonnet claude.ai और Claude API पर तुरंत उपलब्ध हैं, API 159 देशों में उपलब्ध है, और Haiku जल्द launch होगा
मॉडल संरचना और उपलब्धता
- Claude 3 परिवार performance के ascending order में Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus से बना है
- हर model को application के हिसाब से intelligence, speed और cost का संतुलन चुनने के लिए design किया गया है
- Opus और Sonnet claude.ai और Claude API पर उपलब्ध हैं
- Claude API general availability में है और 159 देशों में उपलब्ध है
- Haiku जल्द उपलब्ध होगा
- claude.ai का free experience Sonnet से powered है, और Opus Claude Pro subscribers के लिए उपलब्ध है
- Sonnet Amazon Bedrock पर भी उपलब्ध है, और Google Cloud के Vertex AI Model Garden में private preview के रूप में उपलब्ध है
- Opus और Haiku भी जल्द दोनों platforms पर जोड़े जाएंगे
intelligence, speed और multimodal performance
- Opus Anthropic का सबसे intelligent model है, जो MMLU, GPQA, GSM8K जैसे AI system evaluation benchmarks में कई मामलों में समान श्रेणी के models से आगे है
- Claude 3 models analysis और prediction, fine-grained content generation, code generation, और Spanish, Japanese, French जैसी non-English conversations में बेहतर capabilities दिखाते हैं
- real-time response महत्वपूर्ण होने वाले कामों के लिए उपयोग का दायरा बढ़ गया है
- live customer chat
- autocomplete
- data extraction
- Haiku अपनी intelligence category में सबसे तेज और cost-effective model है, और charts व graphs वाले लगभग 10k-token arXiv paper को 3 सेकंड से कम में पढ़ सकता है
- Sonnet अधिकतर workloads में Claude 2 और Claude 2.1 से 2 गुना तेज है और higher intelligence level देता है
- knowledge search
- sales automation
- Opus Claude 2 और Claude 2.1 जैसी speed बनाए रखते हुए higher intelligence level देता है
vision input, refusals में कमी और accuracy improvement
- Claude 3 models में दूसरे leading models जैसी vision capabilities हैं
- photos
- charts
- graphs
- technical diagrams
- कुछ enterprise customers के knowledge base का 50% तक हिस्सा PDF, flowchart, presentation slides जैसे formats में stored है, इसलिए नए input formats बहुत महत्वपूर्ण हैं
- पिछले Claude models अक्सर ऐसे unnecessary refusals देते थे जो context understanding की कमी जैसे लगते थे, लेकिन Claude 3 के Opus, Sonnet और Haiku में system guardrails के करीब prompts पर पिछली generation की तुलना में answer refuse करने की संभावना काफी कम हुई है
- Claude 3 requests को ज्यादा fine-grained तरीके से समझने और वास्तविक harm पहचानने के लिए बेहतर किया गया है, ताकि harmless prompts पर refusals घटें
- accuracy evaluation में current model की known weaknesses को target करने वाले complex factual questions का set इस्तेमाल किया गया
- answers को correct, incorrect या hallucination, और uncertainty acknowledgement में classify किया गया
- Opus ने Claude 2.1 की तुलना में कठिन open-ended questions पर correct-answer rate को 2 गुना बेहतर किया और incorrect-answer level भी घटाया
- Claude 3 models में जल्द citation feature जोड़ा जाएगा, जिससे answers verify करने के लिए reference material के exact sentences की ओर point किया जा सकेगा
लंबा context और recall capability
- Claude 3 परिवार launch के समय 200K context window देता है
- तीनों models 1 million tokens से अधिक input ले सकते हैं, और यह ज्यादा processing capability की जरूरत वाले कुछ customers को उपलब्ध कराया जा सकता है
- long-context prompts को ठीक से handle करने के लिए मजबूत recall capability जरूरी है
- Needle In A Haystack(NIAH) evaluation बड़े data corpus से information को सही तरीके से recall करने की क्षमता मापता है
- evaluation robustness बढ़ाने के लिए हर prompt में 30 random needle/question pairs में से एक का इस्तेमाल किया गया
- अलग-अलग crowdsourced document corpora पर test किया गया
- Claude 3 Opus ने NIAH में 99% से ज्यादा accuracy के साथ लगभग perfect recall हासिल किया
- कुछ cases में इसने evaluation की limits भी पहचान लीं, जैसे यह समझना कि “needle” sentence मूल text में इंसान द्वारा artificial तरीके से insert किया गया लगता है
safety design और bias mitigation
- Anthropic ने Claude 3 परिवार को उसकी capabilities जितना ही trustworthy बनाने पर focus किया
- dedicated teams कई risks को track और mitigate करती हैं
- misinformation
- CSAM
- biological misuse
- election interference
- autonomous replication capability
- model safety और transparency बढ़ाने के लिए Constitutional AI जैसे methods का विकास जारी है
- नए input formats से पैदा हो सकने वाली privacy issues को mitigate करने के लिए models को tune किया गया है
- Bias Benchmark for Question Answering(BBQ) के आधार पर Claude 3 में पिछले models की तुलना में कम bias है
- Claude 3 परिवार biological knowledge, cyber-related knowledge और autonomy के प्रमुख metrics में पिछले models से आगे बढ़ा है, लेकिन Responsible Scaling Policy के तहत AI Safety Level 2(ASL-2) पर ही रहता है
- red-team evaluation ने निष्कर्ष निकाला कि current models में catastrophic risk की संभावना बहुत कम है
- evaluation White House commitments और 2023 US Executive Order के अनुरूप किया गया
- future models ASL-3 threshold के कितने करीब हैं, इसकी monitoring जारी रहेगी
- extra safety details Claude 3 model card में हैं
usability, model-wise pricing और use cases
- Claude 3 models complex multi-step instructions को बेहतर follow करते हैं
- brand voice और response guidelines का पालन करने तथा reliable customer-facing experiences बनाने के लिए ये ज्यादा उपयुक्त हैं
- JSON जैसे structured outputs generate करने की क्षमता बेहतर हुई है, जिससे natural-language classification और sentiment analysis जैसे use cases में Claude को instruct करना आसान होता है
-
Claude 3 Opus
- Claude 3 Opus सबसे intelligent model है, जो अत्यधिक complex tasks में top-level performance देता है
- open prompts और पहली बार आने वाले scenarios को high fluency और human-like understanding के साथ handle करता है
- कीमत input के प्रति 1 million tokens $15 और output के प्रति 1 million tokens $75 है
- context window 200K है, और specific use cases में 1 million tokens भी संभव हैं
- संभावित use cases
- APIs और databases में complex task planning और execution, interactive coding
- research review, brainstorming, hypothesis generation, drug discovery
- charts और graphs, finance, market trends, predictions पर advanced analysis
-
Claude 3 Sonnet
- Claude 3 Sonnet intelligence और speed के balance को target करता है, खासकर enterprise workloads के लिए tuned है
- समान श्रेणी के models से कम cost पर strong performance देता है, और large-scale AI deployment में high durability के लक्ष्य से design किया गया है
- कीमत input के प्रति 1 million tokens $3 और output के प्रति 1 million tokens $15 है
- context window 200K है
- संभावित use cases
- विशाल knowledge पर RAG या search/retrieval
- product recommendation, prediction, targeted marketing
- code generation, quality control, images से text parsing
-
Claude 3 Haiku
- Claude 3 Haiku लगभग instant responsiveness के लिए सबसे तेज और सबसे छोटा model है
- simple queries और requests का बहुत तेजी से जवाब देता है, और human interaction की नकल करने वाला smooth AI experience बनाने का लक्ष्य रखता है
- कीमत input के प्रति 1 million tokens $0.25 और output के प्रति 1 million tokens $1.25 है
- context window 200K है
- संभावित use cases
- live interactions में तेज और accurate customer support, translation
- risky behavior या customer requests पकड़ने के लिए content moderation
- logistics optimization, inventory management, unstructured data से knowledge extraction
planned features और updates
- Anthropic मानता है कि model intelligence अपनी limit के करीब नहीं है, और आने वाले महीनों में Claude 3 परिवार के लिए frequent updates release करने की योजना है
- enterprise use cases और large-scale deployment के लिए model capabilities को मजबूत करने वाले features planned हैं
- tool use, यानी function calling
- interactive coding, यानी REPL
- अधिक advanced agent capabilities
- AI capabilities की boundary को आगे बढ़ाते हुए safety guardrails को भी performance improvements के अनुरूप बनाए रखने की नीति है
- Claude के साथ development शुरू करने का entry point anthropic.com/claude है
1 टिप्पणियां
Hacker News की राय
मैंने अभी अपने LLM command-line tool में Claude 3 models का support जोड़ने वाला plugin जारी किया है
pipx install llm,llm install llm-claude-3,llm keys set claudeसे setup करने के बाद इसेllm -m claude-3-opus '3 fun facts about pelicans'की तरह चला सकते हैंCode: https://github.com/simonw/llm-claude-3
LLM का विवरण: https://llm.datasette.io/
llm -m gpt-4में भेजा और result कोosascriptdialog box में दिखाया, तो यह बहुत उपयोगी निकलाअब किसी भी app में text drag करके service menu का
LLMचला सकता हूँ, और keyboard shortcut भी जोड़ दिया है; इसे terminal errors समझने, adhoc search, और text editor/IDE में सीधे prompt डालने के लिए इस्तेमाल कर रहा हूँhn.algolia.comAPI से posts और comments लाकर उन्हेंjqसे expand किया, फिरllm -m claude-3-opusमें डालकर topic-wise Markdown summary और direct quotes बनवाएइस 300+ comments वाले thread पर चलाने का result: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
pipयाaptसे install करते ही चलने वाला software और बढ़ेगा, लेकिन अभी इंसान द्वारा API key paste करने वाला परेशान करने वाला step बचा हुआ हैमजाक में यह भी कहा जा सकता है कि API limit के करीब पहुँचने पर GPU से थोड़ा Bitcoin mine करके extra API capacity के लिए automatic payment कर देना AI युग जैसा होगा
Opus और पुराने Claude models अभी भी Sally problem ठीक से solve नहीं कर पाते
“अगर Sally के 3 भाई हैं और हर भाई की 2 बहनें हैं, तो Sally की कितनी बहनें हैं?” इस सवाल पर Claude यह निष्कर्ष निकालता है कि Sally को छोड़कर कोई बहन नहीं है, इसलिए जवाब 0 है
https://imgur.com/a/EawcbeL
Prompting style की अहमियत के कारण models की peak performance compare करना काफी मुश्किल हो जाता है, और हर model में best performance देने वाली prompt style भी अलग होती है
उदाहरण के लिए, Sally और तीनों भाई एक ही माँ share करते हों लेकिन पिता अलग हों, और भाइयों की Sally और Mary नाम की दो बहनें हों, लेकिन Mary और Sally के parents के sets अलग होने से वे आपस में बहनें न हों
PhD-level intelligence कहा जाता है, लेकिन ऊपर वाला problem भी सही से reason नहीं कर पाता; PhD-level information volume और advanced reasoning अलग चीजें हैं, और लगता है बहुत लोग यह फर्क नहीं समझते
Self-driving में भी lane follow करना आसान है लेकिन lane identification और object identification मुश्किल हैं; जैसे car basic action कर रही हो तो लोग समझ बैठते हैं कि वह situation सच में समझ रही है, LLMs भी वैसे ही लगते हैं
Model कहाँ गलत होता है, सिर्फ उसी पर अटके रहने के बजाय, वह जो कमाल की चीजें सही कर पाता है उन्हें भी साथ में देखना चाहिए
Claude 3 Opus का APPS benchmark 70.2% दिखाता है कि यह coding में काफ़ी उपयोगी हो सकता है
APPS समस्या-विवरण को Python code में बदलने की क्षमता मापता है, और समस्याओं की औसत लंबाई लगभग 300 शब्द है
दिलचस्प बात यह है कि अन्य top-tier models ने इस benchmark के results सार्वजनिक नहीं किए
Claude 3 model card: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
APPS dataset: https://huggingface.co/datasets/codeparrot/apps
APPS paper: https://arxiv.org/abs/2105.09938v3
students का average क्रमशः 64.4 और 61.5 है, जबकि Opus 3 ने 72 और 63 score किया
AMC 12 participants, अमेरिका के कुल 30–40 लाख 12th-grade students में से 1 लाख से कम होने की संभावना है, और अगर मान लें कि सिर्फ़ top-tier students में से आधे ही भाग लेते हैं, तब भी AMC average अमेरिकी high school students के top 2–4% को represent कर सकता है
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
उनके मुताबिक, दूसरे क्षेत्रों के PhD holders भी internet का इस्तेमाल करते हुए 30 मिनट से ज़्यादा लगाकर इन्हें हल करें तो 34%, और उसी field के PhD holders internet इस्तेमाल करें तो भी 65–75% accuracy मिलती है
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
ChatGPT-4 की तुलना में यह कई orders of magnitude ज़्यादा खराब लगा, और actual use में ऐसा लगा जैसे बहुत पीछे लौट गए हों
सिर्फ़ introductory पर भी यह अच्छा performance है, लेकिन कौन-सा criterion था यह पता चले तो बेहतर होगा
Claude 3 के विवरण में यह बात बार-बार खटकती है कि पिछले मॉडल की तुलना में गैर-ज़रूरी refusals कम हुए हैं
यह समझ में आता है कि कंपनी ऐसा product नहीं बेचना चाहती जिससे कोई भी ड्रग्स या बम बनाने के तरीके सीख ले, लेकिन अगर मेरे कंप्यूटर पर चलने वाला मॉडल मेरे मांगे हुए काम से मना कर दे तो बुरा लगता है
मनचाहा नतीजा पाने के लिए मॉडल को मनाना या धोखा देना पड़ता है, और कोई tool अपने मालिक के आदेश मानने से इनकार करे, यह इंसान और tool के रिश्ते के प्रति अपमान जैसा लगता है
अगर मैं हथौड़े का इस्तेमाल स्क्रू पर करना चाहूं तो वह मेरी पसंद है, हथौड़े का फैसला नहीं; और मुझे समझ नहीं आता कि किसी तीसरे पक्ष द्वारा परिभाषित “safety” की वजह से AI tool को उसके मालिक के आदेश न मानने देने पर इतना जोर क्यों है
वे नहीं चाहते कि उनके tools से दूसरों के किए काम उनकी अंतरात्मा पर बोझ बनें
हालांकि बहुत से लोग thought crime में विश्वास रखते हैं और सेक्स को लेकर puritanical मान्यताएं रखते हैं, इसलिए इनके अनुरूप न चलने पर reputation और funding की लागत आती है
अगर user मॉडल से अपराध करता है तो कानूनी व्यवस्था उसे संभाल सकती है; मुझे नहीं लगता कि Big Brother को thought crimes तक की निगरानी करनी चाहिए
अभी हथौड़े वाली उपमा काफी हद तक सही लग सकती है, लेकिन AI alignment वाले मानते हैं कि ये systems जल्द ही, अधिकतम 10 साल के भीतर, क्षमताओं में बहुत आगे बढ़ जाएंगे
किसी tool की मूल अवस्था नैतिक रूप से neutral होती है और वह अच्छे और बुरे दोनों लोगों को अधिक प्रभावी बनाता है; अगर attack और defense symmetric हों तो समस्या छोटी है, लेकिन ऐसा होने की कोई वजह नहीं
automatic high-capacity machine guns पर regulation भी इसलिए है क्योंकि अकेले बुरे actor की attack क्षमता और उसे defend न कर पाने के बीच asymmetry बहुत बड़ी है; और अगर AI attacks defense से कहीं आसान हो गए तो openness की विचारधारा वास्तविकता में विफल हो सकती है
हालांकि guardrails को कोई छोटा समूह तय करे, यह समस्या है, और यह AI के बहुत तेजी से आ जाने का side effect लगता है
सरकारी दबाव की वजह से या “हमारा हथौड़ा गलती से बच्चों को चोट नहीं पहुंचाता” जैसी competitive marketing के कारण भी ऐसा हो सकता है; और हथौड़ों में ऐसा feature न होना शायद कोई choice नहीं, बल्कि limitation का by-product हो सकता है
क्या Photoshop का पैसे की image edit करने से रोकना भी बुरा लगता है? वह मॉडल user का नहीं है, और उसे बनाने में अरबों dollars खर्च करने वाला भी user नहीं है
commercial software में हमेशा की तरह, developer द्वारा तय शर्तों पर इस्तेमाल करें या बिल्कुल न करें
target market वे बड़ी companies हैं जो कई काम automate करके करोड़ों से अरबों dollars की labor cost बचाना चाहती हैं, और उन्हें accurate information और अच्छे guardrails वाला भरोसेमंद model चाहिए
कोई बड़ी multinational insurance company यह risk नहीं लेगी कि उसका customer-support chatbot किसी मजाक में उकसाए गए customer के लिए erotica लिख दे
महत्वपूर्ण users individuals नहीं, बल्कि वे employers हैं जो emotional labor करने वाले customer-support staff को replace करना चाहते हैं; उन्हें controlled, polite और guardrails वाले human replacements चाहिए
Opus ने complex questions में Gemini Pro और GPT-4 को पीछे छोड़ दिया
यह 43-page की life insurance investment PDF में कई numbers ढूंढने का task था, और दूसरे models आसपास भी नहीं पहुंचे
सिर्फ Claude 3 Sonnet एक question miss करने के स्तर तक करीब था
43-page PDF के लिए यह ideal हो सकता है, और मेरे पास access है इसलिए Pro 1.5 से test कर सकता हूं
Claude Pro subscribe करके Opus test किया; image और SDXL fine-tuning से जुड़े complex questions पूछे, और RTX 6000 Ada बनाम H100 cost comparison calculate कराया, लेकिन गलतियां बहुत थीं
Runpod GPU pricing का screenshot दिया तो उसने RTX 6000 Ada की price $1.14 के बजाय $0.114 पढ़ ली, और बाद की calculations में भी
.278 * $0.114या.116 * $4.69उसके दिए total से match नहीं कर रहे थेइसके उलट ChatGPT 4 ने उसी screenshot से price सही पढ़ी, यह देखकर कि RTX 6000 Ada उपलब्ध नहीं है, खुद 4090 से substitute किया, और ज्यादा consistent calculations कीं
formula items को ढूंढकर किसी hand-made parser और function को भेजना, फिर result को output tokens में वापस डालना—इसके बिना यह problem fix करने का तरीका नहीं दिखता
संदर्भ: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
अभी तक किसी भी LLM के पास emergent calculator नहीं आया है
क्या मतलब यह है कि vision capability image input न होने वाले tasks में भी intelligence बढ़ाती है?
उदाहरण के लिए एक complex arithmetic expression में calculator का सही answer 22.08555452004 था, Python के बिना GPT-4 ने 22.3038 दिया, और Claude 3 Opus ने 22.0492 दिया
उसके बाद r/wallStreetBets bots को जितना चाहो चलाना होगा
DB और frontend से जुड़ा एक आसान coding task prompt आज़माया, और free व कमजोर मॉडल Claude 3 Sonnet ने ChatGPT Classic से बेहतर जवाब दिया
उसने कम-ज्ञात SQL ORM library का सही method इस्तेमाल किया, जबकि GPT-4 ने गलत method इस्तेमाल किया
हालांकि SQL generation prompt में इसका जवाब ChatGPT Classic से खराब था, और सही दिखने के बावजूद काफी लंबा था
ChatGPT लिंक 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
ChatGPT लिंक 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
हरा icon पहली generation के ChatGPT model को दर्शाता है, और शायद वह GPT-3.5 Turbo होने की संभावना ज्यादा है
GPT-4 पर चलाने से अपेक्षित परिणाम मिलता है: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
यह बताने का अच्छा उदाहरण है कि internet पर मौजूद ChatGPT की कई failure cases कमजोर मॉडल के results होते हैं
हरे background वाला OpenAI icon GPT-3.5 है, काला या बैंगनी icon GPT-4 है, और API वाला GPT-4 Turbo शायद Drizzle के बारे में ज्यादा जानता है, इसलिए थोड़ा बेहतर रहा
Opus को थोड़ा इस्तेमाल करके मुझे शक होने लगा है कि benchmarks वास्तविक performance से systematic रूप से अलग पड़ रहे हैं
असल में यह GPT-4 से बेहतर नहीं लगता, बल्कि थोड़ा और खराब लगता है
basic calculus/physics वाले सवाल में साफ लिखा था कि deceleration velocity के proportional है, फिर भी इसने constant deceleration मान लिया; और traffic simulation test में इसने पहले की बातचीत में बताए गए direction concepts भूल गए, जिससे यह GPT-4 के पहले से ही खराब result से भी नीचे रहा
context में सिखाने के बाद basic light colors समझने वाले test में भी यह ज्यादा खराब था, और coding में long-term capital gains tax calculation problem में GPT-4 से थोड़ा पीछे था
Claude 3 को https://double.bot के Chat में जोड़ दिया है, इसलिए coding के लिए इस्तेमाल करके देख सकते हैं
अभी यह free है, और आज दोपहर autocomplete में भी Claude 3 जोड़ने की योजना है
शुरुआती tests के हिसाब से यह GPT-4 का पहला API alternative जैसा लगता है, और यह बड़ी बात है
Codeium में पहले से काफी अच्छी support है
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
मैं इसी domain में product बना रहा हूं और ऐसी requests कुछ बार मिली हैं; IDE extension हो तो लगता है कि जहां भी AI model चल रहा हो, उससे connect किया जा सकता है
किसी भी model का GPT-4 को पार करना बड़ी बात है, और यह कर दिखाना बहुत impressive है
हालांकि GPT-4 एक साल पुराना model है और OpenAI ने अभी अगली generation model जारी नहीं किया है
GPT-3 paper 2020 में आया था और Anthropic 2021 में ही founded हुआ था, इसलिए OpenAI के पास तीन generations का experience था, जबकि Anthropic ने practically शून्य से शुरू करके कुछ benchmarks में कम से कम temporarily आगे निकल गया
OpenAI का next-gen model शायद training खत्म करके fine-tuning और safety evaluation में होगा, लेकिन Anthropic का raison d’être safety है, इसलिए यह मानना मुश्किल है कि उन्होंने इस model को जल्दी release करने के लिए उस हिस्से को हल्के में लिया होगा
GPT-4-1106-previewऔरGPT-4-0125-previewहैंसंदर्भ: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
यहां इसने GPT-4 को बहुत थोड़ा पीछे छोड़ा है, और अब तक कोई और model ऐसा नहीं कर पाया लगता था, इसलिए यह अपने आप में impressive है