Anthropic ने Claude Haiku 4.5 पेश किया

(anthropic.com)

5 पॉइंट द्वारा GN⁺ 2025-10-16 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Claude Haiku 4.5 छोटा मॉडल होने के बावजूद Claude Sonnet 4 स्तर का कोड परफ़ॉर्मेंस एक-तिहाई लागत और दोगुनी से भी अधिक गति के साथ देता है
SWE-bench Verified जैसे वास्तविक डेवलपमेंट बेंचमार्क में इसने पिछली पीढ़ी के मॉडलों से बेहतर AI कोडिंग दक्षता और responsiveness दिखाई
Sonnet 4.5 के साथ मिलकर multi-agent configuration या जटिल समस्याओं को बाँटकर चलाना संभव है, और यह real-time tasks तथा low-latency environments के लिए उपयुक्त है
real-time chatbot, customer support, pair programming आदि में उच्च बुद्धिमत्ता और गति के फ़ायदे अनुभव किए जा सकते हैं
सुरक्षा मूल्यांकन के नतीजों में इसने Anthropic मॉडलों में सबसे ऊँचा alignment स्तर दिखाया, और इसे AI Safety Level 2(ASL-2) मानक के तहत जारी किया गया
इनपुट/आउटपुट प्रति दस लाख tokens पर $1/$5

परिचय

Claude Haiku 4.5 Anthropic की नवीनतम छोटे मॉडल वाली lineup है, जो सभी उपयोगकर्ताओं के लिए परफ़ॉर्मेंस, गति और लागत-कुशलता का संतुलन देने वाला मॉडल है
यह Claude Sonnet 4 जैसी कोडिंग क्षमता दिखाता है, जबकि लागत एक-तिहाई है और गति दोगुनी से अधिक तेज़ है
कुछ विशेष कार्यों में, जैसे computer use, यह Sonnet 4 से भी बेहतर परफ़ॉर्मेंस दिखाता है
खासकर Claude for Chrome या Claude Code जैसे real-time tools में यह बिना latency वाला AI-assisted working environment देता है

मुख्य विशेषताएँ और उपयोग के मामले

यह real-time, low-latency tasks के लिए उपयुक्त है, इसलिए chatbot, customer service, pair programming आदि में उच्च दक्षता दिखाता है
Claude Code उपयोगकर्ताओं के लिए multi-agent projects, तेज़ prototyping आदि में इसकी तेज़ responsiveness इसे आदर्श बनाती है
फ़िलहाल Sonnet 4.5 अभी भी शीर्ष-स्तरीय मॉडल बना हुआ है, लेकिन Haiku 4.5 मिलते-जुलते परफ़ॉर्मेंस और बेहतर लागत-कुशलता देता है
दोनों मॉडलों को साथ भी इस्तेमाल किया जा सकता है; उदाहरण के लिए Sonnet 4.5 जटिल समस्या को हिस्सों में बाँट दे और कई Haiku 4.5 समानांतर रूप से उप-कार्य संभालें
Claude Haiku 4.5 आज से दुनिया भर में उपलब्ध है, और डेवलपर इसे Claude API में claude-haiku-4-5 के रूप में तुरंत इस्तेमाल कर सकते हैं
कीमत इनपुट/आउटपुट प्रति दस लाख tokens पर $1/$5 है

बेंचमार्क और उपयोगकर्ता मूल्यांकन

Haiku 4.5, Anthropic द्वारा जारी सबसे शक्तिशाली मॉडलों में से एक है
Augment, Warp, Gamma जैसी कई कंपनियों ने कहा कि वास्तविक परीक्षणों में उन्होंने Sonnet 4.5 के मुकाबले 90% से अधिक code quality की पुष्टि की
agentic coding, sub-agent coordination, computer use tasks आदि में इसने तेज़ प्रगति दिखाई और डेवलपमेंट अनुभव की तात्कालिकता को अधिकतम किया
परंपरागत रूप से quality, speed और cost के बीच समझौता करना पड़ता था, लेकिन Haiku 4.5 ने गति और लागत-कुशलता दोनों हासिल की हैं
यह बुद्धिमत्ता और real-time responsiveness दोनों देता है, जिससे नई AI applications की संभावनाएँ खुलती हैं
सिर्फ 6 महीने पहले तक जो परफ़ॉर्मेंस state-of-the-art मानी जाती थी, वह अब और सस्ती तथा तेज़ गति के साथ उपलब्ध है
यह जटिल workflows को तेज़ और स्थिर तरीके से संभालता है, और real-time self-correction भी कर सकता है
slide text generation जैसे विशिष्ट निर्देश पालन में इसने पुराने मॉडलों की तुलना में कहीं बेहतर सफलता दर दर्ज की
GitHub Copilot आदि के साथ इस्तेमाल करने पर यह Sonnet 4 जैसी code quality को और तेज़ी से देता है

सुरक्षा मूल्यांकन

विभिन्न सुरक्षा और alignment evaluations के नतीजों में समस्या-जनक व्यवहार की दर कम रही, और पिछले संस्करण (Claude Haiku 3.5) की तुलना में alignment भी बेहतर हुआ
Sonnet 4.5/Opus 4.1 से भी कम misalignment behavior rate दिखाते हुए, इसे Anthropic द्वारा बनाए गए मॉडलों में सबसे सुरक्षित मॉडल माना गया
chemical, biological, radiological, nuclear (CBRN) जोखिम भी बहुत कम आंका गया, इसलिए इसे ASL-2 मानक के तहत जारी किया गया
अधिक कड़े प्रतिबंधों वाले ASL-3 (Sonnet 4.5, Opus 4.1) की तुलना में इसका उपयोग अधिक स्वतंत्र रूप से किया जा सकता है

अतिरिक्त जानकारी

Claude Haiku 4.5 को Claude Code, Anthropic ऐप आदि में तुरंत इस्तेमाल किया जा सकता है
कुशल प्रोसेसिंग की वजह से उपयोग सीमा के भीतर premium model performance का लाभ लिया जा सकता है
API, Amazon Bedrock, Google Cloud Vertex AI आदि में इसे Haiku 3.5 और Sonnet 4 के सस्ते विकल्प के रूप में चुना जा सकता है
तकनीकी विवरण, मूल्यांकन परिणाम आदि आधिकारिक system card, model introduction page, documentation में देखे जा सकते हैं

2 टिप्पणियां

skageektp 2025-10-16

claude code में /model haiku टाइप करें तो इसका इस्तेमाल किया जा सकता है। यह Sonnet से तेज है और आउटपुट भी अच्छा देता है, इसलिए इस्तेमाल करने में काफ़ी बढ़िया लगता है।

GN⁺ 2025-10-16

Hacker News राय

थोड़ा संदिग्ध दिखने वाली साइकिल चलाते एक प्यारे पेलिकन की तस्वीर साझा की गई लिंक
- Gemini Pro ने शुरुआत में SVG कोड देने से मना कर दिया, लेकिन जब थोड़ा और विस्तार से कहा कि “मैं देखना चाहता हूँ कि SVG कोड सही है या नहीं”, तो आखिरकार उसने SVG कोड वापस दे दिया
- जो लोग इस benchmark की पृष्ठभूमि नहीं जानते, उनके लिए संदर्भ सामग्री साझा की गई
  Six months in LLMs,
  पेलिकन साइकिल टैग विवरण,
  benchmark methodology
- benchmark manipulation रोकने के लिए “नाव चलाता shiitake mushroom” sample भी साझा किया गया
  Shitaki Mushroom riding a rowboat
  prompt: t3.chat prompt Claude 4.5 Haiku (Reasoning High): 178.98 token/sec, 1691 tokens, Time-to-First: 0.69 सेकंड
  और Grok 4 Fast पेलिकन+साइकिल स्टाइल में तो ठीक है, लेकिन बाकी requests में कमजोर है
  Grok sample, prompt: t3.chat prompt Grok 4 Fast (Reasoning High): 171.49 token/sec, 1291 tokens, Time-to-First: 4.5 सेकंड
  आखिर में GPT-5 का नतीजा: sample, prompt: t3.chat prompt GPT-5 (Reasoning High): 115.11 tok/sec, 4598 tokens, Time-to-First: 4.5 सेकंड
  यह व्यक्तिपरक है, लेकिन Haiku के mushroom spots काफ़ी प्रभावशाली लगे
  और public benchmarks तथा अनौपचारिक test scenarios के बीच performance gap Anthropic models में सबसे कम है
  कई बार Anthropic models open benchmarks से भी बेहतर नतीजे दिखाते हैं
  Haiku का Time-to-First भी एक बड़ा फ़ायदा है
- यह हैरानी की बात है कि cutting-edge model कंपनियों ने ऐसे tests को easter egg की तरह शामिल नहीं किया
- image generation models को तीरंदाज़ की बाँहें बनाने में हमेशा दिक्कत होती है, इसलिए सुझाव दिया गया कि घोड़े पर सवार एक तीरंदाज़, जो झील में चलती पाल वाली नाव की ओर आग का तीर छोड़ रहा हो, ऐसे आसान test prompt से सभी models की तुलना की जा सकती है
बहुत शुरुआती test होने के बावजूद नतीजे काफ़ी प्रभावशाली हैं
GPT-5 के विपरीत, code changes में यह कम अनावश्यक code sections शामिल करता है और बदलाव ज़्यादा सटीक करता है
इसकी वजह से वास्तविक माहौल में Haiku 4.5, ऊपर से लागत बढ़ी हुई दिखने के बावजूद, उपयोग-कुशलता के हिसाब से सस्ता पड़ सकता है
समस्या brand power की है
हो सकता है Haiku 4.5 की quality Sonnet 4 जैसी हो, लेकिन छोटे model को लेकर धारणा और हाल की कुछ performance regressions के कारण Haiku 4.5 को Sonnet 4.5 की जगह चुनना आसान नहीं होगा
जिज्ञासा है कि Haiku 3, 3.5, 4.5 लगभग एक ही parameter range में हैं या नहीं, और अच्छा होगा अगर सभी model details पारदर्शी ढंग से प्रकाशित की जाएँ
इसी कारण ज़्यादातर लोग बड़े models की तरफ़ झुकते हैं, जबकि मुझे लगता है कि performance बनाम price के हिसाब से GPT-5 सबसे प्रभावशाली है
संदर्भ कीमतें:
Haiku 3: input $0.25/M, output $1.25/M
Haiku 4.5: input $1.00/M, output $5.00/M
GPT-5: input $1.25/M, output $10.00/M
GPT-5-mini: input $0.25/M, output $2.00/M
GPT-5-nano: input $0.05/M, output $0.40/M
GLM-4.6: input $0.60/M, output $2.20/M
- अपडेट: Haiku 4.5 सिर्फ code changes में सटीक नहीं है, बल्कि बहुत तेज़ भी है
  औसतन 220 token/sec, जो समान models की तुलना में लगभग 2 गुना है
  अगर यह speed लगातार बनी रहती है तो यह बहुत बड़ी value है
  संदर्भ के लिए, इसकी speed Gemini 2.5 Flash Lite जैसी है
  Groq, Cerebras वगैरह 1000 token/sec तक जाते हैं, लेकिन वे comparable models नहीं हैं
  मेरे personal benchmarks में Anthropic हमेशा open benchmarks से बेहतर निकला है, इसलिए उम्मीद काफ़ी है
  अगर speed, performance और pricing आगे भी ऐसे ही रहे, तो ज़्यादातर coding tasks के लिए Haiku 4.5 एक शानदार विकल्प है
  Sonnet शायद सिर्फ कुछ खास situations में ही इस्तेमाल होगा
  पहले Claude models में long-chain tasks (7 मिनट से ज़्यादा) पर performance drop देखा गया था; अगर Haiku 4.5 में भी ऐसा है तो यह कमी होगी
  लेकिन अभी long-running tasks की testing नहीं की गई है
  दिक्कत यह है कि Claude Code में Haiku 4.5 और Sonnet 4.5 का usage अभी एक जैसा गिना जा रहा है (जबकि price gap काफ़ी है)
  support page भी अभी तक update नहीं हुई है support docs
  ऐसी जानकारी launch day पर ज़रूर घोषित होनी चाहिए
  ऐसी tooling, testing, notification systems आदि Anthropic models की शानदार performance पर छाया डालते हैं
- मैं सच में Haiku update का इंतज़ार कर रहा था, और पुराने versions को भी सस्ते और स्मार्ट तरीके से इस्तेमाल कर पाता था, इसलिए लगातार उपयोग करता रहा
  अब जब यह आ गया है, तो मैं अपने सभी bots (नहीं, agents) पर upgrade लागू कर रहा हूँ
- आम तौर पर token usage का औसत जाने बिना सिर्फ prices देखना मुझे बहुत मायने नहीं रखता लगता
आजकल models और features की तुलना करना बहुत झंझट भरा और थकाऊ हो गया है
हर LLM ecosystem की सीमाएँ अलग हैं, इसलिए बार-बार switch करना पड़ता है, और मैं Claude Code तथा Codex दोनों के लिए $20/महीना दे रहा हूँ
Cursor भी इस्तेमाल करता हूँ, लेकिन अंदर कौन-सा model चल रहा है, इसकी परवाह नहीं करता
मुझे बस एक consistently integrated tool चाहिए
backend में क्या हो रहा है, इसकी मुझे चिंता न करनी पड़े, और चीज़ें अपने-आप बेहतर होती रहें
जैसे TLS server, वैसे CLI/Neovim/IDE हर जगह integration होना चाहिए
- किसी एक को चुनो तो पहले prompt-based development, फिर context-led, फिर detailed specs, और अब कहा जाता है conversational approach बेहतर है
  लेकिन फिर कोई कहता है example-driven बेहतर है, और हर approach के अपने फायदे-नुकसान हैं, पर industry-wide standard consensus नहीं है, इसलिए अच्छे examples ढूँढना भी मुश्किल है
  पहले किसी ने जवाब में “bug-driven development” कहा था और बात जँच गई, लेकिन अंत में होता यही है कि किसी भी तरीके से result निकालो, फिर bugs और errors देखकर सुधार करो
- चाहे CLI हो, neovim हो, या IDE, tooling switch का stress बिना झेले काम कर पाना मेरे लिए सबसे बड़ी प्राथमिकता है
  इसलिए मैं GitHub Copilot Pro+ इस्तेमाल कर रहा हूँ
  नया model आते ही तुरंत चुन सकते हैं (Claude Haiku 4.5 भी आ गया है)
  premium usage कभी खत्म नहीं हुआ, मैं बहुत heavy user नहीं हूँ
  CLI version नहीं आज़माया, लेकिन दिलचस्प लगता है
  IntelliJ plugin update होने से पहले मैं prompts VS Code में भेजकर फिर वापस आता था
  web version का Spaces भी छोटे-मोटे कामों के लिए उपयोगी है
  अलग-अलग LLMs की तुलना में Copilot कैसा है, यह ठीक से नहीं जानता, लेकिन मेरे लिए इतना काफ़ी है कि वह सिर्फ तब सामने आए जब मैं चाहूँ, और चुपचाप काम अच्छे से कर दे
- एक विकल्प यह भी है कि OpenRouter openrouter.ai पर openrouter/auto model इस्तेमाल किया जाए, जो GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5 जैसे कई models में से अपने-आप चुन लेता है
- Crystal के साथ Codex और Claude Code दोनों एक साथ चलाकर जो result बेहतर हो, उसे चुना जा सकता है
- मैं भी लगभग इसी वजह से OpenRouter इस्तेमाल कर रहा हूँ
  एक तरफ lock-in से बचने के लिए, दूसरी तरफ tool-switching की असुविधा कम करने के लिए, और अगर lock-in हो भी जाए तो आसानी से migrate किया जा सके
Opus के भविष्य को लेकर जिज्ञासा है
क्या यह आगे भी 'monster' स्तर की performance और pricing के साथ जाएगा, या 4 से 4.5 का jump ज़्यादा हल्का रहेगा
- हाल ही में Opus 4.1 रिलीज़ हुआ है, इसलिए 4.1 से 4.5 का बदलाव शायद Sonnet 4->4.5 upgrade की तुलना में छोटा होगा
  हालाँकि यह नहीं पता कि version numbering का कोई वास्तविक मतलब है या यह सिर्फ marketing effect है
- मेरा अंदाज़ा है कि Sonnet और Haiku 4.5, 4 वाले ही base model पर बने हैं, और Opus से generated data पर fine-tuning ही मुख्य सुधार है
  मैं industry को सिर्फ follow करता हूँ, खुद models नहीं बनाता या develop नहीं करता, लेकिन बड़े model से छोटे model को fine-tune करना industry practice है
  GPT-4 Turbo, मूल GPT-4 से इतना तेज़ और सस्ता क्यों है, इसका और कोई कारण समझ नहीं आता
  OpenAI का reasoning tokens छिपाना भी competitors को training data सीखने से रोकने की रणनीति है
- Opus कुछ समय के लिए गायब था और हाल में फिर दिखा
  शायद वे लगातार large/medium/small तीन आकार के models पर काम करते हैं और market demand तथा model capability के हिसाब से release timing तय करते हैं
- Haiku से भी छोटे model का नाम क्या होगा, यह सोचकर उत्सुकता है। शायद "Claude Phrase"?
वास्तविक code documentation माँगने वाले एक सवाल में Haiku और Sonnet की तुलना की गई
Haiku ने function output गढ़ लिया और गलत जवाब दिया, जबकि Sonnet ने सही जवाब दिया
- Haiku result: लिंक
  Sonnet result: लिंक
input $1, output $5 pricing, Sonnet 4.5 की तुलना में सस्ती है, लेकिन इस समय इतने छोटे और तेज़ LLMs आ चुके हैं कि बड़े पैमाने की agent coding के लिए और सस्ते models ज़्यादा अहम हैं
Sonnet अभी भी महँगा होने के बावजूद खूब इस्तेमाल होता है, इसलिए अगर quality अच्छी रही तो Haiku भी काफ़ी लोकप्रिय होगा
- caching का उपयोग करने पर input की लागत प्रति million 10 cents तक गिर जाती है
  लगभग सभी low-cost open source models में इतनी प्रभावी caching नहीं मिलती
  यह सचमुच बहुत बड़ा हो सकता है
- मैं एक professional developer हूँ, इसलिए cost की परवाह नहीं करता
  speed कहीं ज़्यादा महत्वपूर्ण है, इसलिए मैं Sonnet 4.5 की तुलना में Haiku 4.5 के लिए ज़्यादा भुगतान करने को भी तैयार हूँ
  जवाब का इंतज़ार करना बहुत समय बर्बाद करता है
  SWE Bench 73% पार कर ले तो मेरे लिए काफ़ी है
- API उपयोग के लिहाज़ से Claude Code वाकई महँगा हो गया है (अगर benchmarks पर भरोसा करें, तो quality फिर भी बेहतर हुई है)
- 3.5 Haiku की कीमत $0.8/$4 थी, इसलिए 4.5 का $1/$5 थोड़ा निराशाजनक है मौजूदा OpenAI और Gemini के low-cost models (GPT-5-Nano $0.05/$0.40 · Gemini 2.0 Flash Lite $0.075/$0.30) की तुलना में इसकी price competitiveness कम है
मेरी जानकारी के अनुसार यह Anthropic का पहला small Reasoner product है, और system card की जानकारी भी जोड़ी गई है
system card PDF
(संबंधित चर्चा यहाँ देखी जा सकती है)
Extended NYT Connections (connectivity puzzle benchmark) में Haiku 4.5 ने 20.0, Haiku 3.5 ने 10.0, Sonnet 3.7 ने 19.2, Sonnet 4.0 ने 26.6, और Sonnet 4.5 ने 46.1 स्कोर किया
एक freelance developer के रूप में, सिर्फ 3 गुना तेज़ response speed भी मेरे लिए पूरी तरह क़ीमती लगती है
लगता है claude 4.5 की जगह इसे अपनाने पर productivity काफ़ी बढ़ेगी
जिज्ञासा है कि ऐसे small models का उपयोग क्या है? speed? on-device transition? API bills कम करना? अगर ज़्यादातर लोग Claude subscription ही इस्तेमाल कर रहे हैं, तो क्या इनका उपयोग सीमित नहीं है?
- अब जबकि GPT-5-mini और Haiku 4.5 दोनों आ चुके हैं, उल्टा मैं पूछना चाहूँगा कि ‘बड़े model की ज़रूरत आखिर किन मामलों में है?’
  हमारी कंपनी भी जटिल internal code work को छोड़कर लगभग सब कुछ छोटे models से करती है
  user-facing environments, workflows (extraction, transformation, translation, merge, evaluation आदि) सब mini/nano models संभाल लेते हैं
- Claude Code में small models को इस तरह इस्तेमाल किया जाता है कि जब context-rich और task स्पष्ट हो (configurable), तब Sonnet 4.5 से अपने-आप delegate कर दिया जाता है
  इससे मुख्य session का context window बचता है और token throughput बढ़ता है
- बड़े model द्वारा बुलाए जाने वाले, ज़्यादा specialized tool-call submodules बनाने के लिए यह आदर्श है
- मैं जिस Cerebras Qwen Coder workflow का उपयोग करता हूँ, वह लगभग real-time (3k tps) है, इसलिए वह agent से ज़्यादा एक natural language shell जैसा महसूस होता है
  बड़े model को योजना सौंपने से पहले तेज़ी से iterative experiments किए जा सकते हैं
- OpenRouter LLM rankings देखने पर भी, वास्तव में vibe/agentic coding में इस्तेमाल होने वाले ज़्यादातर models ‘small class’ के हैं
  OpenRouter rankings link
  हालाँकि Gemini 2.5 Pro भी उम्मीद से ऊँची रैंक पर है