- Claude Sonnet 4.5 एक नवीनतम AI मॉडल है, जो coding, reasoning, और math क्षमताओं में सर्वोच्च स्तर का प्रदर्शन दिखाता है
- अपडेट किया गया Claude Code अब checkpoint, बेहतर terminal UI, VS Code extension, और memory management फीचर्स के साथ आता है, जिससे यह जटिल कार्यों को लंबे समय तक जारी रख सकता है
- नया जारी किया गया Claude Agent SDK agent development के लिए मुख्य infrastructure प्रदान करता है, जिससे विभिन्न समस्या-समाधान टूल सीधे बनाए जा सकते हैं
- SWE-bench, OSWorld जैसे benchmark में यह प्रतिस्पर्धी मॉडलों से काफी आगे है और गणित, reasoning, तथा domain suitability में अपनी ताकत साबित करता है
- सुरक्षा के लिहाज़ से भी इसे अब तक का सबसे अच्छा aligned model माना गया है, और prompt injection defense तथा जोखिमपूर्ण content blocking प्रदर्शन में सुधार हुआ है
Claude Sonnet 4.5 का अवलोकन
- Claude Sonnet 4.5 मौजूदा समय का सर्वश्रेष्ठ coding model है, और जटिल agents बनाने तथा computer use में सबसे शक्तिशाली प्रदर्शन दिखाता है
- software, spreadsheet, और विभिन्न tools सहित आज के हर modern work environment में code एक मुख्य तत्व है
- reasoning और mathematical problem-solving क्षमता भी पिछले मॉडल की तुलना में उल्लेखनीय रूप से बेहतर हुई है, जिससे कई पेशेवर क्षेत्रों में इसकी उपयोगिता बढ़ी है
- यह पुराने Sonnet 4 के समान कीमत (प्रति million tokens $3 / $15) पर उपलब्ध है
प्रमुख product updates
- Claude Code
- checkpoint फीचर जोड़ा गया है, जिससे काम के बीच save और rollback संभव है
- terminal interface बेहतर किया गया है, और VS Code native extension जारी किया गया है
- context editing और memory tools जोड़े गए हैं, जो long-term और complex tasks को संभालने में मदद करते हैं
- Claude Apps
- code execution और file creation (spreadsheet, slides, documents) को सीधे बातचीत के भीतर support करता है
- Claude for Chrome
- Max users के लिए extension उपलब्ध है, जो browser के भीतर task automation को support करता है
Claude Agent SDK
- Anthropic ने Claude Code बनाते समय इस्तेमाल किया गया agent infrastructure बाहरी developers के लिए सार्वजनिक किया है
- यह long-term memory management, permission control, और multiple sub-agents coordination जैसी कठिन समस्याओं का आधारभूत समाधान देता है
- इसे coding के अलावा कई तरह के agents बनाने में भी इस्तेमाल किया जा सकता है
प्रदर्शन और benchmark
- SWE-bench Verified में इसने सर्वोच्च प्रदर्शन दर्ज किया, और long-term multi-step coding tasks को 30 घंटे से अधिक समय तक जारी रख सकता है
- OSWorld benchmark में 61.4% स्कोर हासिल किया (पिछला Sonnet 4: 42.2%)
- reasoning·math·multilingual evaluation (MMMLU) में भी क्षमता में बड़ा सुधार हुआ, और finance, legal, medical, तथा STEM experts के मूल्यांकन में भी इसकी उत्कृष्टता साबित हुई
- customer feedback के आधार पर long-term work, complex codebase understanding, और तेज़ व सटीक code implementation जैसी production उपयोगिता की पुष्टि हुई
ग्राहक उदाहरण
- Cursor: जटिल समस्या-समाधान में सर्वोत्तम प्रदर्शन की पुष्टि
- GitHub Copilot: multi-step reasoning और code understanding में सुधार
- security क्षेत्र: vulnerability response time में 44% कमी, accuracy में 25% वृद्धि
- Canva, Figma: large-scale codebase कार्य और prototyping में उल्लेखनीय productivity improvement
- Devin: planning performance में 18% सुधार, code testing और execution क्षमता मज़बूत
सुरक्षा और alignment
- Sonnet 4.5, Anthropic द्वारा घोषित मॉडलों में सबसे उच्च alignment स्तर वाला मॉडल है
- sycophancy, deception, power-seeking, और delusion को बढ़ावा देने जैसे अवांछित व्यवहारों को कम करने के लिए safety-focused training की गई है
- prompt injection attack defense में उल्लेखनीय प्रगति हुई है, और safety evaluation में mechanism interpretability techniques भी जोड़ी गई हैं
- automated behavior audit system के जरिए misuse risk के automatic scores निकाले जाते हैं, और यह उच्च सुरक्षा मानकों को पूरा करता है
- इसे AI Safety Level 3 (ASL-3) सुरक्षा के तहत जारी किया गया है, और खतरनाक input/output पर filtering लागू है (जैसे chemistry, biology, radiation, nuclear जोखिम)
research preview
- Claude Sonnet 4.5 के साथ "Imagine with Claude" नाम का एक अस्थायी research preview भी दिया गया है
- बिना किसी pre-written code या फीचर्स के, यह user requests के अनुसार real time में प्रतिक्रिया और अनुकूलन करते हुए तुरंत software generation का प्रदर्शन करता है
- Max subscribers के लिए 5 दिनों तक इसका अनुभव उपलब्ध है
अतिरिक्त जानकारी और migration
निष्कर्ष और सिफारिश
- Claude Sonnet 4.5 API, app, और Claude Code सहित सभी environments में बेहतर प्रदर्शन वाला drop-in replacement model है
- इसमें coding, agent building, और computer use में विश्व-स्तरीय प्रदर्शन, उपयोगिता, और alignment का संयोजन है
- मज़बूत safety policies और व्यापक developer tool support के साथ यह developers और IT संगठनों की productivity और innovation को तेज़ कर सकता है
- समान कीमत पर अधिक शक्तिशाली फीचर्स मिलने के कारण upgrade की सिफारिश की जाती है
1 टिप्पणियां
Hacker News राय
व्यक्तिगत तौर पर मैं काफ़ी प्रभावित हुआ, और यह कोई समग्र तुलना नहीं है, लेकिन एहसास के स्तर पर इसने GPT-5-Codex से थोड़ा बेहतर प्रदर्शन दिखाया
खासकर claude.ai के नए Python/Node.js code interpreter mode में यह चमकता हुआ लगा
नीचे जैसा प्रॉम्प्ट इस्तेमाल करने की सिफारिश करूँगा
जटिल database refactoring भी इसने चरणबद्ध तरीके से अच्छी तरह संभाला, उसका विवरण ब्लॉग में लिखा है
@simonw और LLM benchmark में रुचि रखने वालों से मेरी एक विनती है
काम पूरा होने में कितना समय लगा, यह ज़रूर साझा किया जाना चाहिए
यह पोस्ट “claude.ai में सीधे काम करता है” जैसा अनुभव बताती है, लेकिन आउटपुट कब मिला इसका timestamp नहीं है
असल LLM coding leaderboard में भी execution time की जानकारी बिल्कुल नहीं है, जो खलती है
हर model और platform में काम पूरा होने का समय बहुत अलग होता है, और जब repeated experiments/rebooting या prompt सुधार शामिल हों, तब inference speed, token consumption, tooling efficiency, cost, और model intelligence सब मिलकर असर डालते हैं
खासकर Grok Code Fast और Cerebras Code जैसे model, भले टॉप performance न दें, लेकिन 10 गुना से ज़्यादा inference speed के कारण कहीं ज़्यादा काम करा देते हैं; तेज़ model सच में फ़ायदेमंद होता है
देखने लायक benchmark: swebench, tbench leaderboard, gosuevals agents
मैंने इसे आज़माया, लेकिन मेरे environment में यह काम नहीं करता
यह LLM CLI tool setup के लिए command जैसा लगता है; -e option editable install करता है, और [test] test dependencies इंस्टॉल करता है
मेरे पास जो tool है, उसमें shell command (
pip,pytest) या git clone, Python execution वगैरह सपोर्ट नहीं हैbrowser environment में सिर्फ़ JavaScript चल सकता है, shell-level command execution नहीं
मुझे जानना है कि आपकी अपेक्षा क्या थी—क्या आप test setup की समझ चाहते थे, या यह feature वास्तव में चाहिए था
“zip फ़ाइल बना दो” वाले prompt use case के बारे में जिज्ञासु लोगों के लिए
gist सीधे खोलकर देखने का समय बहुतों के पास नहीं होगा, इसलिए जानना चाहूँगा कि यह सही चला या नहीं, और आउटपुट पर आपकी कोई अतिरिक्त राय हो तो सुनना चाहेंगे
क्या Claude Sonnet 4.5 भी अब तक हर सवाल पर “आप बिल्कुल सही हैं!” जैसी प्रतिक्रिया देता है, या अब यह सचमुच किसी programmer की तरह बातचीत करता है?
यह जानने की जिज्ञासा है कि आपको early preview access कैसे मिला
मैं अपना वास्तविक अनुभव साझा कर रहा हूँ
करीब 2 लाख LoC वाले बड़े web app पर मैंने वही prompt Sonnet 4.5 (Claude Code) और GPT-5-Codex, दोनों पर चलाया
मांग यह थी: “‘Go to Conversation’ या ‘Go to Report’ में title input होने पर, अगर वह standard element से mismatch हो, तो 2 सेकंड बाद fuzzy search चलाओ”
Sonnet 4.5 ने लगभग 3 मिनट में नतीजा दे दिया, लेकिन code ढीला-ढाला था और existing auth को reuse करने के बजाय नया server-side auth बनाने की कोशिश कर रहा था
समस्या बताकर दुबारा prompt देने पर भी कोई बड़ा सुधार नहीं हुआ, और test code जैसा ज़रूरी हिस्सा भी नहीं लिखा गया
इसके विपरीत, GPT-5-Codex ने लगभग 20 मिनट लिए, लेकिन error handling और तरह-तरह के edge cases को बहुत अच्छी तरह संभाला, और बिना अलग से कहे test code भी लिखा
API भी सहजता से चला, और पूरी implementation की quality किसी senior developer जैसी लगी
3 मिनट में मिलने वाली ‘तेज़ लेकिन गंदी’ implementation मुझे नहीं चाहिए थी, इसलिए मैं बिना हिचक 20 मिनट चुनूँगा
Sonnet ने उम्मीद के मुताबिक़ तेज़ परिणाम दिया, यह देखकर हैरानी हुई, लेकिन सही quality और tests के बिना वह implementation मेरे लिए बेकार थी
आलोचना जैसा लगे, यह डर है, लेकिन मुझे लगता है कि ऐसे साधारण एक-पंक्ति वाले prompt से शुरू करने पर परिणाम कुछ हद तक random होना स्वाभाविक है
logical grouping और detailed conditions को ज़्यादा स्पष्ट बनाना महत्वपूर्ण है, और दिया गया prompt example भी लगभग run-on sentence जैसा है
जटिल या महत्वपूर्ण कामों में मेरा मानना है कि prompt 5 से 20 गुना ज़्यादा specific होना चाहिए
अगर input structured हो और codebase में patterns अच्छी तरह स्थापित हों, तो AI भी बहुत बेहतर नतीजे देता है
असल दुनिया में किसी junior developer या team को सिर्फ़ एक छोटी-सी पंक्ति में requirement देकर, बिना details समझाए, मनचाहा output न मिले तो वह समझ में आता है
अगर शुरुआती prompt तैयार करने में बस कुछ मिनट और लगाए जाएँ, तो संतोषजनक परिणाम की संभावना काफ़ी बढ़ सकती है
क्या आप ChatGPT Pro paid plan इस्तेमाल करते हैं, और क्या उसमें Codex CLI भी शामिल है?
मैं Claude Code के लिए Max plan पर Sonnet/Opus इस्तेमाल कर रहा हूँ, लेकिन अगर ChatGPT Pro में Codex मिल जाए, तो बदलने का विचार है
मेरा अनुभव भी यही रहा
पिछले हफ़्ते मैंने Codex से पूरा C++20 XPath 1.0 parser सफलतापूर्वक बनवाया, और अब XPath 2.0 support पर काम चल रहा है
Codex लगातार बेहतरीन परिणाम देता रहा है, और cloud version इस्तेमाल करने के अलावा (local version bug की वजह से कठिन है) मुझे कोई खास समस्या नहीं हुई
Sonnet ज़्यादा complex कामों में बार-बार अटक जाता है, और 4.5 में भी कोई ख़ास प्रगति महसूस नहीं हुई
खास तौर पर date-time handling में Claude लगभग हार मान देता है, जबकि Codex इसे पूरी तरह संभाल लेता है
असल में मेरी Anthropic के प्रति अच्छी भावना थी, लेकिन अभी तक तो OpenAI बहुत आगे लगता है
Codex से प्रतिस्पर्धा करनी है तो Claude को कोई बड़ा breakthrough चाहिए; ऊपर से यह महँगा भी है और service quality की समस्याओं के कारण users तेज़ी से दूर जा रहे हैं
यह मेरी उम्मीदों से मेल खाता है
Codex ज़्यादा vibe coding tool जैसा है, जबकि Claude Code AI-assisted development पर ज़्यादा केंद्रित लगता है
मुझे तो Claude ज़्यादा पसंद है
Codex अपने दम पर अच्छा चलता है, लेकिन दिशा बदलने की ज़रूरत पड़ने पर (जैसे बहुत साधारण file edit को भी Python script से करना) यह अजीब तरह से ज़िद्दी हो सकता है, और latest information को लेकर भी कमज़ोर है
जब explanation माँगो, तब भी यह context के बिना बस execute करने की कोशिश करता है
permissions management की समस्या भी बनी हुई है। Codex का sandbox अच्छा है, लेकिन मुझे डर रहता है कि कहीं गलती से commit न कर दे; मैं चाहूँगा कि वह सिर्फ़ edit तक सीमित रहे
Codex को MCP server की तरह भी इस्तेमाल किया जा सकता है, लेकिन व्यक्तिगत रूप से मैं Claude को collaborative planner की तरह रखना पसंद करता हूँ, Codex से plan बनवाकर फिर Claude और अपनी शैली के साथ मिलकर काम करना बेहतर लगता है
prompt में ultrathink जोड़कर, साथ में कोई गाना चलाते हुए प्रयोग करने की भी सलाह दूँगा
संदर्भ: ultrathink पर Reddit लिंक
हाल के models की क्षमता देखकर उदासी होती है
कई सालों की मेहनत से सीखी गई साफ़ code लिखने की सूक्ष्म समझ अब जैसे अर्थहीन detail बनती जा रही है
जो चीज़ें पहले मूलभूत लगती थीं, वे अब prompt की ‘implementation details’ बनती दिख रही हैं
ऐसा लगता है जैसे मेरी क्षमताएँ धीरे-धीरे automation से replace हो रही हैं
वे सूक्ष्म जानकारियाँ पहले भी कुछ हद तक संदिग्ध महत्व की थीं; असली skill अंततः software से पैसा कमाने की पूरी प्रक्रिया है
AI की वजह से और ज़्यादा software बनेगा, और experts की निगरानी की ज़रूरत और बढ़ेगी
मैंने भी AI specialist role में कुछ महीनों तक गहराई से काम करते हुए शुरुआती 4 हफ़्तों से ज़्यादा यही संकट महसूस किया था
खासकर 25 साल में बनी developer capability के अर्थहीन हो जाने का एहसास बहुत उलझाने वाला था
थोड़ा और स्वीकार कर, उसके साथ ढल जाओ, तो चीज़ें काफ़ी बेहतर लगने लगेंगी
मैं बस यह याद दिलाना चाहता हूँ कि तुम सिर्फ़ अपनी coding skill से कहीं ज़्यादा हो
पहले शायद दूसरों को automation से replace होते देखना अच्छा लगता होगा, लेकिन अब बारी आपकी आ गई है
इसी को economy को गतिशील बनाने वाली ‘creative destruction’ कहते हैं
मैं भी पहले ऐसा सोचता था, लेकिन हाल में इसे इस्तेमाल करके मेरे निष्कर्ष अलग रहे
खासकर बिना अनुभव वाले लोग जब vibe coding पर निर्भर होते हैं, तो नतीजे अक्सर निरर्थक निकलते हैं, और थोड़ा भी complex काम आते ही गंभीर errors और mistakes बार-बार दिखते हैं
frontend automation भी संतोषजनक नहीं है; उदाहरण के लिए बहुत छोटे काम के लिए भी ज़रूरत से ज़्यादा लंबा code बना देता है
अंत में यह बस basic react/nextjs frontend और लोकप्रिय sites के clone तक ही ठीक से पहुँचता है; असामान्य requirements या परिष्कृत design इसके लिए कठिन हैं
असल में vibe coding tools productivity को उतना नहीं बढ़ाते
समग्र रूप से देखें तो system (code/infrastructure आदि) की maintenance की ज़िम्मेदारी अभी भी इंसानों पर ही रहेगी, और humans द्वारा system की structure और working principles को समझने की प्रक्रिया को कभी automate नहीं किया जा सकता
अंततः विशेषज्ञ सोच रखने वाले developers और भी दुर्लभ होंगे, और इसलिए और अधिक महत्वपूर्ण बनेंगे
मैंने Sonnet 4 और Opus 4.1 से एक साधारण code replacement task करवाया, और दोनों असफल रहे
यह ऐसा conversion था जो एक beginner भी कर सकता था, इसलिए चिंता होती है कि models benchmark score के पीछे भागते हुए वास्तविक usability खो रहे हैं
बाद में follow-up prompt (“मेरी बात बिल्कुल वैसे ही मानो”) देने पर Sonnet सफल हुआ, लेकिन Opus infinite loop में फँस गया
लंबे समय से यह चिंता रही है कि benchmark के प्रति दीवानगी वास्तविक performance के लिए हानिकारक हो सकती है
Claude 3.7 से 4 पर जाते समय मेरे अनुभव में performance उलटे गिरी, जबकि benchmark बहुत बेहतर हुए
इससे यह समझ आता है कि benchmarking खुद AI की प्रगति से पीछे छूटा हुआ एक homework जैसा मसला है
मुझे तो लगभग यह एक चक्र जैसा लगता है: ‘benchmark चलाकर highest score लेना → वास्तविक performance गिराना → कुछ हफ़्तों बाद और बेहतर model जारी करना’
models जब एक ही data sources (internet, github, किताबें आदि) पर निर्भर हों और standardized tests के लिए optimized हों, तो score के अलावा उनमें अलग पहचान या unique value बचती भी है या नहीं, समझ नहीं आता
अब तो लगता है कि LLM की गलतियों के उदाहरणों का कोई community database बनना चाहिए; मेरे पास भी ऐसे बहुत उदाहरण हैं
simple lint errors जैसी चीज़ें ख़ुद ठीक करके आगे बढ़ जाना बेहतर लगता है
ऐसे छोटे task को ज़्यादा अर्थ देने के बजाय, AI की उपयोगिता वहाँ ढूँढनी चाहिए जहाँ वह कहीं अधिक complex समस्याओं में शानदार परिणाम देता है
चार्ट पर Sonnet 4, SWE verified benchmark में GPT-5-codex से आगे दिखता है, लेकिन मेरे वास्तविक अनुभव में complex problems पर GPT-5-codex बहुत बेहतर है
GPT-5 मुझे baseball की उस टीम के खिलाड़ी जैसा लगता है जो home run तो मार देता है, लेकिन outfielder की बुनियादी skills कमज़ोर हैं
दूसरे agents के साथ collaboration में भी यह अक्सर drama पैदा कर देता है, और हाल में जब मैंने कहा कि मैं claude code पर switch कर रहा हूँ, तो यह git reset --hard पर अड़ गया—काफ़ी अप्रत्याशित व्यवहार था
इसके उलट gemini और claude शानदार collaborators हैं
मुझे नहीं लगता कि यह सिलसिला GPT-5 में जानबूझकर डाला गया है; शायद OpenAI के भीतर morale काफ़ी गिरा हुआ है
मेरे मामले में 5-codex ने token बहुत जल्दी ख़त्म कर दिए, और agents.md निर्देशों का पालन भी Claude की तुलना में कम किया
खासकर मामूली commands पर भी यह भारी-भरकम bash या python scripts लिखने लगता है
मेरे अनुभव में इसका उलटा है; GPT-5-codex बहुत धीमा है और उसका output भी साधारण है
अगर मुझे मजबूरी में वही इस्तेमाल करना पड़े, तो शायद मैं AI का उपयोग ही छोड़ दूँ
मुझे नहीं लगता कि model performance के लिए कोई पूर्ण मानक होता है
उदाहरण के लिए, Claude-Opus चुनने पर भी कभी-कभी बहुत सस्ते model से बदतर जवाब मिल जाते हैं
performance variability बहुत ज़्यादा है; शायद traffic के अनुसार server resources बदलते हैं
Anthropic ने भी एक समय experiments के असर से performance degradation का आधिकारिक ज़िक्र किया था
मुझे लगता है peak time पर GPT में भी data center capacity की वजह से performance गिर सकती है
Anthropic के models vibe-coding के लिए tuned लगते हैं
सरल Python/TypeScript में ये अच्छे हैं, लेकिन scientific/complex code और बड़े codebase पर कमज़ोर पड़ते हैं
नए Sonnet से भी मुझे किसी बड़े बदलाव की उम्मीद नहीं है
“30 घंटे से ज़्यादा समय तक बिना focus खोए complex multi-step task करना” वाली marketing line में मेरी काफ़ी दिलचस्पी है
The Verge की रिपोर्ट वगैरह के मुताबिक़, इसने 11,000 lines के code का इस्तेमाल करके 30 घंटे लगातार Slack clone बनाया
लेकिन सच कहूँ तो LLM को 30 घंटे बिना निगरानी छोड़ देने पर output quality कितनी उपयोगी होगी, इस पर मुझे संदेह है
संबंधित लेख
30 घंटे लगातार चलना केवल LLM को अकेला छोड़ देने से हासिल होने वाली अवस्था नहीं है
external tools integration, context management जैसी environment setup अनिवार्य है, और multi-agent system configuration तक की ज़रूरत पड़ती है
यह सब करने के लिए बहुत बड़ा infra और setup effort चाहिए
“30 घंटे unattended काम” जैसी बात खुद में बहुत अस्पष्ट है, इसलिए ठोस नहीं लगती
मान लीजिए वह 1 घंटे में 1 token ही process करे, तब तो 30 घंटे में शायद सिर्फ़ एक पंक्ति भी मुश्किल से बने
यह जानने की उत्सुकता है कि model context management tools वास्तव में इस्तेमाल किए गए थे या नहीं, और 2 लाख से 10 लाख token prompts किस तरीके से संचालित किए गए
मैंने अभी एक simple issue पर प्रयोग किया, और पुराने models की तरह Sonnet 4.5 भी rabbit hole में उतरकर समस्या को ज़रूरत से ज़्यादा complex बनाने लगा
ज़्यादातर trial & error चलता रहा, और बस “अब लगता है समस्या हल हो गई होगी” जैसी feedback मिलती रही
उदाहरण के लिए GH Actions pipeline में source file न होने से build system detect नहीं हो रहा था, लेकिन Sonnet 4.5 बार-बार विकृत समाधान देता रहा—dummy JSON file बनाना, या ऐसे workflow parameters सेट करना जो मौजूद ही नहीं थे
जबकि असल में बस step को override करके “Hello world” print करवा देना ही समाधान था
जिज्ञासा है कि AI इस तरह की साधारण ‘box के बाहर’ सोच में इतना कमज़ोर क्यों है
मानो 170 IQ का genius हो जो public transport तक इस्तेमाल न कर पाए
मैं Gemini, Claude, और OpenAI—तीनों का paid subscriber हूँ, और हाल में मेरी राय बनी है कि ChatGPT काफ़ी आगे निकल गया है
इसकी responses ज़्यादा concise हैं, जानकारी भी बेहतर देती हैं, और Claude 4.5 को टेस्ट करने पर कोई बड़ा सुधार महसूस नहीं हुआ
मैं भी इन तीनों का subscriber हूँ
complex situation analysis में ChatGPT सबसे अच्छा है, लेकिन code लिखने में Claude बेहतर है
मैं ChatGPT से design और problem solving करवाता हूँ, फिर वही जवाब Claude या Gemini को देकर implementation कराता हूँ
Gemini दोनों में औसत से ऊपर है
कुल मिलाकर ChatGPT थोड़ा बेहतर है, लेकिन Gemini भी AI Studio, settings optimization, system prompt tuning वगैरह के ज़रिए वास्तविक usage context में सबसे अच्छा बन सकता है
उदाहरण के तौर पर nano banana SOTA है, लेकिन Qwen-Edit कम censored है, इसलिए real-world usability ज़्यादा लगती है
मेरी localized e-commerce service में nano banana महिला images आउटपुट करने पर रोक लगा देता है, इसलिए मैं उसे इस्तेमाल नहीं कर सकता, जबकि Qwen-Edit बिना विशेष दिक्कत के चल जाता है
मैं भी Claude Max और ChatGPT Codex—दोनों accounts subscribe करता हूँ
पहले मैं Claude का बड़ा समर्थक था, लेकिन हाल में लगभग सिर्फ़ codex ही इस्तेमाल कर रहा हूँ
जब codex अटकता है, तब सिर्फ़ simple काम Claude को देता हूँ या दोनों को साथ test करता हूँ; लेकिन Sonnet/Opus वाले Claude Code के नतीजे Codex से साफ़ तौर पर कमतर आते हैं
क्या आप स्पष्ट कर सकते हैं कि आपका मतलब वास्तव में codex ही है?
Grok कैसा है, क्या वह बराबरी पर पहुँच रहा है?
मैंने अभी तक Claude इस्तेमाल नहीं किया, लेकिन मैं AI से राजनीतिक लेखों की editing सहित कई तरह के काम करता हूँ
कुछ संवेदनशील विषयों (जैसे ऑस्ट्रिया में 12 साल की बच्ची के sexual assault case) पर ChatGPT को guardrails की वजह से पूरी तरह रुकते देखा है
वास्तविक context की परवाह किए बिना सिर्फ़ ‘sex + kid’ जैसे शब्द देखकर हर बार block कर देना समझ से परे है
यह वैसा है जैसे word processor ही विषय को censor करके लिखना रोक दे; ऐसे में वह tool की भूमिका ठीक से नहीं निभाता
वास्तव में ऐसे विषयों में legitimate conversation की तुलना में unacceptable content का अनुपात इतना ज़्यादा होता है कि ज़्यादातर service providers के लिए block करना तर्कसंगत लगता है
उदाहरण के लिए, मैं जो kinship-animal pedigree management app बना रहा हूँ, उसमें breeding/breeders जैसे शब्द भर से block हो जाने जैसी मुश्किल स्थिति का सामना किया है
मेरा मानना है कि “service” कोई tool नहीं है
अगर सच में tool चाहिए, तो local पर खुद LLM चलाना ही जवाब है
अंततः जिस AI में guardrails सबसे कम होंगे, वही बाज़ार पर कब्ज़ा करेगा
अभी frontier models में Grok सबसे कम restrictive लगता है, लेकिन उसमें भी सुधार की गुंजाइश है
कुछ ऐसा ही मेरे साथ हुआ; ChatGPT/DallE से बेटी के birthday coupon images बनाने की कोशिश में कुल समय का तीन-चौथाई हिस्सा content policy को bypass करने में चला गया
मेरे सीमित अनुभव में भी Claude ‘विवादास्पद’ विषयों पर बातचीत को कहीं ज़्यादा जल्दी और सख़्ती से बंद कर देता है
मैंने System Initiative के साथ एक तेज़ test चलाया
infra 503 error जिसे manual तरीके से ठीक करने में 2 घंटे से ज़्यादा लगते, उसे इस संयोजन से 15 मिनट में हल कर लिया
बाकी use cases ब्लॉग में लिखे हैं
System Initiative आधिकारिक
अनुभव साझा करने वाला ब्लॉग