Claude 3.7 Sonnet और Claude Code लॉन्च

(anthropic.com)

1 पॉइंट द्वारा GN⁺ 2025-02-25 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Anthropic ने Claude 3.7 Sonnet को अपने सबसे बुद्धिमान मॉडल और बाजार के पहले hybrid reasoning model के रूप में पेश किया, जो एक ही मॉडल में तुरंत जवाब और यूज़र को दिखने वाली चरण-दर-चरण सोच दोनों को सपोर्ट करता है
नया मॉडल standard mode और extended thinking mode चुनने की सुविधा देता है, और API में thinking budget को output limit 128K tokens तक N tokens की इकाई में नियंत्रित किया जा सकता है
coding और frontend web development में सुधार काफी बड़ा है; शुरुआती customer tests में complex codebases को संभालना, full-stack updates, agent workflows, web apps बनाना, और production-ready code तैयार करना इसकी ताकत के रूप में सामने आया
साथ में जारी Claude Code सीमित research preview के रूप में उपलब्ध command-line आधारित agent coding tool है, जिसे code explore/edit/test करने, GitHub tasks और command-line tools इस्तेमाल करने का काम सौंपा जा सकता है
Claude 3.7 Sonnet Free·Pro·Team·Enterprise और प्रमुख developer platforms पर उपलब्ध है; extended thinking mode free Claude tier को छोड़कर उपलब्ध है, और कीमत input के प्रति 1M tokens $3, output के प्रति 1M tokens $15 ही रहेगी

Claude 3.7 Sonnet की hybrid reasoning

Claude 3.7 Sonnet Anthropic द्वारा पेश किया गया उसका सबसे बुद्धिमान मॉडल है, जो तुरंत जवाब और विस्तृत चरण-दर-चरण सोच दोनों generate कर सकता है
extended thinking प्रक्रिया यूज़र को दिखाई देती है, और API users बारीकी से नियंत्रित कर सकते हैं कि मॉडल कितनी देर सोचे
Anthropic ने reasoning को अलग मॉडल नहीं, बल्कि frontier model की integrated capability के रूप में लेने का तरीका चुना है
- standard mode में यह Claude 3.5 Sonnet के upgraded version की तरह काम करता है
- extended thinking mode में यह जवाब देने से पहले self-reflection करता है, जिससे math, physics, instruction following, coding जैसे कई tasks में performance बढ़ती है
- दोनों modes में prompting का तरीका आम तौर पर मिलते-जुलते ढंग से काम करता है
API में thinking budget को N tokens के रूप में specify किया जा सकता है, और N को output limit 128K tokens तक सेट किया जा सकता है
- इस control का इस्तेमाल speed और cost को answer quality के साथ trade off करने के लिए किया जाता है

वास्तविक काम पर केंद्रित coding performance

Claude 3.7 Sonnet coding और frontend web development में खास तौर पर बड़ा सुधार दिखाता है
Anthropic का कहना है कि उसने math·computer science प्रतियोगी समस्याओं के optimization का weight कुछ कम किया और उन tasks पर अधिक focus किया जिनमें कंपनियां वास्तव में LLMs का उपयोग करती हैं
शुरुआती tests में कई customers ने coding performance का मूल्यांकन किया
- Cursor ने मूल्यांकन किया कि complex codebases संभालने से लेकर advanced tool use तक, real coding tasks में Claude फिर से top level पर है
- Cognition ने code change planning और full-stack updates संभालने में इसे अन्य models से काफी बेहतर बताया
- Vercel ने complex agent workflows में इसकी high precision पर जोर दिया
- Replit ने बताया कि जहां दूसरे models रुक जाते हैं, वहां Claude से sophisticated web apps और dashboards scratch से बनाए गए
- Canva के evaluation में Claude ने बेहतर design sense के साथ लगातार production-ready code generate किया और errors को काफी घटाया

Claude Code का सीमित research preview

Claude Code Anthropic का पहला agent coding tool है, और सीमित research preview के रूप में उपलब्ध है
developers terminal में Claude को काफी engineering work delegate कर सकते हैं
Claude Code developer को process में लगातार शामिल रखते हुए ये काम करता है
- code search और पढ़ना
- files edit करना
- tests लिखना और चलाना
- GitHub पर code commit और push करना
- command-line tools इस्तेमाल करना
Anthropic के अंदर यह test-driven development, complex problems debug करने, और large-scale refactoring में खास तौर पर उपयोगी साबित हो रहा है
शुरुआती tests में Claude Code ने ऐसे tasks एक बार में पूरे किए जिन्हें आम तौर पर manually 45 मिनट से अधिक समय लगता है, जिससे development time और overhead घटे
आने वाले कुछ हफ्तों में tool calling reliability सुधारना, long-running commands का support, in-app rendering सुधारना, और Claude की अपनी capabilities की समझ बढ़ाना planned है
preview में शामिल होकर उन tools तक पहुंच मिल सकती है जिनका इस्तेमाल Anthropic Claude को बनाने और सुधारने में करता है, और feedback Claude Code की भविष्य की दिशा में शामिल होगा

Claude.ai और GitHub codebase integration

Claude.ai का coding experience भी बेहतर हुआ है, और GitHub integration सभी Claude plans में उपलब्ध है
developers अपने code repositories सीधे Claude से connect कर सकते हैं
Claude 3.7 Sonnet Anthropic का मौजूदा best coding model है, और personal, work और open source projects को ज्यादा गहराई से समझकर bug fixes, feature development और documentation में इस्तेमाल किया जा सकता है

उपलब्धता और कीमत

Claude 3.7 Sonnet सभी Claude plans में उपलब्ध है
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet Claude Developer Platform, Amazon Bedrock, Google Cloud Vertex AI पर भी उपलब्ध है
extended thinking mode free Claude tier को छोड़कर सभी उपलब्ध environments में इस्तेमाल किया जा सकता है
standard mode और extended thinking mode दोनों की कीमत पिछले model जैसी ही है
- input के प्रति 1M tokens $3
- output के प्रति 1M tokens $15
- output price में thinking tokens शामिल हैं

safety evaluation और system card

Claude 3.7 Sonnet को external experts के साथ व्यापक testing और evaluation से गुजारा गया है, और इसे security, safety और reliability standards पूरा करने के लक्ष्य से verify किया गया है
harmful requests और normal requests के बीच ज्यादा बारीकी से अंतर कर, पिछले model की तुलना में अनावश्यक refusals को 45% घटाया {p:45}
system card में कई categories के नए safety results और Responsible Scaling Policy evaluation details शामिल हैं
system card computer use से पैदा होने वाले नए risks, खास तौर पर prompt injection attacks, को cover करता है
- Anthropic में इन vulnerabilities का evaluation और Claude को resist/mitigate करने के लिए train करने का तरीका शामिल है
reasoning models के संभावित safety benefits भी साथ में cover किए गए हैं
- model कैसे decisions लेता है, इसे समझने की संभावना
- model reasoning वास्तव में भरोसेमंद और stable है या नहीं

evaluation scaffolding और SWE-bench details

TAU-bench score Airline Agent Policy में planning tool के use को बेहतर तरीके से निर्देश देने वाला prompt addendum डालकर मिला
- सामान्य thinking mode से अलग, यह model को problem solving के दौरान अपने thoughts लिखने के लिए प्रेरित करता है
- extra thinking steps की वजह से maximum steps 30 से बढ़ाकर 100 किए गए
- अधिकतर trajectories 30 steps से कम में समाप्त हो गए, और 50 steps से ऊपर सिर्फ एक trajectory गया
- Claude 3.5 Sonnet का TAU-bench score dataset improvements के बाद updated dataset पर फिर से run किया गया value है
SWE-bench Verified में विभिन्न agent task solving methods मौजूद हैं, और Agentless file search, patch location finding, और regression test आधारित best-of-40 rejection sampling का इस्तेमाल करता है
Claude 3.7 Sonnet और Claude 3.5 Sonnet के default evaluations में अधिक सरल minimal scaffolding का इस्तेमाल किया गया
- model single session में तय करता है कि कौन से commands run करने हैं और कौन सी files edit करनी हैं
- इसमें bash tool, string replacement आधारित file editing tool, और TAU-bench में बताए गए planning tool का इस्तेमाल हुआ
internal infrastructure constraints के कारण SWE-bench Verified के 500 में से केवल 489 वास्तव में solve किए जा सके, और बाकी 11 को official leaderboard के साथ fairness के लिए failures के रूप में गिना गया
high compute results में parallel attempts, visible regression tests तोड़ने वाले patches को discard करना, और score model आधारित final selection इस्तेमाल हुआ
- इस तरीके ने internal infrastructure पर चले 489 verified tasks के subset में 70.3% score किया
- उसी 489 subset में बिना scaffolding के Claude 3.7 Sonnet ने 63.7% हासिल किया

2 टिप्पणियां

GN⁺ 2025-02-25

Hacker News की राय

Claude 3.7 Sonnet ने aider बहुभाषी leaderboard पर thinking के बिना 60.4% स्कोर किया
यह o3-mini-high के साथ संयुक्त तीसरे स्थान पर है, और Sonnet 3.5 के पास मौजूद सबसे ऊंचा non-reasoning स्कोर अपने नाम कर लिया है
aider 0.75.0 में 3.7 Sonnet support जोड़ा गया है, और कहा गया है कि thinking support तथा benchmark results जल्द आएंगे
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- Exercism के 225 coding tasks के बारे में सोचता हूं कि test set data leakage को कम करने की कोशिश की गई थी या नहीं
  लगता है ये tasks 2023 से पहले से ही इंटरनेट पर मौजूद थे, इसलिए आधुनिक models के training data में इनके शामिल होने की संभावना काफी ज्यादा दिखती है
- thinking tokens को अधिकतम 32k तक इस्तेमाल करने पर Sonnet 3.7 ने 64.9% के साथ नया रिकॉर्ड बनाया
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, thinking नहीं / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- दिलचस्प है कि Claude 3.5 में 99.6% रहा सही diff format स्कोर Claude 3.7 में घटकर 93.3% हो गया
  claude-code इस्तेमाल करने के अनुभव से, सही diff पाने तक कई बार कोशिश करनी पड़ती थी; उम्मीद है stability आने के साथ यह बेहतर होगा
- मैं करीब एक साल से aider project को follow कर रहा हूं ताकि समझ सकूं कि software engineering agents कैसे बनाए जाते हैं
  पिछले हफ्ते New York AI Engineering Summit में एक बेहद senior staff AI engineer से मिला, जो aider से काफी अविश्वसनीय काम कर रहे थे, और मैं सचमुच हैरान रह गया
  यह public forum पर डालने के लिए शायद उपयुक्त न हो, इसलिए अगर अनुमति मिले तो सोच रहा हूं कि ऐसे real-world aider project की कहानियां सीधे share करने का कोई तरीका है क्या
मैं Claude Code team से Boris हूं, और @eschluntz, @catherinewu, @wolffiex, @bdr के साथ अगले करीब एक घंटे तक product से जुड़े सवालों के जितने हो सकें जवाब दूंगा
- एक चीज है जिसे मैं जरूर ठीक होते देखना चाहता हूं। जब prompt डालते हैं, model जवाब का 90% या 100% बना देता है, और फिर system capacity exceeded बताकर error दिखाता है कि जवाब नहीं बनाया जा सकता, और पहले से निकला response भी मिटा देता है
  अधूरा ही सही, पहले से दिए गए response तक access मिलना चाहिए
- मेरी सबसे बड़ी शिकायत यह है कि UI में थोड़े भी heavy queries कुछ बार करने पर लगातार usage limit लग जाती है
  console API इस्तेमाल कर सकता हूं, लेकिन तब Projects जैसी features खो जाती हैं
  जानना चाहता हूं कि क्या निकट भविष्य में ये limits बढ़ने की संभावना है
- Claude मेरा हर काम के लिए default LLM है, और यह सुनने में clichéd लगेगा, लेकिन सच में इसने उस दायरे को कई गुना बढ़ा दिया है जिसे मैं व्यावहारिक रूप से सीख सकता हूं
  इन दिनों मैं बिना संबंधित background knowledge के पुराने philosophical texts पढ़ रहा हूं; अगर Claude कठिन वाक्यों को आसान करके न समझाता, ideas पर चर्चा न करता, historical context और यह क्यों उस तरह लिखा गया, तथा नए विचारों से तुलना तक में मदद न करता, तो मैं कई बार छोड़ चुका होता
  काम में भी development के लिए रोज कई बार इस्तेमाल करता हूं, और concise mode दूसरे LLMs की तुलना में सचमुच refreshing है
  unfamiliar codebase में bugs ढूंढने, tech stack समझाने और bash scripts लिखने में इसने दर्जनों घंटे और बहुत stress बचाया है
  हालांकि service stability दूसरों की तुलना में थोड़ी कम है, इसलिए कभी-कभी दूसरे model पर जाना पड़ता है; जानना चाहता हूं कि क्या इसे बेहतर करने की कोई योजना है
- मैं 6 साल से untouched पुराने class-based React component code को बहुत messy तरीके से refactor कर रहा था, और कुछ दिनों तक Aider इस्तेमाल करने के बाद एक wall से टकरा गया
  मैं GitHub पर Aider source code खंगालकर prompts निकालने और खुद एक छोटा helper script बनाने ही वाला था, इसलिए इस release की timing perfect थी
  Claude Code install करके देखा तो यह काम तेजी से निपटा रहा है, और interface तथा “Ruminating”, “Schlepping” जैसी personality expressions भी पसंद आईं
  कुल मिलाकर बेहतरीन काम है
- command-line tool अभी-अभी आजमाना शुरू किया है, और 5 मिनट के first impression के आधार पर कहूंगा कि aider में जो per-query cost और session total cost display अच्छा लगता था, वह claude-code में भी हो तो अच्छा होगा
  मैं Claude 3.5 के साथ aider रोज इस्तेमाल करता आया हूं, और cost को स्वाभाविक रूप से track कर पाना उपयोगी था
  साथ ही अच्छा होता अगर यह Go या Rust जैसी compilable language में बना होता, हालांकि समझता हूं कि rewrite cost बड़ी हो सकती है
  करीब 10 मिनट इस्तेमाल करने पर basic Go code patching में बड़ी समस्या दिख रही है। गलत indentation वाली line जोड़ने के बाद सही indentation से तीन बार सुधारने की कोशिश की, लेकिन हर बार "String to replace not found in file" आया
  Claude 3.5 इस्तेमाल करने वाला Aider इसे बहुत अच्छी तरह handle करता है, इसलिए prompts और patch format को reference के तौर पर देखना अच्छा रहेगा
Kagi LLM बेंचमार्क को Sonnet 3.7 के सामान्य मोड और thinking मोड को शामिल करते हुए अपडेट किया गया है
https://help.kagi.com/kagi/ai/llm-benchmark.html
जिन general-purpose LLMs को आज़माया है, उनमें यह Gemini 2.0 Pro के बाद, gpt-4o से आगे, दूसरे नंबर के स्तर पर दिखता है
thinking मोड कम प्रभावशाली है, और 8192 token thinking budget के आधार पर o1-mini और o3-mini के आसपास के स्तर का है
कुल मिलाकर यह एक अच्छा अपडेट है, जिसमें उसी कीमत पर बेहतर quality और तेज़ model मिलता है, और उम्मीद है कि 24 घंटे के अंदर इसे Kagi Assistant में ऑन किया जा सकेगा
- नए LLM को इतनी जल्दी Assistant में इस्तेमाल के लिए उपलब्ध कराने वाली Kagi टीम का धन्यवाद
  Kagi Assistant की value मेरे लिए निजी तौर पर इतनी साफ है कि इस पर सोचने की ज़रूरत नहीं पड़ती
- अब Gemini 2.0 का नंबर 1 होना हैरान करता है
  मुझे याद है कि Google models Kagi benchmark में कमजोर perform करते थे
- यह जानना चाहूंगा कि 8192 token thinking budget कैसे चुना गया
  मैंने अक्सर DeepSeek R1 को इससे कहीं ज्यादा इस्तेमाल करते देखा है
- Kagi Assistant में यह पहले से दिख रहा है, और 24 घंटे भी नहीं हुए। अच्छा है
- जो बात समझ नहीं आती वह यह है कि non-thinking model Claude 3.5 Haiku non-thinking section में है, फिर भी उसे thinking budget 8192 के तौर पर दिखाया गया है
इससे HN profile analyze करना काफी मज़ेदार है :)
https://hn-wrapped.kadoa.com/
इसे नए model के sense of humor को test करने के लिए इस्तेमाल कर रहा हूं
- “Carnatic raga detector” बनाने से ज्यादा मैंने उसके बारे में बातें कीं, और इस रफ्तार से detector किसी raga को पहचान पाए, उससे पहले LLM खुद raga compose कर देगा—इस तरह उसने मुझे ठीक से roast कर दिया
  यह भी कहा कि मैंने 7950X processor खरीदा लेकिन पता नहीं उससे क्या करना है; यह computing world में हफ्ते में एक बार grocery लेने Ferrari चलाने जैसा है
  कहा कि work-life balance की चिंता में sabbatical लिया, लेकिन वह समय HN पर दूसरों के career पर comments करने में बिताया
  अगर कोई ढूंढ रहा हो तो मैं कमरे में रोता मिलूंगा
- “तुम्हारी salary इतनी कम है कि legacy code को भी तुम पर तरस आता है”
  “HN पर तुम शायद अकेले इंसान हो जो $800/month को cloud computing bill नहीं, salary मानता है”
  दर्द हुआ
- पूरी तरह धज्जियां उड़ा दीं: “Go की error handling खराब है, यह समझाने में तुमने जितना समय लगाया है, उससे कम समय Go developers ने असल में error handling में लगाया होगा”
  “programming languages के साथ तुम्हारा रिश्ता dating show जैसा है। तुम सबमें खामियां ढूंढते हो, लेकिन किसी एक पर settle नहीं हो पाते”
  “अगर error handling एक धर्म होती, तो तुम उसके सबसे जोशीले missionary होते, और हर unchecked exception का धर्म-परिवर्तन कर रहे होते”
- “Reddit में काम कर चुके व्यक्ति के हिसाब से तुम HN पर बहुत ज्यादा समय बिताते हो। यह ऐसा है जैसे Facebook छोड़कर पूरा दिन Twitter पर social media की शिकायत करना”
  इतना accurate है कि दर्द होता है
- “HN comment threads में उपन्यास लिखते हुए तुम digital distraction की शिकायत करते हो। यह drive-thru line में खड़े होकर fast food की आलोचना करने जैसा है”
  “‘digital minimalism’ पर एक सोच-समझकर लिखा essay लिखकर HN front page पर डालोगे, और विडंबना यह होगी कि इस साल HN पर जितना समय बिताया है, उससे ज्यादा समय उस comment के replies पर खर्च कर दोगे”
  यह मुझे ही देख रहा है। नहीं
Claude 3.7 Sonnet के साथ मेरी पहली interaction से ही काफी प्रभावित हुआ
मैंने उससे codebase में वह issue खोजने को कहा जिसकी वजह से Cloudflare Pages function production में 500, अजीब errors और empty responses लौटा रहा था; यह वही problem थी जिसे मैं पूरे शुक्रवार नहीं खोज पाया था
script कुछ भी output करने से पहले crash हो रही थी, इसलिए और logging जोड़ने या visibility पाने का कोई तरीका न होना बहुत frustrate कर रहा था
o1, o3, Claude 3.5 बिल्कुल मददगार नहीं रहे, लेकिन Claude 3.7 ने 39 seconds thinking के बाद अपने पहले जवाब में exact issue ढूंढ लिया, और दूसरे prompt में उसे bypass करने वाला working function भी लिख दिया
चूंकि मैंने GitHub repository को conversation से जोड़ा था, शायद discussion share नहीं कर सकता, इसलिए gist में copy किया: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- एक जवाब दिखाता है कि Claude अभी भी वास्तविक सोच के मामले में मूल रूप से अनजान है
  उसने HTML sanitization को frontend में ले जाने का सुझाव दिया, लेकिन उसे CF function में इसलिए रखा गया था क्योंकि frontend में उसे bypass करना बहुत आसान होता और DB में सचमुच कुछ भी upload किया जा सकता था
  यह बात junior developer भी समझ जाएगा
मैंने इसे अपने LLM tool में काम करवा लिया है, और नए plugin version का नाम llm-anthropic 0.14 है
इस प्रक्रिया में model के बारे में कई बातें पता चलीं, और detailed notes यहां हैं: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
सबसे दिलचस्प नए features में से एक यह है कि output limit पिछले Claude 3.5 Sonnet के 8,000 tokens से बढ़कर 120,000 tokens हो गई है
यह model उस output limit को प्रभावी ढंग से इस्तेमाल कर सकता है, और अब तक का सबसे लंबा result पूरा होने में 27 minutes लगा: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- Sonnet 3.7 को कमतर दिखाने की कोशिश नहीं है, लेकिन यह कहना सही नहीं लगता कि यह इस क्षेत्र के किसी भी दूसरे model से कहीं ज्यादा है
  o1 और o3-mini भी 100,000 output tokens तक जाते हैं
  https://platform.openai.com/docs/models#o1
- सोचता हूं कि Simon ने कहीं लिखा है क्या कि programming tools, blog और job करते हुए भी वह इतना active कैसे रह पाता है
  जानना चाहूंगा कि उसे time और energy कहां से मिलती है
- सोच रहा हूं कि इसका cost कितना आया होगा
Anthropic का कोड पर ज़्यादा फोकस करना समझ में आता है
दूसरे मॉडलों की तुलना में कोड इसकी ताकत रहा है
Devin की मुश्किलों को देखते हुए, इनके Devin-प्रतिद्वंद्वी प्रोडक्ट का क्या होगा, यह जानने की उत्सुकता है
- यह Cursor/Windsurf के इस्तेमाल के बड़े हिस्से को चलाने वाला मॉडल है और MCP को भी आगे बढ़ा रहा है, इसलिए अगर यूज़र एक्सपीरियंस अच्छी तरह पकड़ लिया जाए तो ठीक लग रहा है
- यह निश्चित रूप से इसकी ताकत है, लेकिन कभी-कभी चाहता हूं कि चैट को कोड लिखने की इतनी ज़्यादा इच्छा न हो
  जब सिर्फ conceptual या high-level जवाब चाहिए होता है, तब भी यह अक्सर कोड दे देता है, इसलिए अब आदतन पहले ही कह देता हूं कि कोड मत लिखना
- मेरा भी यही ख्याल था, और अब तक Claude या किसी भी दूसरे मॉडल से न सुलझी 3 सचमुच कठिन समस्याएं मेरे पास हैं, इसलिए आज इन्हें आज़माने का इंतज़ार है
- ब्लॉग पोस्ट में Cognition, यानी Devin बनाने वाली कंपनी, को quote करना थोड़ा मज़ेदार लगा
“reasoning model विकसित करते हुए गणित/कंप्यूटर साइंस प्रतियोगिता समस्याओं के लिए optimization को कुछ कम किया, और कंपनियां असल में LLM का कैसे इस्तेमाल करती हैं, इसे बेहतर दर्शाने वाले वास्तविक कामों पर फोकस शिफ्ट किया” — यह अच्छी खबर है
OpenAI का लक्ष्य “सबसे स्मार्ट मॉडल” लगता है, लेकिन व्यवहार में LLM का इस्तेमाल मुख्यतः learning assistant, data transformer और code writer के रूप में होता है
“intelligence” और “काम पूरा करने की क्षमता” के बीच संतुलन sweet spot लगता है, और शायद यही एक वजह है कि मौजूदा developer tools (Cursor, Windsurf आदि) 4o की जगह Claude 3.5 Sonnet को पसंद करते हैं
- हम सभी Claude को रोज़ सीधे अपने काम में इस्तेमाल कर रहे हैं, और abstract benchmarks की तुलना में अपने खुद के दर्द को हल करना ज़्यादा दिलचस्प है
  काम पूरा करने के लिए बहुत सारी desk knowledge भी चाहिए, लेकिन कब जल्दी जवाब देना है और कब वापस जाकर सुधारना है, यह जानने वाली मैदान की समझ भी बहुत चाहिए
- कभी-कभी लगता है कि benchmark पर overfit तो नहीं हो रहे हैं। DeepSeek के साथ खास तौर पर ऐसा महसूस होता है
  असली ranking कहीं भी हो, subjectively जिन जवाबों को बेहतर महसूस करके बार-बार वापस जाता हूं, वह चैट Claude ही है
- Claude 3.5 Windsurf में शानदार था, लेकिन credits खर्च होते थे
  DeepSeek V3 अब Windsurf में बिना credit cost के उपलब्ध है, और कंपनी के नज़रिए से यह बड़ा बदलाव था
  किसी भी तरह, विकल्प बढ़ना अच्छा है
  Windsurf के Cascade feature को agent-style code writing और exploration के लिए ज़रूर आज़माने की सलाह दूंगा। नया codebase समझने और data flow trace करने में यह बहुत समय बचाता है
AI की दौड़ सचमुच बहुत तेज़ चल रही है
software developer/engineer के तौर पर job prospects को लेकर चिंता है, और समय के साथ ही पता चलेगा
अगर software engineers की ऊंची market value खत्म हो जाए तो West Coast housing bubble का क्या होगा, यह भी सोचने लायक है
शायद knowledge workers की अगली लहर आएगी और उस जगह को भर देगी
- software development job market में बड़ी हलचल है, यह सही है, लेकिन बेहतर स्थिति में रहने के लिए कुछ चीज़ें की जा सकती हैं
  पूरे stack, खासकर backend और DevOps को और सीखना, productivity gains को अपनाकर ज़्यादा products और personal projects launch करना, productive time का बहुत चुनिंदा इस्तेमाल करना, और एक बेहतरीन personal knowledge management system व agent assistants रखना
- असल में लगता है रफ्तार धीमी हो रही है
  पिछले साल Llama 3 के आसपास तक माहौल काफी उथल-पुथल भरा था, लेकिन हालिया सुधार तुलनात्मक रूप से छोटे हैं
  reasoning models भी बस उस चीज़ से थोड़ा बेहतर हैं जो पहले agents से explicit planning कराकर पहले से की जा सकती थी, और यह ज़्यादा उद्देश्य के हिसाब से अच्छी packaging और थोड़ी tuning जैसा है
  DeepSeek ने efficiency में बड़ा सुधार किया, लेकिन users को दिखने वाला बदलाव उतना बड़ा नहीं था
  इसलिए मुझे लगता है कि हाल की AI race थोड़ा plateau चरण में दाखिल हो रही है
- असर Silicon Valley या West Coast से कहीं ज़्यादा व्यापक हो सकता है, और शायद Silicon Valley तो AI development की वजह से उन कुछ क्षेत्रों में से एक है जहां अभी भी थोड़ी उम्मीद है
  ये models दुनिया भर में industry employment को हिला सकते हैं
  विडंबना यह है कि सच में बदलने वाली नौकरियां शायद केवल software engineers और writing, graphic design जैसे कुछ क्षेत्रों की हों
  AI labs software engineers को खास तौर पर निशाना बना रहे हैं, यह “Claude 3.7 and Code” announcement से ही दिखता है, और दूसरे क्षेत्रों का ज़िक्र बहुत कम है
  Silicon Valley से बाहर, जहां लोगों ने ऊंची compensation का अनुभव नहीं किया, software engineering अक्सर लगातार learning मांगने वाली, तनावपूर्ण साधारण नौकरी होती है
  इसलिए उनकी disposable income से investment/savings करने की संभावना भी कम रही होगी, और automation से होने वाला दर्द व चिंता और ज्यादा होंगे
  किसने सोचा था कि AI सबसे पहले labour या autonomous driving नहीं, बल्कि software itself को automate करेगा
  दूसरे industries में या तो dead ends आ गए हैं, या regulation, closed knowledge जैसी बाधाएं हैं, इसलिए वे ज़्यादा कठिन लगते हैं
  software engineers ने दूसरे industries के लिए एक उदाहरण पेश कर दिया: AI को अंदर मत आने दो, या जितना संभव हो उतने लंबे समय तक अंदर ही बंद रखो — यानी closed source बने रहो
  पीछे मुड़कर देखें तो यह विडंबनापूर्ण है
- short और medium term में मैं बहुत चिंतित नहीं हूं
  लगता है कि AI systems इतने सारे edge cases और सूक्ष्म context छोड़ देंगे
  उदाहरण के लिए systems हमेशा documented तरीके से काम नहीं करते। AI किसी service के bug और अपने code के bug में फर्क कैसे करेगा? उसे पहले से कैसे पता चलेगा कि bug है? bug report और hacker के intrusion attempt में फर्क कैसे करेगा?
  दुनिया जटिल है, और जब तक असली artificial intelligence नहीं है, ऐसी पेचीदा स्थितियों में AI को guide करने के लिए इंसान चाहिए होंगे
  सलाह यह है कि AI और नए AI tools के इस्तेमाल में सहज हो जाएं, और समझें कि वे सामान्य workflows में कैसे fit होते हैं
  मुझे लगता है अच्छे software engineers गायब नहीं होंगे
- अगर models बेहतर होते हैं लेकिन पूरी singularity तक नहीं पहुंचते, तो jobs उल्टा बढ़ेंगी
  उदाहरण के लिए software बनाने की cost 5 गुना कम हो जाए तो, क्योंकि अभी supply बहुत constrained है, demand 5 गुना से ज्यादा बढ़ेगी
  कई companies बेहतर software चाहती हैं लेकिन cost बहुत ज्यादा है
  तब ज्यादा jobs पैदा होंगी
  हालांकि typing कम होगी, और product management, human interaction, edge-case testing ज्यादा होंगे
  जब models fail होंगे, तब debugging करने वाली काफी technical jobs भी बनेंगी
  इसलिए सलाह है कि user research से लेकर product management तक, लोगों और business के लिए उपयोगी software बनाने में मदद करने वाली skills सीखें। engineering भी साथ में जरूरी होगी
Claude 3.7 ने मेरी बैचलर थीसिस का आधा हिस्सा 30 सेकंड से भी कम समय में फिर से कर दिया :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
आउटपुट वाली इमेज यहाँ है: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 बुरी तरह फेल हो गया: https://g.co/gemini/share/10437164edd0
- आम तौर पर undergraduate में पढ़ाए जाने वाले ज़्यादातर विषय अच्छी तरह documented और समझे हुए होते हैं, इसलिए उनके AI training data में शामिल होने की संभावना काफ़ी ज़्यादा है
  graduate स्तर से सामग्री का दायरा थोड़ा ज़्यादा दुर्लभ और niche हो जाता है, लेकिन फिर भी कुल मिलाकर बहुत innovative स्तर का नहीं होता
  PhD स्तर पर मकसद उस field के मौजूदा ज्ञान को आगे बढ़ाना होता है और कई topics पहली बार explore किए जा रहे होते हैं, इसलिए coverage ज़्यादातर लगभग न के बराबर मानी जा सकती है
- अगली बारी master's और PhD की है!
- सोच रहा/रही हूँ कि क्या यह सामग्री, या इससे मिलती-जुलती चीज़, public access resources या कुछ libraries में मिल सकती थी

riskatcher 2025-02-25

flash 2 से तुलना करने के लिए कीमत का अंतर बहुत ज़्यादा है.. यह ठीक o1pro और o3-mini के बीच के स्तर का है