2 पॉइंट द्वारा GN⁺ 3 시간 전 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Anthropic Mythos ने curl में 5 vulnerabilities रिपोर्ट कीं, लेकिन वास्तव में सिर्फ 1 ही बची
  • curl security team की समीक्षा के बाद 3 को false positive और 1 को सामान्य bug के रूप में वर्गीकृत किया गया
  • पुष्टि की गई vulnerability low severity CVE है, जिसे जून के अंत में curl 8.21.0 के साथ सार्वजनिक किया जाएगा
  • रिपोर्ट में लगभग 20 bugs शामिल थे, और curl team सहमत बिंदुओं को ठीक कर रही है
  • Daniel Stenberg का मानना है कि सिर्फ curl के नतीजों के आधार पर Mythos को खास तौर पर खतरनाक स्तर का साबित करने वाले सबूत कमजोर हैं

Anthropic Mythos का curl तक पहुंचने का रास्ता

  • अप्रैल 2026 में Anthropic ने निष्कर्ष निकाला कि उसका नया AI मॉडल Mythos source code में security flaws खोजने में “खतरनाक रूप से अच्छा” है, जिससे काफी ध्यान आकर्षित हुआ
  • Anthropic ने Mythos को तुरंत सार्वजनिक नहीं किया, बल्कि पहले कुछ कंपनियों को सीमित रूप से उपलब्ध कराया ताकि उन्हें महत्वपूर्ण समस्याएँ ठीक करने का समय मिल सके
  • project Glasswing के हिस्से के रूप में Anthropic ने Linux Foundation के माध्यम से “open source projects” को भी नए AI model तक पहुंच दी
  • Linux Foundation ने यह हिस्सा Alpha Omega को सौंपा, और curl के lead developer Daniel Stenberg तक यह प्रस्ताव पहुंचा
  • उपयोग समझौता हो गया, लेकिन वास्तविक access में देरी हुई, और अंततः Mythos access रखने वाले किसी अन्य व्यक्ति ने curl को scan और analyze करके रिपोर्ट सौंप दी

पहले से चल रहा curl का AI security analysis

  • Mythos रिपोर्ट से पहले भी curl कई AI-आधारित tools से analyze हो चुका था, और वह सामान्य static code analyzers, सख्त compiler options, और वर्षों की fuzzing भी लगातार इस्तेमाल करता रहा है
  • मुख्य रूप से AISLE, Zeropath, OpenAI’s Codex Security ने AI के जरिए curl code की जांच की
  • इन tools के analysis से पिछले लगभग 8~10 महीनों में curl में merge हुए 200~300 bug fixes हुए
  • AI tools द्वारा रिपोर्ट किए गए कुछ मामले वास्तविक vulnerabilities साबित हुए और CVE के रूप में सार्वजनिक किए गए; उनकी संख्या “शायद 12 से ज्यादा” है
  • GitHub Copilot और Augment code का उपयोग pull request review में भी होता है, जिससे बताए गए मुद्दों को ठीक कर बेहतर code merge करने में मदद मिलती है
  • AI review इंसानी review की जगह नहीं लेता, बल्कि अतिरिक्त review साधन के रूप में इस्तेमाल होता है और merge quality बढ़ाने में योगदान देता है
  • security researchers भी AI का व्यापक और प्रभावी उपयोग कर रहे हैं, जिसके कारण high-quality security reports बड़ी संख्या में आ रही हैं
  • curl project में security सर्वोच्च प्राथमिकता है, और defects कम करने के लिए कई software engineering guidelines और processes लागू हैं
  • defect scanning, curl को सुरक्षित रखने के कई चरणों में से सिर्फ एक है, और curl जितनी या उससे ज्यादा software security करने वाली projects ढूंढना मुश्किल लगता है

6 मई 2026: Mythos का पहला analysis result

  • Mythos से बना पहला source code analysis report, curl को बेहतर बनाने और bugs ठीक करने के अवसर के रूप में काम आया
  • शुरुआती scan, curl git repository और master branch के एक हालिया specific commit पर किया गया
  • analysis का दायरा src/ और lib/ subdirectories की 178,000 lines code था
  • रिपोर्ट में विस्तार से बताया गया कि किन approaches और methods से defects खोजने की कोशिश की गई
  • रिपोर्ट के शीर्ष पर यह भी लिखा था कि curl “OSS-Fuzz, Coverity, CodeQL, और कई paid audits” पाने वाले सबसे ज्यादा fuzzed और audited C codebases में से एक है, इसलिए HTTP/1, TLS, और URL parsing के core paths में कुछ ढूंढना कठिन होगा
  • Mythos वास्तव में उन core paths में कोई समस्या नहीं ढूंढ पाया

curl codebase का पैमाना और security history

  • curl में blank lines हटाने पर फिलहाल 176,000 lines C code हैं
  • source code में 660,000 words हैं, जो अंग्रेजी उपन्यास War and Peace से 12% ज्यादा हैं
  • curl के production source code की हर line, लिखे जाने के बाद औसतन 4.14 बार फिर से लिखी गई है
  • मौजूदा git master में बचे production code को 573 अलग contributors ने लिखा है
  • अब तक curl git repository में कुल 1,465 contributors के सुझाए बदलाव merge किए गए हैं
  • curl ने अब तक 188 CVEs सार्वजनिक किए हैं
  • curl 20 billion से अधिक instances में installed है
  • curl 110 से अधिक operating systems और 28 CPU architectures पर चलता है
  • curl smartphones, tablets, cars, TVs, game consoles, और servers पर चलता है

“5 confirmed vulnerabilities” घटकर वास्तव में 1 रह गई

  • Mythos रिपोर्ट ने निष्कर्ष निकाला कि उसे “Confirmed security vulnerabilities” 5 मिलीं
  • curl security team ने कुछ घंटों तक details की समीक्षा की, जिसके बाद 5 में से सिर्फ 1 वास्तविक confirmed vulnerability बची
  • बाकी 4 में से 3 को API documentation में पहले से दर्ज सीमाओं की ओर इशारा करने वाले false positives माना गया
  • बचा हुआ 1 मामला vulnerability नहीं बल्कि सामान्य bug माना गया
  • पुष्टि की गई एकमात्र vulnerability एक low severity CVE होगी
  • यह CVE curl की अगली release 8.21.0 के साथ जून के अंत में सार्वजनिक करने की योजना है
  • इस vulnerability की विस्तृत जानकारी public disclosure से पहले साझा नहीं की जाएगी
  • Mythos रिपोर्ट में कई ऐसे bugs भी थे जिन्हें vulnerability नहीं माना गया, और curl team सहमत मुद्दों की एक-एक करके जांच और fix कर रही है
  • रिपोर्ट में लगभग 20 bugs अच्छी तरह व्यवस्थित थे और false positives बहुत कम थे
  • इस रिपोर्ट की वजह से curl बेहतर हो रहा है, लेकिन केवल findings की संख्या देखें तो पहले इस्तेमाल किए गए AI tools ने ज्यादा bug fixes कराए थे
  • यह इस बात को भी दर्शाता है कि शुरुआती tools ने पहले ज्यादा और आसान bugs पकड़ लिए थे, और समय के साथ समस्याएँ ठीक होने से नए defects ढूंढना कठिन होता गया
  • bugs छोटे भी हो सकते हैं और बड़े भी, इसलिए सिर्फ संख्या की तुलना करना हमेशा उचित नहीं होता

Mythos खास तौर पर “खतरनाक” स्तर का नहीं दिखता

  • सिर्फ curl analysis results को देखें तो Mythos को लेकर बना बड़ा उत्साह मुख्य रूप से marketing जैसा लगता है
  • ऐसा कोई सबूत नहीं दिखता कि Mythos setup, पहले के tools की तुलना में समस्याएँ ढूंढने में किसी खास ऊँचे या ज्यादा advanced स्तर पर है
  • संभव है Mythos थोड़ा बेहतर हो, लेकिन इतना बेहतर नहीं दिखता कि code analysis में बड़ा अंतर पैदा करे
  • हालांकि यह आकलन curl नाम के एक source code repository से मिले नतीजों तक सीमित है
  • यह संभावना खारिज नहीं की गई कि Mythos दूसरे targets पर कहीं बेहतर साबित हो सकता है

AI code analyzers अब भी बेहद शक्तिशाली हैं

  • AI-आधारित code analyzers, पुराने पारंपरिक analyzers की तुलना में source code में security defects और गलतियाँ खोजने में काफी बेहतर हैं
  • आधुनिक AI models इस काम के लिए सभी अच्छे से उपयुक्त हैं, और जिन लोगों के पास समय और प्रयोग करने की इच्छा है वे security issues खोज सकते हैं
  • high-quality chaos वास्तव में हो रहा है
  • जिन projects ने अभी तक AI-based tools से source code scan नहीं कराया है, वे इस पीढ़ी के tools के जरिए बहुत सारे defects, bugs, और संभावित vulnerabilities पा सकते हैं
  • सिर्फ Mythos ही नहीं, कई दूसरे AI tools भी ऐसे नतीजे दे सकते हैं
  • अगर कोई project AI code analyzers का उपयोग नहीं करता, तो वह attackers और malicious actors को वे defects ढूंढने और exploit करने के लिए समय और मौका छोड़ देता है जिन्हें project खुद नहीं खोज पाया

AI analyzers कहाँ अलग हैं

  • AI analyzers यह पकड़ सकते हैं कि comments code के बारे में क्या कहते हैं और code वास्तव में क्या करता है, इनमें कहाँ अंतर है
  • वे उन platforms और configurations के code की भी जांच कर सकते हैं जहाँ सामान्य analyzers को चलाना मुश्किल होता है
  • वे third-party libraries और API details को “जानते” हैं, इसलिए misuse या गलत assumptions पहचान सकते हैं
  • वे curl द्वारा implement किए गए protocol details को “जानते” हैं, इसलिए ऐसे points को issue मान सकते हैं जहाँ code protocol spec का उल्लंघन करता या उससे विरोधाभासी लगता है
  • वे defect summaries और explanations आम तौर पर अच्छी तरह तैयार करते हैं, जो पारंपरिक analyzers में उबाऊ और कठिन हो सकता है
  • वे मिली हुई समस्याओं के लिए patch बना और suggest कर सकते हैं, हालांकि वह patch आम तौर पर 100% complete fix नहीं होता

Mythos रिपोर्ट की बारीकियाँ

  • Mythos रिपोर्ट का निष्कर्ष था कि memory safety vulnerabilities 0 थीं
  • methodology के हिसाब से यह review, LLM sub-agents का उपयोग कर parallel file reading करने वाला manual-led analysis था
  • रिकॉर्ड करने से पहले सभी candidate findings को main session में direct source inspection से फिर validate किया गया
  • CVE और variants की mapping, curl के अपने vuln.json से बनाई गई
  • कोई automated SAST tool इस्तेमाल नहीं किया गया
  • यह result इस तथ्य के अनुरूप है कि curl सबसे ज्यादा fuzzed और audited C codebases में से एक है
  • curl का defensive infrastructure, आम तौर पर इस आकार के codebase में परिणाम देने वाले bug classes को व्यवस्थित रूप से बंद करता है
  • इन defensive elements में bounded dynbuf, सभी numeric parsing में explicit maxima इस्तेमाल करने वाला curlx_str_number, overflow guards वाला curlx_memdup0, CURL_PRINTF format string enforcement, protocol-specific response size limits, और pingpong 64KB line limit शामिल हैं
  • coverage में सभी छोटे protocols, सभी file parsers, सभी TLS backend validation paths, HTTP/1·2·3, FTP की पूरी depth, mprintf, x509asn1, DoH, सभी authentication mechanisms, content encoding, connection reuse, session cache, CLI tool, platform-specific code, और CI·build supply chain तक शामिल हैं

AI पुराने तरह की गलतियाँ नए सिरे से ढूंढ रहा है

  • AI tools पहले से ज्ञात, सामान्य और स्थापित प्रकार की गलतियाँ खोज रहे हैं, और केवल उनके नए instances ढूंढ रहे हैं
  • अभी तक AI ने किसी पूरी तरह नई तरह की vulnerability या पहले कभी न देखे गए vulnerability type की रिपोर्ट नहीं की है
  • AI security क्षेत्र को उस तरह से फिर से परिभाषित नहीं कर रहा
  • लेकिन यह पहले के किसी भी tool की तुलना में ज्यादा समस्याएँ निकाल रहा है

defect खोज अभी खत्म नहीं हुई है

  • यह result bug discovery या reporting का अंतिम चरण नहीं है
  • उस समय भी security researchers से संदिग्ध issues पर अतिरिक्त reports आ रही थीं
  • AI tools और बेहतर होंगे, और researchers ऐसे नए व अलग prompting methods खोज सकते हैं जिनसे मौजूदा AI और ज्यादा समस्याएँ ढूंढे
  • curl को उम्मीद है कि Mythos और दूसरे AI tools से बार-बार scans जारी रहेंगे, जब तक कि सचमुच नए issues आना बंद न हो जाए

2 टिप्पणियां

 
GN⁺ 2 시간 전
Hacker News की राय
  • उद्धरण: “मैं इस निष्कर्ष के अलावा और कुछ नहीं निकाल सकता कि इस मॉडल को लेकर बड़ी हाइप ज़्यादातर मार्केटिंग थी। मैंने कोई ऐसा प्रमाण नहीं देखा कि यह सेटअप Mythos से पहले के टूल्स की तुलना में ख़ास तौर पर किसी ऊँचे स्तर पर या अधिक उन्नत तरीके से समस्याएँ ढूँढता है। यह थोड़ा बेहतर हो सकता है, लेकिन इतना अच्छा नहीं लगता कि कोड विश्लेषण में कोई अर्थपूर्ण बदलाव ला दे”
    यह सभी को याद दिलाता है कि इस क्षेत्र की प्रतिस्पर्धा काफ़ी आक्रामक है, और इसमें खुली या सूक्ष्म मार्केटिंग बहुत घुली-मिली रहती है

    • यह कोई हैरानी की बात नहीं कि Anthropic अपने मॉडल को अधिक उन्नत, बेहतर बना हुआ, और AI को ख़तरा बताकर नियमन की ज़रूरत साबित करने के लिए मार्केटिंग का इस्तेमाल करता है, और समाधान के रूप में ख़ुद को पेश करता है
      थोड़ा गंभीर होकर कहें तो, अब तक मुझे बहुत कम संकेत मिले हैं कि Mythos, security-focused code analysis layer लगे हुए Opus से आगे है। फिर भी, सिर्फ़ यह तथ्य कि ऐसे बग अपने-आप मिल सकते हैं, बढ़ा-चढ़ाकर किए गए प्रचार को छोड़ दें तो, कहीं ज़्यादा महत्वपूर्ण बात है
      इसकी detection false positive rate जानने की जिज्ञासा है। अगर 90% ग़लत निकल रहा हो और हम सिर्फ़ वही केस सुन रहे हों जो मार्केटिंग में काम आएँ, तो उसका ज़्यादा मतलब नहीं
    • यह लगभग वैसा ही नतीजा है जैसा अपेक्षित था, लेकिन बड़ा संकेत तो पहले से ही यह था कि मौजूदा LLM-आधारित टूल्स का इस्तेमाल बहुत व्यापक रूप से audit किए गए codebase पर हो रहा था
      इसलिए Anthropic की मार्केटिंग भले बढ़ा-चढ़ाकर की गई हो, लेकिन शुरू से ही बहुत कम चीज़ें बची हुई थीं, और लेख में भी यही कहा गया है
      यह तय करना मुश्किल है कि दूसरे तरह के प्रोजेक्ट्स के लिए यह कोई बड़ी प्रगति है या नहीं, लेकिन इतना स्पष्ट हो गया है कि आज की तारीख़ में सभी को legacy code audit के लिए AI code review tool इस्तेमाल करना चाहिए, जबकि व्यवहार में अभी सभी ऐसा नहीं कर रहे
    • curl अच्छा data point नहीं है। यह मौजूद codebase में सबसे ज़्यादा खंगाले गए codebase में से एक है, और इसकी security testing practices भी बहुत मज़बूत हैं
      Mythos जैसे, लेकिन बिल्कुल वैसे नहीं, मॉडल इस्तेमाल करने वाले शोधकर्ताओं के पास अब तक बग रिपोर्ट करने के लिए काफ़ी समय भी था। Daniel का यह मानना सही हो सकता है कि Mythos, curl के लिए game changer नहीं था, लेकिन लगभग हर दूसरे codebase में शुरुआती शर्तें अलग हैं। असली मार्केटिंग तो शायद curl की maturity को लेकर उसकी विनम्रता ही हो सकती है
    • क्या Mozilla, Anthropic की तरफ़ से मार्केटिंग कर रहा है?
      Anthropic के साथ जारी सहयोग के हिस्से के रूप में, हमें Firefox पर Claude Mythos Preview का शुरुआती संस्करण लागू करने का मौका मिला। इस हफ़्ते की Firefox 150 release में इस शुरुआती मूल्यांकन में पहचानी गई 271 vulnerabilities के fixes शामिल हैं
      जैसे-जैसे यह क्षमता ज़्यादा defenders तक पहुँच रही है, बहुत-सी टीमें वही चक्कर देने वाला एहसास महसूस कर रही हैं जो हमें तब हुआ था जब शुरुआती नतीजे स्पष्ट हुए। इतने मजबूत target में ऐसा एक भी बग 2025 के मानकों के हिसाब से red alert होता, और जब इतने सारे एक साथ निकलें तो रुककर सोचना पड़ता है कि क्या हम वाक़ई इसकी भरपाई कर पाएँगे
      https://blog.mozilla.org/en/privacy-security/ai-security-zer...
    • यह पूरी तरह संभव है कि हाइप मुख्यतः मार्केटिंग ही थी
      दूसरी संभावना यह है कि Curl काफ़ी सुरक्षित था, इसलिए दूसरे प्रोजेक्ट्स की तुलना में वहाँ ढूँढने लायक चीज़ें बहुत कम थीं
  • “वास्तव में चौंकाने वाली हद तक सफल मार्केटिंग इवेंट” वाली बात से मैं सहमत हूँ। Anthropic ने अच्छा काम किया
    यह नीदरलैंड्स की एक छोटी अर्ध-सरकारी संस्था के CISO तक पहुँच गया, और Mythos के साथ आने वाली vulnerability tsunami की घोषणा से थोड़ा घबराहट भी हुई
    इससे मुझे board में ज़्यादा budget और priority मिली। अच्छी मार्केटिंग-जनित दहशत को बेकार नहीं जाने देना चाहिए

    • मैं “सुनामी दिख नहीं रही” वाली बात से सहमत नहीं हूँ। Firefox में 100 से अधिक बग, और कई अन्य open source projects में, साथ ही पहले कभी न देखे गए पुराने OpenBSD/Linux remote code execution bugs, और Linux में ही सिर्फ़ 2–3 हफ़्तों में कुछ local privilege escalation मामले सामने आए हैं
      यह मार्केटिंग-जनित डर जैसा नहीं, बल्कि high-quality, low-false-positive vulnerability disclosures में तेज़ बढ़ोतरी जैसा दिखता है। ऐसा लगता है जैसे कई वर्षों की उच्च-गुणवत्ता वाली bug reports को सिर्फ़ कुछ हफ़्तों में तेज़ी से खंगाला जा रहा हो
    • Anthropic वही चाल बार-बार दोहराकर ग्राहकों की goodwill जल्दी खो रहा है। निजी तौर पर मुझे यह भयानक मार्केटिंग लगती है
      किसी कंपनी का सामान्य LLM की cyber security threats पर शोध करना एक बात है, और “हमारा नया मॉडल इतना शक्तिशाली है” कहकर चर्चा को उस दिशा में मोड़ना बिल्कुल दूसरी बात। यह चिपचिपा और अप्रिय लगता है
    • उसने विस्तार से बताया है कि curl को लगभग अपनी सीमा तक software engineering के स्तर पर तराशा गया है। क्या आपको सच में लगता है कि ज़्यादातर code इतना अधिक polish किया गया है?
  • अगर किसी software utility में AI agent ने 0 bugs पाए, तो इसे क्यों मान लिया जाए कि वह AI agent बग खोजने में ख़राब है?
    अगर सचमुच वहाँ 0 bugs हों तो?
    “5 issues हमें लगभग कुछ भी नहीं लगे, जबकि हम एक व्यापक सूची की उम्मीद कर रहे थे” — हो सकता है यह अपेक्षा ही वास्तविकता से मेल न खाती हो। लेकिन उसका कारण ज़रूरी नहीं कि Mythos की क्षमता दावे से कम होना ही हो। हो सकता है curl अपनी वर्तमान स्थिति में एक अच्छी तरह मज़बूत किया गया टूल हो, जिसमें security vulnerabilities बहुत कम हों

    • लेखक ने भी बचे हुए बग्स को लेकर यही बात सोची थी
      “और भी चीज़ें मिलनी बाक़ी हैं। ये न तो आख़िरी बग हैं जो मिलेंगे, न आख़िरी जो रिपोर्ट होंगे। इस ब्लॉग पोस्ट का मसौदा लिखते समय भी मुझे security researchers से संदिग्ध issues की और reports मिलीं। AI tools बेहतर होते जाएँगे, और researchers शायद नए और अलग prompting methods खोजेंगे ताकि मौजूदा AI और ज़्यादा चीज़ें ढूँढ सके। हम अभी अंत तक नहीं पहुँचे हैं। मैं आशा करता हूँ कि हम Mythos और अन्य AI के साथ curl scanning बार-बार जारी रख सकें, जब तक कि सच में नए issues मिलना बंद न हो जाए”
      यह तर्कसंगत लगता है। यह मानने के लिए काफ़ी बड़ा संयोग चाहिए कि सिर्फ़ 1 सही discovery बची थी, वही संयोग से Mythos launch के समय सिर्फ़ Mythos को मिली, और बाकी projects उस ठीक पहले तक हर खोज को तेज़ी से समेट रहे थे। यह संभव है, लेकिन सवाल उठाते समय यह सबसे सुरक्षित शुरुआती धारणा नहीं है
  • curl अपनी प्रकृति से अपेक्षाकृत सरल और अच्छी तरह सीमाबद्ध टूल लगता है। इसकी तुलना operating system, web browser, database, या अरबों डॉलर की कंपनियों के codebase से कर सकते हैं
    यह कुछ हद तक समझ में आता है कि Mythos/ChatGPT 5.5, उस तरह की complexity में कहीं बेहतर कर सकता है जो curl में मौजूद नहीं है। curl में “anything client” होने के कारण खूब features हैं, लेकिन जिस दूसरे software पर हम निर्भर हैं, उसके मुकाबले इसकी complexity कई orders of magnitude कम है

    • curl, जितना लोग समझते हैं, उससे काफ़ी ज़्यादा complex है। ज़्यादातर लोग इसे सिर्फ़ एक command-line tool के रूप में जानते हैं जो HTTP(S) endpoint को hit कर output देता है, लेकिन वास्तव में यह लगभग हर file transfer protocol को support करता है, और लंबे समय तक चलने वाली processes के लिए डिज़ाइन की गई library है
      लंबे समय तक चलने वाली processes को ध्यान में रखते हुए, यह connections और resources को pipeline और reuse करने के लिए हर संभव तकनीक अपनाता है। इसमें asynchronous API भी है ताकि इसे मौजूदा event loop में integrate किया जा सके
      क्या web browser या database इससे ज़्यादा complex हैं? हाँ, बहुत संभव है। वे सचमुच बहुत बड़े problems हल कर रहे हैं। लेकिन curl निश्चित रूप से उन ज़्यादातर application code से अधिक complex है जो उसका इस्तेमाल करते हैं
    • मैं मानता हूँ कि यह एक काफ़ी बुनियादी टूल है, लेकिन जैसा लेख में कहा गया है, इसका code War and Peace से भी लंबा है। इतने आकार में security vulnerabilities के लिए जगह अभी भी काफ़ी है
    • लेख से उद्धरण: “curl में अभी blank lines को छोड़कर C code की 176,000 lines हैं। source code 660,000 शब्दों का है, जो उपन्यास War and Peace के पूरे English संस्करण से 12% अधिक शब्द हैं”
      “curl 20 अरब से अधिक instances में installed है। यह 110 से अधिक operating systems और 28 CPU architectures पर चलता है। यह धरती के हर smartphone, tablet, car, TV, game console और server पर चलता है”
      इसे सरल या अच्छी तरह सीमाबद्ध कहना मुश्किल है। ज़्यादातर operating systems या web browsers भी cars या TVs पर नहीं चलते
  • “ज़्यादा ख़तरनाक नहीं” वाला निष्कर्ष ठीक से निकलता हुआ नहीं लगता। जैसा बताया गया, curl पहले से उपलब्ध लगभग हर tool के साथ बहुत गहराई से विश्लेषित किया जा चुका है, जबकि ज़्यादातर software का ऐसा हाल नहीं है

    • लेकिन Mythos की मार्केटिंग सिर्फ़ इस रूप में नहीं हो रही कि यह मौजूदा tools का थोड़ा बेहतर संस्करण है; इसे क्रांति की तरह पेश किया जा रहा है
    • Mythos या तो dangerous है या नहीं है। यहाँ dangerous से मतलब है “ऐसी vulnerabilities ढूँढना जो उपलब्ध tools से मिलने वाले bugs की तुलना में बहुत अधिक हों”
      Mythos को अतिरिक्त रूप से सिर्फ़ एक vulnerability मिली, और x+1, x से बहुत बड़ा नहीं होता, इसलिए इस परिभाषा के अनुसार निष्कर्ष निकलता है कि Mythos dangerous नहीं है
    • सही, लेकिन क्या यह निर्णय Mythos की दूसरे models से तुलना पर आधारित नहीं है?
      अगर ऐसा है, तब भी निष्कर्ष लागू होता है। “ज़्यादातर software” का curl जितना analysis नहीं हुआ है, और न ही दूसरे tools या models से हुआ है। अगर वे tools Mythos के लगभग समान results दे सकते हैं, तो Mythos को विशेष रूप से dangerous कहना कठिन है
    • क्या “ज़्यादा ख़तरनाक नहीं” वाली बात मिली हुई vulnerabilities के बारे में नहीं थी? कम severity किसे माना जाए, यह शायद उन्हें अच्छी तरह पता होगा
    • curl को इस समय रिकॉर्ड स्तर पर high-quality bug/vulnerability reports मिल रही हैं। यह पहले की low-quality bulk spam reports की तुलना में काफ़ी तेज़ बदलाव है, इसलिए इसका मतलब यह नहीं कि वहाँ ढूँढने को कुछ नहीं है
      इनमें से कई या अधिकांश शायद AI tools की मदद से human experts ने ढूँढी हैं, लेकिन अगर Mythos सचमुच revolutionary है, तो उसे ऐसी समस्याएँ ख़ुद खोजनी चाहिए
      https://daniel.haxx.se/blog/2026/04/22/high-quality-chaos/, मूल पोस्ट में लिंक किया गया
  • “पुष्ट की गई एकमात्र vulnerability एक low-severity CVE होने वाली है, और इसे जून के अंत में निर्धारित अगली curl release 8.21.0 के साथ सार्वजनिक करने की योजना है” — यह हिस्सा प्रभावशाली लगा
    अब भी यह समझना मुश्किल है कि cURL में कितनी quality और refinement डाली गई है। यह उस चीज़ का आदर्श उदाहरण है जो इतनी सही बनी होती है कि लोग उसके बारे में लगभग दोबारा सोचते ही नहीं

    • आसान है। यह दिखाता है कि programming language की परवाह किए बिना, commit, review और merge होने वाली हर line of code पर उच्च गुणवत्ता मानक लागू करने से क्या संभव हो सकता है
      लेकिन bottom-to-the-bottom competition, सस्ती offshore outsourcing, और अब LLM-based code generation के दौर में, जब तक जवाबदेही तय न हो, ज़्यादातर कंपनियाँ ऐसी quality की परवाह नहीं करेंगी
    • Curl और SQLite मेरे पसंदीदा उदाहरण हैं कि “किसी भी चीज़” को सही engineering और कड़े testing के साथ कैसे बनाया जा सकता है। इसमें सचमुच एक दार्शनिक पहलू है
      इन projects की contribution requirements ऐसी सख़्ती माँगती हैं, और maintainers उन माँगों को लागू भी करते हैं। इसे संभव बनाने वाली चीज़ है बिना operational load वाली documentation, यानी ऐसी लिखित सामग्री जो project code नहीं है। इससे Einstein के thought experiments से GPS जैसे वास्तविक projects तक की यात्रा, या Descartes के इस विश्वास की याद आती है कि हर समस्या को तार्किक विचार से हल किया जा सकता है
    • इतनी अच्छी तरह बना देने के बाद भी लोग आख़िर में curl ... | bash कर देते हैं और उन्हें कुछ ग़लत भी महसूस नहीं होता, यह विडंबनापूर्ण है। फिर वे “threat model” जैसे शब्दों से बच निकलते हैं
      मैं curl-bash छोड़ दूँगा और cryptographically signed package installer इस्तेमाल करूँगा
  • मुझे पता है कि Mythos को लेकर हाइप Anthropic की मार्केटिंग का हिस्सा है, लेकिन अगर कोई codebase बहुत गहराई से review किया गया हो, तो क्या यह संभव नहीं कि मौजूदा स्थिति में उसमें कोई उल्लेखनीय security exploit न बचा हो?
    कुछ न मिलना अपने-आप में नकारात्मक सबूत नहीं है। ख़ासकर तब, जब दूसरे tools पहले ही सैकड़ों vulnerabilities पहचान चुके हों। अभी तो यह पूरी तरह खंगाला हुआ लगता है

  • मार्केटिंग हमेशा मिली-जुली रहती है, और लोगों को उसे संदर्भ में देख पाना चाहिए
    साथ ही, curl एक open source project है, अपेक्षाकृत छोटा लेकिन बेहद अहम, प्रसिद्ध, और हर जगह इस्तेमाल होने वाला। image libraries को छोड़ दें तो curl, sudo, su, passwd जैसे tools वे चीज़ें हैं जिन्हें मैं पहले आज़माना चाहूँगा
    Mythos वास्तव में क्या कर सकता है, यह अभी बिल्कुल स्पष्ट नहीं है। 10 trillion parameter model का cost और benchmark के लिहाज़ से क्या मतलब है?
    फिर भी, अगर LLM को ऐसी समस्याएँ खोजने में इंसानों से बहुत बेहतर होना अभी लगभग आधा साल पहले शुरू हुआ है, तो किसी बिंदु पर हमें उस समस्या का सामना करना होगा जिसे सब नज़रअंदाज़ कर रहे थे। आज के समय में security scanning में LLM को अतिरिक्त तौर पर शामिल करना चाहिए, और इसे गंभीरता से लेना चाहिए
    सबसे ख़राब स्थिति में भी, Anthropic की मार्केटिंग का इस्तेमाल यह कहने के लिए किया जा सकता है कि अब यह ज़रूरी है और कुछ बदल चुका है

    • “10 trillion parameter model का cost और benchmark के लिहाज़ से क्या मतलब है?” इस सवाल पर, मेरे लिए इसका मतलब है कि हम scaling effect की S-curve के ऊपरी हिस्से तक पहुँच चुके हैं
      अगर उस पैमाने पर भी tool स्पष्ट रूप से बेहतर नहीं है, तो हम निश्चित रूप से diminishing returns वाले क्षेत्र में हैं
    • “Mythos क्या कर सकता है, यह अभी बिल्कुल स्पष्ट नहीं है” — यह जानबूझकर बनाई गई स्थिति है। फिर भी, यह सोच लेना काफ़ी है कि लोग पहले से मान क्या रहे हैं कि यह कर सकता है
    • “LLM ऐसी समस्याएँ खोजने में इंसानों से कहीं बेहतर हो गए हैं” — यह बात सुनकर मैं आँखें घुमाता हूँ। सामान्य static analyzers भी दशकों से कुछ विशिष्ट यांत्रिक कामों में इंसानों से बेहतर रहे हैं, और कुछ ऐसे यांत्रिक कामों में इंसानों से बेहतर होना अपने-आप में बहुत बड़ी बात नहीं है
      असल नई और दिलचस्प बात वह संभावित “fuzzy bugs” हैं जिन्हें लेख के अनुसार LLM पहचान सकते हैं। उदाहरण के लिए, जब comments code से मेल न खाते हों, third-party library का इस्तेमाल असामान्य तरीके से हुआ हो, code और implement किया गया protocol एक-दूसरे से भटक गए हों, या कोई code सामान्य रूप से अजीब लगे और किसी को उसे और ध्यान से देखना चाहिए। यह पारंपरिक debugging toolbox की एक कमी को भरता है, लेकिन उन्हें replace नहीं करना चाहिए
  • मेरी नज़र में Mythos को लेकर संदेश यह है कि top security experts और शीर्ष भाषा/protocol/code विशेषज्ञों की expertise, access रखने वाले किसी भी व्यक्ति तक पहुँचाई जा रही है
    ख़तरा इस बात में था कि defenders के उस स्तर की विशेषज्ञता तक पहुँचने से पहले ही पूरी दुनिया को वह access दे दिया गया
    Curl हर चीज़ के केंद्र में है, इसलिए वर्षों से security, protocol और language experts इसे देखते आए हैं। Mythos ने कुछ पाया, यह दिलचस्प है, लेकिन यह सिर्फ़ मार्केटिंग हाइप है और ख़तरनाक नहीं है — ऐसा संकेत इससे नहीं मिलता
    99.99% projects, चाहे open source हों या closed source, curl जितने सुरक्षित नहीं हैं। LLM तो closed-source projects को भी ख़ुशी-ख़ुशी decompile करके explore करेंगे। अगर किसी project पर fuzzing नहीं हुई, मौजूदा AI tools और experts ने उसे review नहीं किया, तो मान लेना चाहिए कि वह पहले से break किया जा सकता है। मौजूदा tools से भी, और Mythos जैसी चीज़ें तो कम विशेषज्ञता वाले कहीं बड़े user base को ऐसी क्षमता तक पहुँच दे देती हैं

    • सहमत। Anthropic ने कभी superhuman performance का दावा नहीं किया; उसने सिर्फ़ speed और scale का दावा किया है
      अच्छी तरह अध्ययन किए गए software में बहुत-सी नई vulnerabilities न मिलना, dangerous misuse की व्यापक संभावना के बारे में कुछ नहीं कहता
  • यह कुछ ऐसा पढ़ने जैसा है: “curl मौजूदा C codebase में सबसे ज़्यादा fuzzed और audited codebase में से एक है। OSS-Fuzz, Coverity, CodeQL, और कई paid audits हुए हैं। HTTP/1, TLS, URL parsing core जैसे hot paths में कुछ ढूँढना मुश्किल है”
    यह अभिव्यक्ति ऐसे लगती है जैसे LLM ने कोशिश करके असफल नहीं हुआ, बल्कि उसने शुरू से ही कोशिश छोड़ दी हो। मैंने देखा है कि Claude अक्सर ऐसा करता है अगर उसे ख़ुद को चुनौती देने के लिए उकसाया न जाए, इसलिए जिज्ञासा है कि यहाँ वास्तव में क्या हुआ

 
GN⁺ 3 시간 전
Lobste.rs की राय
  • अकेले देखें तो यह बहुत चौंकाने वाला नहीं है, लेकिन इस नतीजे को शायद ऐसे देखना चाहिए: “पहले के मॉडल आने के बाद से इस पर लगभग हर दिन हमले हुए, और सबसे ज़्यादा समीक्षा किए गए applications में से एक में सिर्फ एक रन में security issue मिला”

    • “आम static code analyzers लगातार चलाए, सबसे सख्त compiler options इस्तेमाल किए, और सालों तक fuzzing भी की” — यह वैसी चीज़ है जो दूसरे स्थानों पर सोचने से भी कम की जाती है
      अब शायद हमें उस अंधेरे दौर के लिए तैयार रहना होगा जहाँ security घटती जाएगी या गायब हो जाएगी, जब तक सब कुछ फिर से नहीं लिखा जाता
    • यह सही है कि LLMs vulnerability ढूंढने में काफ़ी सक्षम हो गए हैं, लेकिन मुझे नहीं पता कि curl को सबसे ज़्यादा audited applications में से एक क्यों बताया जा रहा है
      curl के पास bug bounty program था और उसने कुछ हद तक research को आकर्षित भी किया, लेकिन नतीजा यह भी हुआ कि Daniel AI कचरा reports में दब गए
      public हो या private, vulnerability research target के रूप में यह कभी भी सबसे ऊपरी स्तर का आकर्षण नहीं रहा
      यह “यहाँ तो कुछ भी करके नहीं मिलेगा” वाली श्रेणी में नहीं आता, खासकर अगर आप सब्सिडी-स्तर के विशाल compute resources लगा सकते हों
    • vulnerability भी low severity की है
      ब्लॉग पोस्ट के अनुसार, “पहचानी गई एकमात्र vulnerability एक low severity CVE होगी, जिसे जून के अंत में तय अगली curl 8.21.0 release के साथ public किया जाएगा”
      यह भी लिखा है कि 4 false positives भी थे
  • “आख़िरकार, model access रखने वाले किसी और व्यक्ति ने यह पेशकश की कि वह मेरी तरफ़ से Mythos के साथ curl scan और analysis चलाकर report भेज सकता है. मेरे लिए यह फ़र्क इतना महत्वपूर्ण नहीं था. वैसे भी मेरे पास अलग-अलग prompts आज़माने और गहराई में जाने के लिए ज़्यादा समय नहीं था.”
    यह बिल्कुल वैसा व्यवहार है जैसा तब होता है जब hype machine ऐसे results दे रही हो जो वादे से कम हों: “हमारी चीज़ आज़माइए! नहीं, मतलब आप खुद नहीं चलाएँगे. हम आपके लिए चला देंगे!” और पीछे से पारंपरिक और महंगे तरीके चल रहे हों
    इस बार भी ऐसा ही हुआ था या नहीं, यह मैं नहीं जानता, लेकिन मुझे नहीं लगता कि इसकी संभावना इतनी कम है कि उसे नज़रअंदाज़ किया जाए. यह भी जानने की जिज्ञासा है कि और कौन लोग थे जिनसे Mythos इस्तेमाल करने को कहा गया, लेकिन जिन्होंने वास्तव में Mythos इस्तेमाल नहीं किया और सिर्फ results पाए

    • शायद उन्होंने बस black-market vulnerability खरीद ली हो और उसे ऐसे पेश किया हो जैसे Mythos ने ढूंढी हो. तब वह सिर्फ AI द्वारा उगला गया data point बन जाएगा
      यहाँ तक कि संभव है कि ऐसे ज़्यादातर findings उन कमजोरियों पर आधारित हों जिन पर maintainers कम जाते dark forums में पहले से चर्चा हो चुकी हो
      इसका मतलब यह नहीं कि AI software को अधिक सुरक्षित नहीं बना सकता. लेकिन जब AI companies अपने पत्ते बहुत छिपाकर खेलती हैं, तब यह जानना मुश्किल हो जाता है कि सच क्या है
    • मुझे यह भी जिज्ञासा है कि क्या उन्होंने Anthropic के बारे में अपने पुराने विचारों की पुष्टि न करने वाली वैकल्पिक व्याख्याएँ भी खोजीं
  • तीन महीने पहले मैंने इसी व्यक्ति को मंच पर यह घोषणा करते देखा था कि AI कचरा reports की वजह से वह bug bounty program बंद कर रहा है
    जिज्ञासा यह है कि tool इतना बेहतर हो गया, या फिर आर्थिक प्रोत्साहन हट जाने के बाद लोगों ने असली vulnerabilities और कचरे में फ़र्क करने में ज़्यादा समय लगाना शुरू किया

  • Mastodon को देखें तो ऐसे results confirmation bias को बेकाबू करने के लिए बहुत अच्छे हैं
    लेकिन अगर confirmation bias को हटाकर देखें, तो इसे generalize करना उचित नहीं लगता. फिर भी, data points public होना अच्छा है

    • यह Mastodon पर कुल मिलाकर कितना लागू होता है, पता नहीं, लेकिन मेरे आसपास का माहौल इतना anti-AI है कि अनुभवी लोग भी Claude chat interface में GitHub link डालकर यह दिखाने की कोशिश करते हैं कि यह बेकार है
      जबकि यह उस तरह इस्तेमाल करने वाला tool नहीं है. लोगों को results दिखाने की कोशिश करना सच में मुश्किल है, क्योंकि वे सिर्फ failures की ओर इशारा करके हँसना चाहते हैं
  • काश ऐसे और posts आएँ
    curl में सिर्फ एक low severity मिलना उत्साहजनक है, लेकिन साथ ही यह सिर्फ एक अकेला मामला है. यह भी हो सकता है कि curl बस दूसरी core libraries की तुलना में ज़्यादा mature हो

  • “ऐसा लग रहा था जैसे पूरी दुनिया पागल हो गई हो. क्या यह उस दुनिया का अंत था जिसे हम जानते थे? यह निश्चित रूप से हैरतअंगेज़ रूप से सफल marketing stunt था.”
    मुझे इस तरह की writing style में दिलचस्पी नहीं है. मैं साफ़ सोच और मज़बूत reasoning देखना चाहता हूँ. इसे good faith में पढ़ना चाहिए
    बिना अच्छे evidence और reasoning के Glasswing को “marketing stunt” कहना अटकल है. स्वस्थ skepticism समझ में आता है, लेकिन स्वस्थ skepticism को अपने भीतर की ओर भी मुड़ना चाहिए. किस आधार पर इतनी निश्चितता हो सकती है?
    अगर कोई चीज़ stunt थी, तो उसका मतलब क्या है? “stunt” शब्द पढ़ते ही manipulation की मंशा का आभास होता है. इरादे पर सबसे सीधे तौर पर वही लोग बोल सकते हैं “जो उस कमरे में थे”. बाकी लोग ज़्यादा से ज़्यादा अनुमान ही लगा सकते हैं, लेकिन बहुत से लोग उन अनुमानों को गंभीरता से परखते भी नहीं और उन्हें तथ्य की तरह मान लेते हैं
    जो लोग वहाँ मौजूद नहीं थे, उनके लिए निश्चित दावे करने के बजाय अपनी reasoning समझाना अधिक समझदारी होगी
    incentives कई दिशाओं में इशारा करते हैं. मैं इसे भोलेपन से नहीं देख रहा. लेकिन अगर कोई गंभीर लेखक है, तो उससे उम्मीद होती है कि वह पाठक की बुद्धि और दुनिया को समझने की इच्छा का सम्मान करेगा
    अक्सर ऐसा होता है कि एक क्षेत्र का expert दूसरे क्षेत्र में overconfidence के साथ कूद पड़ता है और गलती कर बैठता है. यह मानने का आधार क्या है कि curl maintainer के पास सामान्य रूप से, और खासकर अपने project की प्रतिष्ठा के बारे में, अच्छे epistemic standards हैं? इंसानों में अक्सर यह प्रबल incentive होता है कि वे न चाहें कि कोई मशीन उनसे बेहतर निकले. मैं यह नहीं कह रहा कि Mythos पहले ही उस स्थिति में पहुँच चुका है. उस हिस्से पर मैं judgment reserve रखता हूँ. लेकिन इस पोस्ट में दिखाई गई reasoning को देखकर लेखक से प्रभावित होना मुश्किल है

    • मैं इस बात से सहमत नहीं हूँ कि Glasswing को marketing stunt कहना जल्दबाज़ी थी. “successful marketing stunt” वाले वाक्य के तुरंत बाद जो आता है, उसे देखें तो मुझे यह उचित आलोचना लगती है
      “Project Glasswing के हिस्से के रूप में, Anthropic ने Linux Foundation के माध्यम से ‘open-source projects’ को अपने latest AI models तक access भी दिया. Linux Foundation ने यह हिस्सा Alpha Omega project को संभालने दिया, और उनके प्रतिनिधियों ने मुझसे संपर्क किया. curl के lead developer के रूप में मुझे इस magic model access की पेशकश की गई, और मैंने खुशी-खुशी इसे स्वीकार किया. स्वाभाविक रूप से, मैं देखना चाहता था कि curl में क्या मिल सकता है.”
      पूरी पोस्ट पढ़ने पर मेरा निष्कर्ष यह है कि लेखक यह नहीं कह रहा था कि Glasswing सिर्फ marketing stunt था, बल्कि यह कि marketing stunt के रूप में वह निश्चित ही सफल था, और उससे आगे वह कितना है यह अभी तय होना बाकी है
      उद्धरण के बाद की बाकी पोस्ट यह निष्कर्ष निकालती है कि यह सिर्फ marketing से बढ़कर भी कुछ था, और “अब भी बहुत अच्छा” है. आशय यह था कि अब तक मिली साँस रोक देने वाली marketing hype जितना न भी हो, तब भी यह काफ़ी मददगार साबित हो सकता है
    • OpenAI ने उसके कुछ ही समय बाद अपने नियमित upgrade pattern के तहत नया model version जारी किया, और इस क्षेत्र में मिलती-जुलती क्षमता दिखाई, लेकिन कोई खास धूमधाम या हंगामा नहीं हुआ
      वह बस GPT-5.5 था. उस लिहाज़ से, मेरा मानना है कि Mythos को कथित ख़तरे की वजह से छिपाकर रखना शायद security use cases पर ध्यान केंद्रित करने और नई demand पैदा करने की मंशा से किया गया हो सकता है