LLM मल्टी-एजेंट workflow से open source zero-day खोजने का अनुभव

nell93 · 2026-03-12T09:11:57+09:00

AIxCC प्रतियोगिता और हैकिंग प्रतियोगिताओं के रुझानों को देखते हुए सुरक्षा उद्योग में paradigm shift को महसूस किया, और real-world vulnerability discovery workflow को स्वयं बनाया। शुरुआत में memory vulnerabilities या black-box hacking पर भी विचार किया गया था, लेकिन नीतिगत सीमाओं और server crash के जोखिम के कारण दिशा बदलनी पड़ी। इसके बजाय बड़े web open source projects (Nextcloud, Matomo, Grafana आदि) को target बनाया गया, जिनका code पारदर्शी रूप से सार्वजनिक है और जिनकी जटिल business logic analysis में LLM की context understanding क्षमता बहुत प्रभावी हो सकती है। token consumption से होने वाली cost (sustainability) समस्या को हल करने के लिए, GeekNews पर देखे गए benchmark लेख के संदर्भ से cost-effectiveness में उत्कृष्ट GLM model-आधारित 3-stage routing architecture डिज़ाइन किया गया। Finding (GLM-4.7): top-tier models की तुलना में लगभग 3 गुना सस्ते 4.7 version के call count को बढ़ाकर vulnerability candidates की बड़े पैमाने पर खोज Semi-Triage (GLM-5): स्पष्ट false positives को पहली बार में फ़िल्टर करना Triage (Codex 5.3): केवल बचे हुए data को top-tier model से अंतिम verification कर Discord/Notion पर automatic alert भेजना (report करने से पहले मानव द्वारा सीधे reproduction और verification) prompt engineering के माध्यम से LLM की उस विशिष्ट 'ऊपरी तौर पर देख लेने' वाली आलसी प्रवृत्ति को नियंत्रित किया गया। 'attacker conditions, server conditions, security impact (CIA)' इन 3 तत्वों को उत्तर में अनिवार्य रूप से output करने के लिए मजबूर किया गया open source की आधिकारिक security policy और documents के साथ cross-check कराकर, साधारण bug और security vulnerability के बीच स्पष्ट अंतर कराया गया नतीजतन, जहाँ इंसान routing code की हज़ारों-हज़ार lines और permission engine का मिलान करते समय एकाग्रता खोकर सूक्ष्म logical gaps को आसानी से चूक सकता है, वहाँ AI ने उन्हें सटीक रूप से पकड़ने में सफलता पाई। विशेष रूप से, Grafana dashboard permission management API में internal permission validation के दौरान scope argument के छूट जाने वाली कमजोरी AI ने खोजी, और इससे दूसरे dashboard का control takeover किया जा सकने वाला गंभीर privilege escalation vulnerability (CVE-2026-21721, CVSS 8.1) report किया गया। इसके अलावा Nextcloud (XSS, authentication bypass), Protobuf (DoS), Airflow और Discourse आदि में भी कई zero-days (CVE) और bounties हासिल किए गए। आगे चलकर simple vulnerability discovery (red team) का काम AI काफ़ी हद तक replace कर सकता है; और भविष्य में ऐसे AI security workflows को स्वयं design करने की क्षमता तथा business situation के अनुरूप blue team दृष्टिकोण से defense strategy बनाने की योग्यता hackers के लिए अधिक महत्वपूर्ण हो जाएगी—यह insight साझा की गई है।

(se1en.tistory.com)

7 पॉइंट द्वारा nell93 2026-03-12 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

AIxCC प्रतियोगिता और हैकिंग प्रतियोगिताओं के रुझानों को देखते हुए सुरक्षा उद्योग में paradigm shift को महसूस किया, और real-world vulnerability discovery workflow को स्वयं बनाया।
शुरुआत में memory vulnerabilities या black-box hacking पर भी विचार किया गया था, लेकिन नीतिगत सीमाओं और server crash के जोखिम के कारण दिशा बदलनी पड़ी। इसके बजाय बड़े web open source projects (Nextcloud, Matomo, Grafana आदि) को target बनाया गया, जिनका code पारदर्शी रूप से सार्वजनिक है और जिनकी जटिल business logic analysis में LLM की context understanding क्षमता बहुत प्रभावी हो सकती है।
token consumption से होने वाली cost (sustainability) समस्या को हल करने के लिए, GeekNews पर देखे गए benchmark लेख के संदर्भ से cost-effectiveness में उत्कृष्ट GLM model-आधारित 3-stage routing architecture डिज़ाइन किया गया।
- Finding (GLM-4.7): top-tier models की तुलना में लगभग 3 गुना सस्ते 4.7 version के call count को बढ़ाकर vulnerability candidates की बड़े पैमाने पर खोज
- Semi-Triage (GLM-5): स्पष्ट false positives को पहली बार में फ़िल्टर करना
- Triage (Codex 5.3): केवल बचे हुए data को top-tier model से अंतिम verification कर Discord/Notion पर automatic alert भेजना (report करने से पहले मानव द्वारा सीधे reproduction और verification)
prompt engineering के माध्यम से LLM की उस विशिष्ट 'ऊपरी तौर पर देख लेने' वाली आलसी प्रवृत्ति को नियंत्रित किया गया।
- 'attacker conditions, server conditions, security impact (CIA)' इन 3 तत्वों को उत्तर में अनिवार्य रूप से output करने के लिए मजबूर किया गया
- open source की आधिकारिक security policy और documents के साथ cross-check कराकर, साधारण bug और security vulnerability के बीच स्पष्ट अंतर कराया गया
नतीजतन, जहाँ इंसान routing code की हज़ारों-हज़ार lines और permission engine का मिलान करते समय एकाग्रता खोकर सूक्ष्म logical gaps को आसानी से चूक सकता है, वहाँ AI ने उन्हें सटीक रूप से पकड़ने में सफलता पाई।
विशेष रूप से, Grafana dashboard permission management API में internal permission validation के दौरान scope argument के छूट जाने वाली कमजोरी AI ने खोजी, और इससे दूसरे dashboard का control takeover किया जा सकने वाला गंभीर privilege escalation vulnerability (CVE-2026-21721, CVSS 8.1) report किया गया।
इसके अलावा Nextcloud (XSS, authentication bypass), Protobuf (DoS), Airflow और Discourse आदि में भी कई zero-days (CVE) और bounties हासिल किए गए।
आगे चलकर simple vulnerability discovery (red team) का काम AI काफ़ी हद तक replace कर सकता है; और भविष्य में ऐसे AI security workflows को स्वयं design करने की क्षमता तथा business situation के अनुरूप blue team दृष्टिकोण से defense strategy बनाने की योग्यता hackers के लिए अधिक महत्वपूर्ण हो जाएगी—यह insight साझा की गई है।

LLM मल्टी-एजेंट workflow से open source zero-day खोजने का अनुभव

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.