insane-search - 403 मिलते ही हार मान लेने वाले Claude Code को आखिर तक कोशिश करने वाला बना दिया
(github.com/fivetaku)403 मिलते ही हार मान लेने वाला Claude Code मुझे पसंद नहीं था.
"यह Naver ब्लॉग पोस्ट पढ़ो" → 403. "Coupang पर 100,000 won से कम के कीबोर्ड चुनकर दो" → 403. "इस Reddit थ्रेड में क्या कहा गया है?" → ब्लॉक. आखिरकार मुझे खुद ब्राउज़र में जाकर कॉपी-पेस्ट करके देना बार-बार दोहराना पड़ता था. AI से काम करवाना था, फिर काम मैं ही क्यों कर रहा हूँ, यही लगता था.
मैंने मौजूदा MCPs भी इस्तेमाल करके देखे, लेकिन समस्या थी. ज़्यादातर या तो किसी एक खास platform से बंधे थे (Twitter-only, YouTube-only), या API key/OAuth sign-up मांगते थे, या फिर "यह साइट ब्लॉक है" जैसी bias सीख चुके थे, इसलिए कोशिश ही नहीं करते थे. साइटें हर दिन बदलती हैं, और तरीका भी अभी काम कर सकता है, तो एक बार ब्लॉक होने पर हार मान लेना समझ में नहीं आता था.
इसलिए मैंने method selection layer बनाई. यह scraper नहीं है, बल्कि public endpoint और standard technique को तब तक क्रम से आज़माने वाला skill है, जब तक रास्ता न खुल जाए.
यह कैसे काम करता है
जब Claude Code किसी URL तक पहुँचने की कोशिश करता है, तो 4-स्टेज adaptive scheduler मदद करता है. पिछला Phase fail हो जाए या block signal detect हो तभी अगला Phase चलता है.
- Phase 0: generic chain से discover न होने वाले special endpoint ही index करता है (15 groups) — X Syndication, Reddit
.json, HN Firebase, yt-dlp के 1,858 sites - Phase 1: parallel lightweight probe — WebFetch, Jina Reader, curl Chrome/Mobile/Googlebot UA,
m.{domain}/.json//rssURL variation - Phase 2: TLS impersonation —
curl_cffisafari → chrome → firefox क्रम में (pip installअपने-आप, अगर install न हो) - Phase 3: real browser — Playwright MCP से rendering + hidden API discovery (
network_requests) - login/paywall detect होने पर "authentication required" पर stop. बेकार में कोशिश जारी नहीं रहती
हर HTML response से OGP tags + JSON-LD structured data भी साथ में निकाली जाती है. पूरा body न भी मिले, तो title/price/profile मिल जाते हैं.
Korean sites पर यह खास तौर पर अच्छा चलता है
- Naver ब्लॉग → mobile URL variation से ज़्यादातर मामलों में हल
- Coupang → Phase 2 के
curl_cffi safariसे JSON-LD ItemList extraction - DC Inside/FM Korea/Clien/Daangn/YoZM IT/Wishket → Jina Reader या curl से सब पढ़े जाते हैं
- Naver Finance →
api.finance.naver.com/siseJson.naverunofficial JSON API (बिना authentication) - Korean media 9 outlets → RSS index + Google News RSS fallback
मुख्य सिद्धांत
bias मत बनाओ. मैंने "यह साइट मुश्किल है" जैसी कोई सूची नहीं बनाई. dependency न हो तो उसे छोड़ता भी नहीं है — install करके try करता है. क्योंकि साइट भी, और तरीका भी, अभी काम कर सकता है.
इंस्टॉल
/plugin marketplace add https://github.com/fivetaku/gptaku_plugins.git
/plugin install insane-search
रीस्टार्ट करें और काम खत्म. कोई API key/sign-up/environment variable नहीं है. सामान्य तरीके से कहें, और blocked URL पर यह अपने-आप trigger हो जाता है.
2 टिप्पणियां
vercel-labs का agent browser कमाल का है
क्या इसे सीधे
browser-useइस्तेमाल करने नहीं देना चाहिए?