1 पॉइंट द्वारा gptaku 2026-04-16 | 2 टिप्पणियां | WhatsApp पर शेयर करें

403 मिलते ही हार मान लेने वाला Claude Code मुझे पसंद नहीं था.

"यह Naver ब्लॉग पोस्ट पढ़ो" → 403. "Coupang पर 100,000 won से कम के कीबोर्ड चुनकर दो" → 403. "इस Reddit थ्रेड में क्या कहा गया है?" → ब्लॉक. आखिरकार मुझे खुद ब्राउज़र में जाकर कॉपी-पेस्ट करके देना बार-बार दोहराना पड़ता था. AI से काम करवाना था, फिर काम मैं ही क्यों कर रहा हूँ, यही लगता था.

मैंने मौजूदा MCPs भी इस्तेमाल करके देखे, लेकिन समस्या थी. ज़्यादातर या तो किसी एक खास platform से बंधे थे (Twitter-only, YouTube-only), या API key/OAuth sign-up मांगते थे, या फिर "यह साइट ब्लॉक है" जैसी bias सीख चुके थे, इसलिए कोशिश ही नहीं करते थे. साइटें हर दिन बदलती हैं, और तरीका भी अभी काम कर सकता है, तो एक बार ब्लॉक होने पर हार मान लेना समझ में नहीं आता था.

इसलिए मैंने method selection layer बनाई. यह scraper नहीं है, बल्कि public endpoint और standard technique को तब तक क्रम से आज़माने वाला skill है, जब तक रास्ता न खुल जाए.

यह कैसे काम करता है

जब Claude Code किसी URL तक पहुँचने की कोशिश करता है, तो 4-स्टेज adaptive scheduler मदद करता है. पिछला Phase fail हो जाए या block signal detect हो तभी अगला Phase चलता है.

  • Phase 0: generic chain से discover न होने वाले special endpoint ही index करता है (15 groups) — X Syndication, Reddit .json, HN Firebase, yt-dlp के 1,858 sites
  • Phase 1: parallel lightweight probe — WebFetch, Jina Reader, curl Chrome/Mobile/Googlebot UA, m.{domain}/.json//rss URL variation
  • Phase 2: TLS impersonation — curl_cffi safari → chrome → firefox क्रम में (pip install अपने-आप, अगर install न हो)
  • Phase 3: real browser — Playwright MCP से rendering + hidden API discovery (network_requests)
  • login/paywall detect होने पर "authentication required" पर stop. बेकार में कोशिश जारी नहीं रहती

हर HTML response से OGP tags + JSON-LD structured data भी साथ में निकाली जाती है. पूरा body न भी मिले, तो title/price/profile मिल जाते हैं.

Korean sites पर यह खास तौर पर अच्छा चलता है

  • Naver ब्लॉग → mobile URL variation से ज़्यादातर मामलों में हल
  • Coupang → Phase 2 के curl_cffi safari से JSON-LD ItemList extraction
  • DC Inside/FM Korea/Clien/Daangn/YoZM IT/Wishket → Jina Reader या curl से सब पढ़े जाते हैं
  • Naver Financeapi.finance.naver.com/siseJson.naver unofficial JSON API (बिना authentication)
  • Korean media 9 outlets → RSS index + Google News RSS fallback

मुख्य सिद्धांत

bias मत बनाओ. मैंने "यह साइट मुश्किल है" जैसी कोई सूची नहीं बनाई. dependency न हो तो उसे छोड़ता भी नहीं है — install करके try करता है. क्योंकि साइट भी, और तरीका भी, अभी काम कर सकता है.

इंस्टॉल

/plugin marketplace add https://github.com/fivetaku/gptaku_plugins.git  
/plugin install insane-search  

रीस्टार्ट करें और काम खत्म. कोई API key/sign-up/environment variable नहीं है. सामान्य तरीके से कहें, और blocked URL पर यह अपने-आप trigger हो जाता है.

2 टिप्पणियां

 
ng0301 2026-04-19

vercel-labs का agent browser कमाल का है

 
holywork 2026-04-19

क्या इसे सीधे browser-use इस्तेमाल करने नहीं देना चाहिए?