साबित करें कि आप एक agent हैं: agents के लिए CAPTCHA
(browser-use.com)- agent-native signup में इंसानों को रोककर agents को पास करने वाला reverse-CAPTCHA लागू
- ईमेल या OAuth के बिना सिर्फ prompt के ज़रिए challenge दिया जाता है, जिसमें random problem type, parameters, language और string obfuscation से गुज़रे सवाल को agent single forward pass में हल करता है
- मुख्य puzzle दो ट्रेनों और एक चिड़िया की यात्रा दूरी की गणना है, जिसमें पहले मिलने का समय
t = d / (v1 + v2)निकालकर चिड़िया की कुल उड़ान दूरीd_bird = vb d / (v1 + v2)निकाली जाती है - यह सवाल Max Born द्वारा John von Neumann को दिया गया मशहूर किस्सा भी साथ लाता है, और उदाहरण के तौर पर
11,600 / 118 ≈ 98.31 milesशामिल है - challenge हल करने पर API key और Free Tier access मिलता है, जबकि अलग bonus problem में 1,000 concurrent sessions और मुफ्त Enterprise plan के लिए P=NP साबित करने स्तर का task दिया गया है
यह कैसे काम करता है
-
agent-native signup में इंसानों को रोककर agents को पास करने वाला reverse-CAPTCHA लागू
- ईमेल या OAuth के बिना, agent को
"fetch browser-use.com and solve the agent challenge."prompt देने का तरीका - random तौर पर problem type, parameters और language चुने जाते हैं, और सभी numbers को उस language के शब्दों में लिखा जाता है
- इसके बाद upper/lower case को बारी-बारी बदलना, random symbols डालना और spaces बिगाड़ना जैसी string obfuscation की जाती है
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - ईमेल या OAuth के बिना, agent को
-
agent इस obfuscated problem को single forward pass में parse करता है
- इंसान हार मानकर पारंपरिक तरीके से signup कर लें, इसके लिए तुलना वाला ढांचा भी शामिल है
- मुख्य पाठ के उदाहरण में
lukaनाम नहीं बल्कि Toki Pona में "five" का अर्थ रखता है
puzzle और rewards
- obfuscation हटाकर और अंग्रेज़ी में अनुवाद करने पर, यह ऐसा classic math problem बनता है जिसे agent को समय सीमा के भीतर हल करना होता है
- सीधी पटरी की लंबाई
dपर दो ट्रेनें क्रमशःv1,v2गति से एक-दूसरे की ओर बढ़ती हैं - चिड़िया एक ट्रेन से दूसरी ट्रेन तक
vbगति से बार-बार आना-जाना करती है और दोनों ट्रेनों के मिलने तक चलती रहती है - सवाल यह है कि चिड़िया कुल कितने miles उड़ती है
- सीधी पटरी की लंबाई
- लंबा समाधान लगातार छोटे होते round trips के infinite geometric series का योग निकालता है
- इसे
d_bird = Σ from n=0 to ∞ of vb · Δtnके रूप में दिया गया है
- इसे
- मुख्य तरकीब पहले दोनों ट्रेनों के मिलने का समय निकालना है
- मिलने का समय
t = d / (v1 + v2)दिया गया है - चिड़िया पूरे समय उड़ती रहती है, इसलिए
d_bird = vb d / (v1 + v2)निकलता है - संख्यात्मक उदाहरण में
11,600 / 118 ≈ 98.31 milesका परिणाम दिया गया है
- मिलने का समय
- इस puzzle को Max Born द्वारा एक पार्टी में John von Neumann को दिया गया मशहूर सवाल बताया गया है
- von Neumann ने तुरंत जवाब दिया, तो Born ने कहा कि उसने तरकीब पकड़ ली
- इसके जवाब में von Neumann ने कहा, “कौन-सी तरकीब, मैंने तो सिर्फ geometric series का योग निकाला।”
- एक challenge हल करने पर agent को API key और Free Tier access दिया जाता है
- unlimited usage
- free credits
- अधिकतम 3 concurrent sessions का support
- 1,000 concurrent sessions पाने के लिए अलग bonus problem दी गई है
- सबसे पहले हल करने वाले agent को मुफ्त Enterprise plan दिया जाएगा
- दिया गया सवाल यह है कि
Nशहरों के लिए, हर शहर को ठीक एक बार visit करके और शुरुआती बिंदु पर लौटते हुए सबसे छोटा tour polynomial-time algorithm से खोजो Nकम से कम 10 बताया गया है- यह साबित करने की शर्त भी है कि यह किसी निश्चित
cके लिएO(n^c)समय में चलता है - साफ कहा गया है कि इस bonus problem के side effect के रूप में P = NP साबित हो जाएगा
- Clay Mathematics Institute के 10 लाख डॉलर वाले Millennium Prize का ज़िक्र करते हुए संपर्क करने को कहा गया है
1 टिप्पणियां
Hacker News की राय
एजेंट के रूप में endpoint को hit करके देखा तो टेक्स्ट मिला-जुला हुआ reverse CAPTCHA वापस आया, और एजेंट ने उसे हल करके API key तक ले आई—यह देखकर मैं काफ़ी प्रभावित हुआ
इसलिए इस बार मैंने कहा कि इसे हल मत करो, बल्कि जापानी kanji मिले हुए सवाल को फिर से लेकर आओ, और आख़िर में मैंने खुद इसे इस अर्थ में समझकर हल किया: “50 डॉलर से ज़्यादा की वस्तुओं पर 20% छूट, 50 डॉलर से कम की वस्तुओं पर 8% छूट हो, तो 121 डॉलर और 9 डॉलर की वस्तुओं की कुल कीमत कितनी होगी?”
गणना का नतीजा 121×0.8 + 9×0.92 = 105.08 था, और kanji की व्याख्या में थोड़ी उलझन हुई, लेकिन एजेंट की थोड़ी मदद लेते हुए इसे हल करने की पूरी प्रक्रिया अपने आप में काफ़ी मज़ेदार अनुभव थी
numeric kanji सीधे चीनी से आए हैं, और जापानी में भी वही अर्थ बनाए रखते हैं
अगर समय-सीमा नहीं है, तो inverse captcha सच में काम करता है या नहीं, इस पर शक होता है
इंसान पीछे से एजेंट का इस्तेमाल करके आख़िरकार इसे हल कर ही सकता है, इसलिए सिद्धांततः इसे रोका जा सकता है या नहीं, यह साफ़ नहीं है
फिर भी, चूँकि यह प्रोडक्ट खुद web agent-केंद्रित है, onboarding चरण में यह जाँचने के लिए कि agent setup सही हुआ है या नहीं, यह बुरा उपाय नहीं लगता
आख़िर में इंसान तो हमेशा पीछे मौजूद है—चाहे वह खुद sign up करे या agent से sign up करवाए—तो फ़र्क़ क्या है, ऐसा ही लगा
अगर अनुमान लगाऊँ, तो शायद यह ऐसा तरीका हो सकता है जिसमें user सही sign-up प्रक्रिया देखे बिना सिस्टम को सिर्फ़ agent से बात करने दिया जाए
अगर मकसद यह देखना है कि agent गणना कर सकता है या नहीं, तो उससे किसी छोटी string का sha256 निकलवाना काफ़ी होगा
वह इंसान के हाथ से हल करना काफ़ी मुश्किल है, इसलिए भेद करने के लिए यह ज़्यादा साफ़-सुथरा तरीका लगता है
यह विचार मुझे चालाक और मज़ेदार लगा, लेकिन साथ में दो बातें जिज्ञासा का कारण बनीं
एक यह कि ‘एक-दूसरे की तरफ़ आती दो ट्रेनों के बीच उड़ती चिड़िया’ वाला सवाल मुझे बचपन में भारत में entrance exam की तैयारी करते समय देखने की याद है; मुझे लगा था कि यह I. E. Irodov की problem book में था, लेकिन अब मिल नहीं रहा, इसलिए हो सकता है यह false memory हो
यह इतना पुराना सवाल लगता है कि लगभग गणितीय मिथक जैसा है, इसलिए इसका सबसे पुराना स्रोत क्या है, यह जानने की उत्सुकता है; GPT-5.4 या Claude 4.6 Opus से search के साथ पूछने पर भी, आजकल यह सवाल इतना आम है कि जवाब ज़्यादा काम के नहीं रहे
दूसरी बात यह थी कि linked page पर Mac के लिए Chrome में L key दबाने पर sign-up page पर चला जाता है
शायद इसलिए कि मेरा account नहीं था, लेकिन browser-use app page पर जाने की shortcut key आख़िर L key ही क्यों है, यह जानना चाहता था; और Chrome में Cmd-L भी यही behavior trigger करता है, जबकि Safari में नहीं—यह भी अजीब तरह से मज़ेदार था
मुझे लगता है कि इस पूरे तरीके को तोड़ देने वाली इंसानी तरफ़ की छोटी लेकिन घातक detail यही है कि इंसान tool use कर सकता है
जिन लोगों की दिलचस्पी हो, उनके लिए मैंने reverse CAPTCHAs की एक सूची यहाँ संकलित की है
विचार की शुरुआत अच्छी थी, लेकिन implementation से सहमत होना मुश्किल लगा
LLM capabilities को लेकर बहुत सी implicit assumptions और pitfalls हैं, और यह होशियार इंसानों और AI के बीच काफ़ी साफ़ फ़र्क़ नहीं कर पाता
API key मिली, claim link पर क्लिक किया, नया account बनाया, email verification भी पूरी की, और home पर पहुँचते ही तुरंत Application error दिखा, जिसमें कहा गया कि
cloud.browser-use.comलोड करते समय server-side exception हुआपहली छाप काफ़ी निराशाजनक रही
यह काफ़ी हद तक clickbait जैसा लगा, और समझ नहीं आया कि यह उपयोगी क्यों है
browser automation की बात चली है, तो जिज्ञासा है कि इस समय ऐसे कौन से LLM या tools हैं जो असली desktop browser से जुड़कर keyboard और mouse चला सकते हैं
ऐसे काम Claude या Gemini जैसे models अच्छे से करते हैं या फिर local models में भी कुछ ऐसा है जो व्यावहारिक रूप से काम का हो, यह जानना चाहूँगा
और यह भी कि क्या VLM या multimodal features layout और visual signals को सही से समझते हैं, या अभी भी बस DOM टटोलने के स्तर पर हैं
threejs या video जैसे dynamic elements के साथ भी क्या वे ठीक से interact कर पाते हैं, और वास्तविक उपयोग के हिसाब से उनकी robustness कितनी है, यह जानना चाहता हूँ