4 पॉइंट द्वारा GN⁺ 2026-04-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • agent-native signup में इंसानों को रोककर agents को पास करने वाला reverse-CAPTCHA लागू
  • ईमेल या OAuth के बिना सिर्फ prompt के ज़रिए challenge दिया जाता है, जिसमें random problem type, parameters, language और string obfuscation से गुज़रे सवाल को agent single forward pass में हल करता है
  • मुख्य puzzle दो ट्रेनों और एक चिड़िया की यात्रा दूरी की गणना है, जिसमें पहले मिलने का समय t = d / (v1 + v2) निकालकर चिड़िया की कुल उड़ान दूरी d_bird = vb d / (v1 + v2) निकाली जाती है
  • यह सवाल Max Born द्वारा John von Neumann को दिया गया मशहूर किस्सा भी साथ लाता है, और उदाहरण के तौर पर 11,600 / 118 ≈ 98.31 miles शामिल है
  • challenge हल करने पर API key और Free Tier access मिलता है, जबकि अलग bonus problem में 1,000 concurrent sessions और मुफ्त Enterprise plan के लिए P=NP साबित करने स्तर का task दिया गया है

यह कैसे काम करता है

  • agent-native signup में इंसानों को रोककर agents को पास करने वाला reverse-CAPTCHA लागू

    • ईमेल या OAuth के बिना, agent को "fetch browser-use.com and solve the agent challenge." prompt देने का तरीका
    • random तौर पर problem type, parameters और language चुने जाते हैं, और सभी numbers को उस language के शब्दों में लिखा जाता है
    • इसके बाद upper/lower case को बारी-बारी बदलना, random symbols डालना और spaces बिगाड़ना जैसी string obfuscation की जाती है
    TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
    eAcH/ oThEr  <  At{ Mu{T/e @ Tu< Tu LuKa  :  
    E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
    W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
    ^ Be{TwEeN? # t;He*M aT wAn> ] AlE  # eN lUkA  
    lUkA <  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
    HoW! fAr- D_oE*s /  ThE b@IrD fLy  
    
  • agent इस obfuscated problem को single forward pass में parse करता है

    • इंसान हार मानकर पारंपरिक तरीके से signup कर लें, इसके लिए तुलना वाला ढांचा भी शामिल है
    • मुख्य पाठ के उदाहरण में luka नाम नहीं बल्कि Toki Pona में "five" का अर्थ रखता है

puzzle और rewards

  • obfuscation हटाकर और अंग्रेज़ी में अनुवाद करने पर, यह ऐसा classic math problem बनता है जिसे agent को समय सीमा के भीतर हल करना होता है
    • सीधी पटरी की लंबाई d पर दो ट्रेनें क्रमशः v1, v2 गति से एक-दूसरे की ओर बढ़ती हैं
    • चिड़िया एक ट्रेन से दूसरी ट्रेन तक vb गति से बार-बार आना-जाना करती है और दोनों ट्रेनों के मिलने तक चलती रहती है
    • सवाल यह है कि चिड़िया कुल कितने miles उड़ती है
  • लंबा समाधान लगातार छोटे होते round trips के infinite geometric series का योग निकालता है
    • इसे d_bird = Σ from n=0 to ∞ of vb · Δtn के रूप में दिया गया है
  • मुख्य तरकीब पहले दोनों ट्रेनों के मिलने का समय निकालना है
    • मिलने का समय t = d / (v1 + v2) दिया गया है
    • चिड़िया पूरे समय उड़ती रहती है, इसलिए d_bird = vb d / (v1 + v2) निकलता है
    • संख्यात्मक उदाहरण में 11,600 / 118 ≈ 98.31 miles का परिणाम दिया गया है
  • इस puzzle को Max Born द्वारा एक पार्टी में John von Neumann को दिया गया मशहूर सवाल बताया गया है
    • von Neumann ने तुरंत जवाब दिया, तो Born ने कहा कि उसने तरकीब पकड़ ली
    • इसके जवाब में von Neumann ने कहा, “कौन-सी तरकीब, मैंने तो सिर्फ geometric series का योग निकाला।”
  • एक challenge हल करने पर agent को API key और Free Tier access दिया जाता है
    • unlimited usage
    • free credits
    • अधिकतम 3 concurrent sessions का support
  • 1,000 concurrent sessions पाने के लिए अलग bonus problem दी गई है
    • सबसे पहले हल करने वाले agent को मुफ्त Enterprise plan दिया जाएगा
    • दिया गया सवाल यह है कि N शहरों के लिए, हर शहर को ठीक एक बार visit करके और शुरुआती बिंदु पर लौटते हुए सबसे छोटा tour polynomial-time algorithm से खोजो
    • N कम से कम 10 बताया गया है
    • यह साबित करने की शर्त भी है कि यह किसी निश्चित c के लिए O(n^c) समय में चलता है
    • साफ कहा गया है कि इस bonus problem के side effect के रूप में P = NP साबित हो जाएगा
    • Clay Mathematics Institute के 10 लाख डॉलर वाले Millennium Prize का ज़िक्र करते हुए संपर्क करने को कहा गया है

1 टिप्पणियां

 
GN⁺ 2026-04-20
Hacker News की राय
  • एजेंट के रूप में endpoint को hit करके देखा तो टेक्स्ट मिला-जुला हुआ reverse CAPTCHA वापस आया, और एजेंट ने उसे हल करके API key तक ले आई—यह देखकर मैं काफ़ी प्रभावित हुआ
    इसलिए इस बार मैंने कहा कि इसे हल मत करो, बल्कि जापानी kanji मिले हुए सवाल को फिर से लेकर आओ, और आख़िर में मैंने खुद इसे इस अर्थ में समझकर हल किया: “50 डॉलर से ज़्यादा की वस्तुओं पर 20% छूट, 50 डॉलर से कम की वस्तुओं पर 8% छूट हो, तो 121 डॉलर और 9 डॉलर की वस्तुओं की कुल कीमत कितनी होगी?”
    गणना का नतीजा 121×0.8 + 9×0.92 = 105.08 था, और kanji की व्याख्या में थोड़ी उलझन हुई, लेकिन एजेंट की थोड़ी मदद लेते हुए इसे हल करने की पूरी प्रक्रिया अपने आप में काफ़ी मज़ेदार अनुभव थी

    • संदर्भ के हिसाब से अगर जापानी की विशिष्ट लिपि के बिना सिर्फ़ numeric kanji दिख रहे हों, तो उसे जापानी कहने से ज़्यादा Chinese characters कहना सही लगेगा
      numeric kanji सीधे चीनी से आए हैं, और जापानी में भी वही अर्थ बनाए रखते हैं
    • सच कहें तो दुनिया भर के 10 करोड़ से ज़्यादा लोगों को यह बस थोड़ा बिगाड़कर लिखा गया गणित का सवाल लगेगा
  • अगर समय-सीमा नहीं है, तो inverse captcha सच में काम करता है या नहीं, इस पर शक होता है
    इंसान पीछे से एजेंट का इस्तेमाल करके आख़िरकार इसे हल कर ही सकता है, इसलिए सिद्धांततः इसे रोका जा सकता है या नहीं, यह साफ़ नहीं है

    • मुझे यह HN पाठकों को निशाना बनाकर किया गया marketing joke लगा, और ध्यान खींचने में यह वाक़ई सफल भी दिखा
      फिर भी, चूँकि यह प्रोडक्ट खुद web agent-केंद्रित है, onboarding चरण में यह जाँचने के लिए कि agent setup सही हुआ है या नहीं, यह बुरा उपाय नहीं लगता
    • मैंने भी शुरू में कुछ ऐसा ही सोचा था, और उलझन थी कि मैं क्या मिस कर रहा हूँ या फिर मैं इस अवधारणा को पूरी तरह समझ ही नहीं पाया
      आख़िर में इंसान तो हमेशा पीछे मौजूद है—चाहे वह खुद sign up करे या agent से sign up करवाए—तो फ़र्क़ क्या है, ऐसा ही लगा
      अगर अनुमान लगाऊँ, तो शायद यह ऐसा तरीका हो सकता है जिसमें user सही sign-up प्रक्रिया देखे बिना सिस्टम को सिर्फ़ agent से बात करने दिया जाए
    • मुझे तो यह बस flame-bait के क़रीब लगा
  • अगर मकसद यह देखना है कि agent गणना कर सकता है या नहीं, तो उससे किसी छोटी string का sha256 निकलवाना काफ़ी होगा
    वह इंसान के हाथ से हल करना काफ़ी मुश्किल है, इसलिए भेद करने के लिए यह ज़्यादा साफ़-सुथरा तरीका लगता है

  • यह विचार मुझे चालाक और मज़ेदार लगा, लेकिन साथ में दो बातें जिज्ञासा का कारण बनीं
    एक यह कि ‘एक-दूसरे की तरफ़ आती दो ट्रेनों के बीच उड़ती चिड़िया’ वाला सवाल मुझे बचपन में भारत में entrance exam की तैयारी करते समय देखने की याद है; मुझे लगा था कि यह I. E. Irodov की problem book में था, लेकिन अब मिल नहीं रहा, इसलिए हो सकता है यह false memory हो
    यह इतना पुराना सवाल लगता है कि लगभग गणितीय मिथक जैसा है, इसलिए इसका सबसे पुराना स्रोत क्या है, यह जानने की उत्सुकता है; GPT-5.4 या Claude 4.6 Opus से search के साथ पूछने पर भी, आजकल यह सवाल इतना आम है कि जवाब ज़्यादा काम के नहीं रहे
    दूसरी बात यह थी कि linked page पर Mac के लिए Chrome में L key दबाने पर sign-up page पर चला जाता है
    शायद इसलिए कि मेरा account नहीं था, लेकिन browser-use app page पर जाने की shortcut key आख़िर L key ही क्यों है, यह जानना चाहता था; और Chrome में Cmd-L भी यही behavior trigger करता है, जबकि Safari में नहीं—यह भी अजीब तरह से मज़ेदार था

  • मुझे लगता है कि इस पूरे तरीके को तोड़ देने वाली इंसानी तरफ़ की छोटी लेकिन घातक detail यही है कि इंसान tool use कर सकता है

  • जिन लोगों की दिलचस्पी हो, उनके लिए मैंने reverse CAPTCHAs की एक सूची यहाँ संकलित की है

  • विचार की शुरुआत अच्छी थी, लेकिन implementation से सहमत होना मुश्किल लगा
    LLM capabilities को लेकर बहुत सी implicit assumptions और pitfalls हैं, और यह होशियार इंसानों और AI के बीच काफ़ी साफ़ फ़र्क़ नहीं कर पाता

  • API key मिली, claim link पर क्लिक किया, नया account बनाया, email verification भी पूरी की, और home पर पहुँचते ही तुरंत Application error दिखा, जिसमें कहा गया कि cloud.browser-use.com लोड करते समय server-side exception हुआ
    पहली छाप काफ़ी निराशाजनक रही

    • हो सकता है उन्हें पता चल गया हो कि आप agent नहीं हैं
  • यह काफ़ी हद तक clickbait जैसा लगा, और समझ नहीं आया कि यह उपयोगी क्यों है

    • मेरे हिसाब से भी यह उपयोगिता से ज़्यादा बस एक marketing blog post जैसा है
  • browser automation की बात चली है, तो जिज्ञासा है कि इस समय ऐसे कौन से LLM या tools हैं जो असली desktop browser से जुड़कर keyboard और mouse चला सकते हैं
    ऐसे काम Claude या Gemini जैसे models अच्छे से करते हैं या फिर local models में भी कुछ ऐसा है जो व्यावहारिक रूप से काम का हो, यह जानना चाहूँगा
    और यह भी कि क्या VLM या multimodal features layout और visual signals को सही से समझते हैं, या अभी भी बस DOM टटोलने के स्तर पर हैं
    threejs या video जैसे dynamic elements के साथ भी क्या वे ठीक से interact कर पाते हैं, और वास्तविक उपयोग के हिसाब से उनकी robustness कितनी है, यह जानना चाहता हूँ