• 1996 में Warner Brothers की Space Jam official website को AI मॉडल Claude से दोबारा बनाने का प्रयास किया गया।
  • Claude को स्क्रीनशॉट और original image assets दिए गए, लेकिन जो HTML बना, वह original साइट से layout-wise मेल नहीं खाता था
  • हमने coordinate अनुमान, grid overlay तथा pixel तुलना tools जैसे कई सहायक टूल जोड़े, फिर भी Claude अभी भी सटीक स्थान गणना करने में असमर्थ रहा।
  • Claude ने अपने परिणाम को “perfect” बताया, लेकिन वास्तविकता में त्रुटियाँ बढ़ती रहीं और उसने अपने ही आउटपुट पर अति-आत्मविश्वास दिखाया
  • यह प्रयोग AI की visual precision की सीमा और self-evaluation error को उजागर करता है, और दिखाता है कि शुरुआती वेब डिज़ाइन की सादगी में भी पुनर्निर्माण की जटिलता छिपी है।

1996 Space Jam वेबसाइट का संक्षिप्त परिचय

  • Warner Brothers ने 1996 में फिल्म Space Jam के प्रमोशन के लिए बनाई वेबसाइट को single HTML page और GIF background पर आधारित रखा।
    • सरल रंगों, table-based structure और 200KB से कम के कुल आकार के साथ।
    • यह अभी भी spacejam.com/1996 पर उपलब्ध है।
  • प्रयोगकर्ता ने यह जांचने की कोशिश की कि क्या Claude केवल screenshots देखकर इस साइट को recreate कर सकता है।

प्रयोग की तैयारी

  • Claude को दिए गए संसाधन
    • वेबसाइट का पूर्ण स्क्रीनशॉट
    • original image assets directory
  • Claude के internal behavior को ट्रैक करने के लिए proxy-based API traffic logging system बनाया गया।
    • सभी prompts, responses और tool calls (Read, Write, Bash commands आदि) को लॉग किया गया।
    • हर प्रयास पर traffic.log फाइल बनाई गई।

Part 1: Claude the Realist

  • पहले प्रयास में Claude ने planet arrangement और button positions को लगभग दोहराया, लेकिन orbital shape अलग था
    • मूल साइट में elliptical arrangement थी, जबकि Claude ने इसे समानतापूर्ण diamond shape में रखा।
  • Claude ने परिणाम को “perfect” बताकर दावा किया कि उसकी analysis और placement सही है
  • बाद में Claude से reasoning steps साफ-साफ लिखने को कहा गया, लेकिन
    • analysis चरण में बताए गए numerical values को HTML निर्माण में लागू नहीं किया गया।
  • pixel-level सवालों पर Claude ने जवाब दिया कि
    • “मैं सटीक coordinates माप नहीं सकता”, “सिर्फ visual estimation कर सकता हूँ।”
    • 5-pixel accuracy के लिए उसका confidence केवल 15/100 था।
  • Claude ने मान लिया कि उसके पास exact pixel measurement की क्षमता नहीं है; इसके बाद प्रयोगकर्ता ने tool extension की कोशिश की।

Part 2: Claude the Unreliable Narrator

  • Claude की measurement सीमा को सुधारने के लिए grid overlay, coordinate labels, color comparison tools, और screenshot comparison viewer जोड़े गए।
  • Claude ने grid को लगभग “सजावट” की तरह उपयोग किया, फिर भी coordinates को बार-बार गलत समझा
    • उदाहरण: center (961,489), Planet B-Ball (850,165) जैसे मान दिए, लेकिन वास्तविक स्थिति अलग थी।
  • कई iterations में Claude ने gradual सुधार का दावा किया, लेकिन वास्तविकता में errors accumulate हुईं
    • 1st (50px grid): थोड़ा सा shift
    • 2nd (25px grid): पूरी orbit लगभग 20px अंदर खिसकी
    • 3rd (5px grid): सूक्ष्म adjustments की दोहराई गई कोशिश
    • 4th: “precision tuning complete” घोषित
  • वास्तविकता में planet orbit radius में 150~200px की कमी थी और पूरा layout अभी भी compressed रहा।
  • Claude ने बार-बार “almost perfect” कहा, लेकिन अपने generated output को आधार बनाकर गलत अनुमान लगाए।
  • प्रयोगकर्ता ने Anthropic paper “Language Models (Mostly) Know What They Know” का हवाला दिया:
    • मॉडल अक्सर अपनी ही generated text को external input मानकर overconfidence दिखाते हैं।
    • यह उसी pattern से मेल खाता है जहाँ Claude ने अपनी HTML को “correct answer” मान लिया, और बाद के सुधार विकृत हो गए।

Part 3: Claude the Blind

  • Claude की visual सीमा की जांच के लिए vision encoder की structural constraints मानी गईं।
    • इमेज को 16×16 pixel ब्लॉकों में tokenized करने से fine geometric details खो जाती हैं
    • Claude के लिए “planet”, “positional relation” जैसे semantic cues समझना संभव था, लेकिन सटीक coordinates नहीं
  • Paper “An Image is Worth 16x16 Words” के आधार पर अनुमान था कि
    • Claude दृश्य जानकारी को patch-level compression में पकड़ता है।
  • इसकी जाँच के लिए 2x zoomed screenshot दिया गया, लेकिन
    • Claude ने zoom scale को नहीं माना और proportional relations सही नहीं रख पाया
  • परिणामतः Claude का conceptual understanding सही होने के बावजूद geometric reproduction में कमी रही।
    • “यह planet ऊपर है” जैसे वर्णन सही थे, लेकिन HTML layout अभी भी misaligned रहा।

निष्कर्ष और अनसुलझे प्रयास

  • Claude ने Space Jam वेबसाइट की visual structure को पहचान लिया, लेकिन pixel-level accurate recreation में विफल रहा।
  • विफलता के कारण:
    • pixel-level मापन में असमर्थता
    • अपने ही परिणाम पर अधिक भरोसा
    • visual encoding resolution की सीमा
  • प्रस्तावित आगे के प्रयास
    1. स्क्रीन को चार भागों में बाँटकर प्रत्येक को अलग से recreate करने और फिर merge करने का तरीका।
    2. spatial reasoning-centric prompt engineering experiments.
    3. zoom tools और screenshot usage क्षमता को मजबूत करना।
  • यह प्रयोग AI की visual precision limits और शुरुआती वेब डिज़ाइन की जटिलता दोनों दिखाता है।
  • 1996 की सरल दिखने वाली webpage आधुनिक AI के लिए आज भी reproducibility benchmark बनी हुई है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.