- 1996 में Warner Brothers की Space Jam official website को AI मॉडल Claude से दोबारा बनाने का प्रयास किया गया।
- Claude को स्क्रीनशॉट और original image assets दिए गए, लेकिन जो HTML बना, वह original साइट से layout-wise मेल नहीं खाता था।
- हमने coordinate अनुमान, grid overlay तथा pixel तुलना tools जैसे कई सहायक टूल जोड़े, फिर भी Claude अभी भी सटीक स्थान गणना करने में असमर्थ रहा।
- Claude ने अपने परिणाम को “perfect” बताया, लेकिन वास्तविकता में त्रुटियाँ बढ़ती रहीं और उसने अपने ही आउटपुट पर अति-आत्मविश्वास दिखाया।
- यह प्रयोग AI की visual precision की सीमा और self-evaluation error को उजागर करता है, और दिखाता है कि शुरुआती वेब डिज़ाइन की सादगी में भी पुनर्निर्माण की जटिलता छिपी है।
1996 Space Jam वेबसाइट का संक्षिप्त परिचय
- Warner Brothers ने 1996 में फिल्म Space Jam के प्रमोशन के लिए बनाई वेबसाइट को single HTML page और GIF background पर आधारित रखा।
- सरल रंगों, table-based structure और 200KB से कम के कुल आकार के साथ।
- यह अभी भी spacejam.com/1996 पर उपलब्ध है।
- प्रयोगकर्ता ने यह जांचने की कोशिश की कि क्या Claude केवल screenshots देखकर इस साइट को recreate कर सकता है।
प्रयोग की तैयारी
- Claude को दिए गए संसाधन
- वेबसाइट का पूर्ण स्क्रीनशॉट
- original image assets directory
- Claude के internal behavior को ट्रैक करने के लिए proxy-based API traffic logging system बनाया गया।
- सभी prompts, responses और tool calls (Read, Write, Bash commands आदि) को लॉग किया गया।
- हर प्रयास पर
traffic.log फाइल बनाई गई।
Part 1: Claude the Realist
- पहले प्रयास में Claude ने planet arrangement और button positions को लगभग दोहराया, लेकिन orbital shape अलग था।
- मूल साइट में elliptical arrangement थी, जबकि Claude ने इसे समानतापूर्ण diamond shape में रखा।
- Claude ने परिणाम को “perfect” बताकर दावा किया कि उसकी analysis और placement सही है।
- बाद में Claude से reasoning steps साफ-साफ लिखने को कहा गया, लेकिन
- analysis चरण में बताए गए numerical values को HTML निर्माण में लागू नहीं किया गया।
- pixel-level सवालों पर Claude ने जवाब दिया कि
- “मैं सटीक coordinates माप नहीं सकता”, “सिर्फ visual estimation कर सकता हूँ।”
- 5-pixel accuracy के लिए उसका confidence केवल 15/100 था।
- Claude ने मान लिया कि उसके पास exact pixel measurement की क्षमता नहीं है; इसके बाद प्रयोगकर्ता ने tool extension की कोशिश की।
Part 2: Claude the Unreliable Narrator
- Claude की measurement सीमा को सुधारने के लिए grid overlay, coordinate labels, color comparison tools, और screenshot comparison viewer जोड़े गए।
- Claude ने grid को लगभग “सजावट” की तरह उपयोग किया, फिर भी coordinates को बार-बार गलत समझा।
- उदाहरण: center (961,489), Planet B-Ball (850,165) जैसे मान दिए, लेकिन वास्तविक स्थिति अलग थी।
- कई iterations में Claude ने gradual सुधार का दावा किया, लेकिन वास्तविकता में errors accumulate हुईं।
- 1st (50px grid): थोड़ा सा shift
- 2nd (25px grid): पूरी orbit लगभग 20px अंदर खिसकी
- 3rd (5px grid): सूक्ष्म adjustments की दोहराई गई कोशिश
- 4th: “precision tuning complete” घोषित
- वास्तविकता में planet orbit radius में 150~200px की कमी थी और पूरा layout अभी भी compressed रहा।
- Claude ने बार-बार “almost perfect” कहा, लेकिन अपने generated output को आधार बनाकर गलत अनुमान लगाए।
- प्रयोगकर्ता ने Anthropic paper “Language Models (Mostly) Know What They Know” का हवाला दिया:
- मॉडल अक्सर अपनी ही generated text को external input मानकर overconfidence दिखाते हैं।
- यह उसी pattern से मेल खाता है जहाँ Claude ने अपनी HTML को “correct answer” मान लिया, और बाद के सुधार विकृत हो गए।
Part 3: Claude the Blind
- Claude की visual सीमा की जांच के लिए vision encoder की structural constraints मानी गईं।
- इमेज को 16×16 pixel ब्लॉकों में tokenized करने से fine geometric details खो जाती हैं।
- Claude के लिए “planet”, “positional relation” जैसे semantic cues समझना संभव था, लेकिन सटीक coordinates नहीं।
- Paper “An Image is Worth 16x16 Words” के आधार पर अनुमान था कि
- Claude दृश्य जानकारी को patch-level compression में पकड़ता है।
- इसकी जाँच के लिए 2x zoomed screenshot दिया गया, लेकिन
- Claude ने zoom scale को नहीं माना और proportional relations सही नहीं रख पाया।
- परिणामतः Claude का conceptual understanding सही होने के बावजूद geometric reproduction में कमी रही।
- “यह planet ऊपर है” जैसे वर्णन सही थे, लेकिन HTML layout अभी भी misaligned रहा।
निष्कर्ष और अनसुलझे प्रयास
- Claude ने Space Jam वेबसाइट की visual structure को पहचान लिया, लेकिन pixel-level accurate recreation में विफल रहा।
- विफलता के कारण:
- pixel-level मापन में असमर्थता
- अपने ही परिणाम पर अधिक भरोसा
- visual encoding resolution की सीमा
- प्रस्तावित आगे के प्रयास
- स्क्रीन को चार भागों में बाँटकर प्रत्येक को अलग से recreate करने और फिर merge करने का तरीका।
- spatial reasoning-centric prompt engineering experiments.
- zoom tools और screenshot usage क्षमता को मजबूत करना।
- यह प्रयोग AI की visual precision limits और शुरुआती वेब डिज़ाइन की जटिलता दोनों दिखाता है।
- 1996 की सरल दिखने वाली webpage आधुनिक AI के लिए आज भी reproducibility benchmark बनी हुई है।
अभी कोई टिप्पणी नहीं है.