Flipbook - मॉडल से सीधे लाइव स्ट्रीम होने वाली वेबसाइट
(flipbook.page)- रीयल-टाइम on-demand generation के जरिए हर पेज को इमेज के रूप में बनाया जाता है, और इमेज के अंदर किसी ऑब्जेक्ट पर क्लिक करने पर उसे और गहराई से एक्सप्लोर करने वाली नई स्क्रीन बनती है
- स्क्रीन पर HTML या input fields नहीं होते, और टेक्स्ट तक को इमेज मॉडल पिक्सल के रूप में सीधे render करता है, इसलिए यह pixel-centric interface की तरह काम करता है
- पेज की जानकारी agentic web search और इमेज मॉडल के world knowledge को साथ मिलाकर बनाई जाती है, और लिखा है कि इसकी accuracy लगभग ChatGPT, Gemini, Claude से अपेक्षित स्तर जैसी है
- live video stream फीचर एक्सप्लोरेशन इमेज को animate करता है और transitions को अधिक smooth बनाता है, लेकिन फिलहाल यह predict करना कठिन है और resource consumption ज्यादा है, इसलिए इसे toggle के पीछे रखा गया है
- अभी यह प्रयोगात्मक exploration·learning tool के अधिक करीब है, लेकिन जैसे-जैसे इमेज·वीडियो मॉडल की accuracy और performance बढ़ेगी, यह अधिक real data के साथ interaction, task execution, और data storage तक शामिल करने वाले environment में विस्तार कर सकता है
अवलोकन
- यह एक अनंत visual browser है जो रीयल-टाइम on-demand generation पर चलता है, और उपयोगकर्ता जिस भी पेज पर पहुँचता है, उसे इमेज के रूप में बनाता है
- स्क्रीन पर HTML, code, specific links या input fields नहीं होते, और इमेज के भीतर किसी ऑब्जेक्ट पर क्लिक करने पर उस ऑब्जेक्ट को और गहराई से एक्सप्लोर करने वाली नई इमेज बनती है
- यह वेब को documents और UI elements के संग्रह के रूप में नहीं, बल्कि स्क्रीन पर उत्पन्न होने वाले pixel-centric interface के रूप में फिर से रचता है
काम करने का तरीका और विस्तार की दिशा
- स्क्रीन का सारा टेक्स्ट भी इमेज मॉडल पिक्सल के रूप में सीधे render करता है, और इमेज के ऊपर अलग से टेक्स्ट overlay नहीं चढ़ाता
- इसके परिणामस्वरूप कभी-कभी टेक्स्ट अधूरा या गलत जगह पर दिखाई दे सकता है, और लिखा है कि मॉडल बेहतर होने पर यह सुधर सकता है
- इमेज के भीतर की जानकारी agentic web search और इमेज मॉडल के अपने world knowledge को मिलाकर बनाई जाती है
- कभी-कभी यह inaccurate हो सकती है, लेकिन इसे ऑनलाइन वास्तविक डेटा पर आम तौर पर आधारित एक उपयोगी शुरुआती बिंदु के रूप में पेश किया गया है
- लिखा है कि factual accuracy लगभग उस स्तर जैसी है जिसकी अपेक्षा ChatGPT, Gemini, Claude इस्तेमाल करते समय की जा सकती है
- टेक्स्ट और रंगीन rectangles पर आधारित स्क्रीन की जगह, इसका लक्ष्य समृद्ध visual expression के जरिए जानकारी देने वाला computing experience बनाना है
- इसका मानना है कि केवल fixed code और rules से जटिल और सूक्ष्म विचारों को व्यक्त करना कठिन है, इसलिए संदर्भ के अनुसार एक शब्द, illustration, realistic rendering जैसे सबसे प्रभावी अभिव्यक्ति तरीकों को चुनने की दिशा पर जोर दिया गया है
- live video stream एक प्रयोगात्मक फीचर है जो static images को अधिक सतत video stream में बदलता है, हर exploration image को animate करता है और उनके बीच transitions को ज्यादा smooth बनाता है
- फिलहाल इसका व्यवहार कुछ हद तक unpredictable है और resource consumption भी अधिक है, इसलिए इसे on/off toggle के पीछे रखा गया है
- लिखा है कि अभी यह एक highly optimized custom video generation model और दो image generation systems को साथ में इस्तेमाल करता है, और आगे चलकर इन्हें एक single system में integrate करने की योजना है
- फिलहाल इसे प्रयोगात्मक exploration·learning tool के रूप में डिजाइन किया गया है, लेकिन जैसे-जैसे इमेज·वीडियो मॉडल की accuracy और performance बढ़ेगी, यह अधिक real data शामिल करने, interaction करने, सीधे tasks execute करने और अपना data store करने वाले पेजों तक विस्तार कर सकता है
- उदाहरण के तौर on, अगली यात्रा की रिसर्च करके किसी दूसरी जगह बुकिंग करने के स्तर से बदलकर Flipbook के भीतर पूरी प्रक्रिया पूरी करने के स्तर तक जा सकता है
- लिखा है कि जो काम अभी अलग ऐप्स और वेबसाइट्स मांगते हैं, वे भविष्य में Flipbook जैसे दिखने और काम करने वाले environment के भीतर अधिक किए जा सकते हैं
- embedded video को support न करने वाले browsers में यह नहीं चलेगा
- डेमो पहले से तैयार किए गए वीडियो का उपयोग करता है और speed के लिए edit किया गया है
3 टिप्पणियां
वाह, सिर्फ़ परिचय वीडियो देखकर ही इसे एक बार आज़माने का मन करता है.. लेकिन कह रहे हैं 3 घंटे इंतज़ार करना होगा। लगता है बहुत ज़्यादा लोग उमड़ पड़े हैं
https://x.com/DongwooKim/status/2047499005580738657
मैंने Seoul Namsan को घुमा कर देखा, और वह बहुत ही प्यारा और शानदार लगा।
Hacker News की राय
यह सच में हैरान कर देने वाला है। मैंने कहीं से मिला एक hydroponic system डायग्राम अपलोड किया,
तो इसने piping, nutrient supply, electrical wiring जैसे बारीक हिस्सों के अलग-अलग high-quality diagrams बना दिए।
पूरी तरह सटीक तो नहीं था, लेकिन concept अपने-आप में मुझे बहुत पसंद आया।
मैंने इसे कार suspension torque spec डायग्राम बनाने को कहा। यह ऐसा विषय था जिसे मैं अच्छी तरह जानता हूँ, इसलिए जाँचकर देखा तो
इसने लगभग सब कुछ सही बनाया था और torque values भी सही थीं।
individual parts पर क्लिक करके और zoom in करके extra specs भी देखे जा सकते थे।
यह लंबे समय बाद देखा गया सबसे प्रभावशाली demo था, और इसे एक जीवित Haynes repair manual की तरह इस्तेमाल किया जा सकता था।
solar panel, charge controller, battery और load की ज़रूरत होगी, बस इतना ही सही था; wiring का कोई मतलब नहीं बन रहा था।
charge controller settings जैसी details में जाते ही यह पूरी तरह बिखर गया।
इसे असल में भरोसेमंद जानकारी के रूप में कभी इस्तेमाल नहीं किया जा सकता, लेकिन देखने में मज़ेदार और implementation प्रभावशाली है।
लेकिन नतीजा बस एक साधारण shed था जिस पर upcycled door लगा दिया गया था।
साइकिल कहाँ जाएगी यह दिखता ही नहीं था, और जो structure दिया गया था वह असल final form जैसा भी नहीं था।
बाकी AI demos की तरह यह ऊपर-ऊपर से भरोसेमंद लगता है, लेकिन system को मूल रूप से समझ ही नहीं है कि यह क्या कर रहा है।
Jeep Wrangler JK engine bay पर parts labels लगाने को कहा तो शुरुआत में एक ठीक-ठाक diagram मिला।
लेकिन brake fluid reservoir दूसरी तरफ था, और उसकी जगह coolant overflow tank का label लगा हुआ था, जबकि असली overflow tank बना हुआ था पर label नहीं था।
battery की जगह भी गलत थी, front grille के ऊपरी हिस्से को oil filter cap लिखा गया था, और oil filler की जगह भी गलत थी।
battery के आधे हिस्से को fuse box के रूप में label किया गया था, जबकि असली fuse box दूसरी तरफ सही से बना हुआ था लेकिन उस पर label नहीं था।
windshield washer fluid tank भी दो आपस में जुड़े हुए tanks की तरह दिखाया गया था।
जब मैंने गलत label किए गए coolant tank पर क्लिक किया, तो यह दूसरे page पर गया जहाँ इस बार position तो सही थी लेकिन tank का appearance बिल्कुल अलग था, और radiator cap भी tank के ऊपर रखा हुआ था।
असल में वह radiator के ऊपर होना चाहिए।
जो व्यक्ति इस चीज़ को जानता हो, उसे हर हिस्से में खामी दिख जाएगी, लेकिन जो नहीं जानता उसके लिए यह काफी भरोसेमंद लगेगा—यह बात बिल्कुल LLM जैसी है।
लेकिन ऊपर से देखने पर वह Mac Pro जैसा लगता था, जबकि सारे visual elements गलत थे।
text भी पहली नज़र में ही सही लगता था, और क्लिक करके अंदर जाने पर भी लगभग सब कुछ गलत था।
देखने में यह शानदार था, लेकिन AI को इस स्तर तक लगातार गलत होते हुए देखना 2023 के बाद पहली बार लगा।
"your mom"डाला, तो इसने मातृत्व का ऐतिहासिक सामाजिक timeline बनाया जिसके ऊपर placenta चढ़ा दिया गया था।इसे मैं मंज़ूर करता हूँ।
project शानदार है, लेकिन मैं हमेशा सोचता हूँ कि ऐसी चीज़ बनाकर इसे public service के रूप में चलाने के लिए resources और पैसा कहाँ से आता है।
शायद इनके पास खुद के GPUs हों, या GPT/Gemini API को enterprise-subsidized inference के रूप में इस्तेमाल कर रहे हों,
लेकिन मितव्ययी जीवन जीने वाले इंसान के नज़रिए से मुझे अब भी इसका अंदाज़ा नहीं लगता।
मुझे बिल्कुल उम्मीद नहीं थी कि यह इतना बड़ा हो जाएगा।
कोई games, art या woodworking पर पैसा खर्च करता है,
और कुछ लोग शराब या sports की जगह अपनी FAANG-level salary से बचे leisure budget को GenAI art project पर लगा देते हैं।
यह आपकी पसंद न हो, लेकिन बाहर से फिजूलखर्ची जैसा दिखने वाला खर्च लगभग हर किसी के budget में किसी न किसी रूप में होता है।
यहाँ इसे immigrant mentality कहते हैं; यह अपमानजनक अर्थ में नहीं, बल्कि उन लोगों की मितव्ययिता के अधिक करीब है जिन्होंने जीवन को फिर से शुरुआत से बनाया है।
ऊपर से यह बहुत धीमा भी था, इसलिए आखिरकार मैंने इंतज़ार ही नहीं किया।
मैं बनाने वाले को दोष नहीं दे रहा, बस यह सच में बहुत ज़्यादा धीमा था।
शुरुआत में मुझे लगा कि यह diagram नहीं, बल्कि वेबपेज खुद real time में generate कर रहा है।
मैं हमेशा उस भविष्य को दिलचस्प मानता रहा हूँ जहाँ user की ज़रूरत के मुताबिक applications तुरंत बन जाएँ,
इसलिए सोच रहा हूँ कि क्या किसी ने वास्तव में ऐसा कुछ बनाया है।
Mac Neo, 2 M4 quantum chips, solid state battery, graphene connector जैसी configuration आई।
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Sneed's Feed and Seed आया। उसके साथ Formerly Chuck's भी लिखा था।
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
अगर यह इसे सही कर देता, तो मैं सच में प्रभावित होता।
लगता है कि यह अपने training data के अंदर नहीं है।
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
idea दिलचस्प है, लेकिन अभी लगभग सब कुछ fail हो रहा है।
शायद यह HN hug of death की वजह से है।
Gemini generateContent request failedके साथ 429 RESOURCE_EXHAUSTED दिख रहा है,और यह कह रहा है कि current quota पार हो गया है, इसलिए pricing plan और billing details जाँचें।
साथ में detailed limit information का link भी दिख रहा है।
main page demo में Paris Travel Overview / Visiting Notre Dame दिखाया जा रहा था,
इसलिए मैंने कुछ ऐसे शहरों और जगहों से टेस्ट किया जहाँ मैं वास्तव में जा चुका हूँ।
points of interest को यह कई बार सही पकड़ लेता है, लेकिन उनके बीच के spatial relationships पूरी तरह बिगड़े हुए थे।
वे वास्तविक दुनिया के बिल्कुल करीब भी नहीं थे।
यह ऐसा product लगता है जिसे HN hug of death झेलना काफी महंगा पड़ सकता है।
tweets पर डाले गए sample videos सच में शानदार थे।
लेकिन अभी यह ठीक से काम नहीं कर रहा, इसलिए मैं सोच रहा हूँ कि traffic थोड़ा कम हो जाए तो कुछ दिन बाद फिर से इसे आज़माऊँ।