• रीयल-टाइम on-demand generation के जरिए हर पेज को इमेज के रूप में बनाया जाता है, और इमेज के अंदर किसी ऑब्जेक्ट पर क्लिक करने पर उसे और गहराई से एक्सप्लोर करने वाली नई स्क्रीन बनती है
  • स्क्रीन पर HTML या input fields नहीं होते, और टेक्स्ट तक को इमेज मॉडल पिक्सल के रूप में सीधे render करता है, इसलिए यह pixel-centric interface की तरह काम करता है
  • पेज की जानकारी agentic web search और इमेज मॉडल के world knowledge को साथ मिलाकर बनाई जाती है, और लिखा है कि इसकी accuracy लगभग ChatGPT, Gemini, Claude से अपेक्षित स्तर जैसी है
  • live video stream फीचर एक्सप्लोरेशन इमेज को animate करता है और transitions को अधिक smooth बनाता है, लेकिन फिलहाल यह predict करना कठिन है और resource consumption ज्यादा है, इसलिए इसे toggle के पीछे रखा गया है
  • अभी यह प्रयोगात्मक exploration·learning tool के अधिक करीब है, लेकिन जैसे-जैसे इमेज·वीडियो मॉडल की accuracy और performance बढ़ेगी, यह अधिक real data के साथ interaction, task execution, और data storage तक शामिल करने वाले environment में विस्तार कर सकता है

अवलोकन

  • यह एक अनंत visual browser है जो रीयल-टाइम on-demand generation पर चलता है, और उपयोगकर्ता जिस भी पेज पर पहुँचता है, उसे इमेज के रूप में बनाता है
  • स्क्रीन पर HTML, code, specific links या input fields नहीं होते, और इमेज के भीतर किसी ऑब्जेक्ट पर क्लिक करने पर उस ऑब्जेक्ट को और गहराई से एक्सप्लोर करने वाली नई इमेज बनती है
  • यह वेब को documents और UI elements के संग्रह के रूप में नहीं, बल्कि स्क्रीन पर उत्पन्न होने वाले pixel-centric interface के रूप में फिर से रचता है

काम करने का तरीका और विस्तार की दिशा

  • स्क्रीन का सारा टेक्स्ट भी इमेज मॉडल पिक्सल के रूप में सीधे render करता है, और इमेज के ऊपर अलग से टेक्स्ट overlay नहीं चढ़ाता
    • इसके परिणामस्वरूप कभी-कभी टेक्स्ट अधूरा या गलत जगह पर दिखाई दे सकता है, और लिखा है कि मॉडल बेहतर होने पर यह सुधर सकता है
  • इमेज के भीतर की जानकारी agentic web search और इमेज मॉडल के अपने world knowledge को मिलाकर बनाई जाती है
    • कभी-कभी यह inaccurate हो सकती है, लेकिन इसे ऑनलाइन वास्तविक डेटा पर आम तौर पर आधारित एक उपयोगी शुरुआती बिंदु के रूप में पेश किया गया है
    • लिखा है कि factual accuracy लगभग उस स्तर जैसी है जिसकी अपेक्षा ChatGPT, Gemini, Claude इस्तेमाल करते समय की जा सकती है
  • टेक्स्ट और रंगीन rectangles पर आधारित स्क्रीन की जगह, इसका लक्ष्य समृद्ध visual expression के जरिए जानकारी देने वाला computing experience बनाना है
  • इसका मानना है कि केवल fixed code और rules से जटिल और सूक्ष्म विचारों को व्यक्त करना कठिन है, इसलिए संदर्भ के अनुसार एक शब्द, illustration, realistic rendering जैसे सबसे प्रभावी अभिव्यक्ति तरीकों को चुनने की दिशा पर जोर दिया गया है
  • live video stream एक प्रयोगात्मक फीचर है जो static images को अधिक सतत video stream में बदलता है, हर exploration image को animate करता है और उनके बीच transitions को ज्यादा smooth बनाता है
    • फिलहाल इसका व्यवहार कुछ हद तक unpredictable है और resource consumption भी अधिक है, इसलिए इसे on/off toggle के पीछे रखा गया है
    • लिखा है कि अभी यह एक highly optimized custom video generation model और दो image generation systems को साथ में इस्तेमाल करता है, और आगे चलकर इन्हें एक single system में integrate करने की योजना है
  • फिलहाल इसे प्रयोगात्मक exploration·learning tool के रूप में डिजाइन किया गया है, लेकिन जैसे-जैसे इमेज·वीडियो मॉडल की accuracy और performance बढ़ेगी, यह अधिक real data शामिल करने, interaction करने, सीधे tasks execute करने और अपना data store करने वाले पेजों तक विस्तार कर सकता है
    • उदाहरण के तौर on, अगली यात्रा की रिसर्च करके किसी दूसरी जगह बुकिंग करने के स्तर से बदलकर Flipbook के भीतर पूरी प्रक्रिया पूरी करने के स्तर तक जा सकता है
    • लिखा है कि जो काम अभी अलग ऐप्स और वेबसाइट्स मांगते हैं, वे भविष्य में Flipbook जैसे दिखने और काम करने वाले environment के भीतर अधिक किए जा सकते हैं
  • embedded video को support न करने वाले browsers में यह नहीं चलेगा
  • डेमो पहले से तैयार किए गए वीडियो का उपयोग करता है और speed के लिए edit किया गया है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.