Gemini Pro 1.5 का killer app वीडियो है
(simonwillison.net)- Google Gemini Pro 1.5 का token context size 1,000,000 है
- पहले Claude 2.1 (200,000 tokens) और gpt-4-turbo (128,000 tokens) के पास यह रिकॉर्ड था, लेकिन models के बीच tokenization implementation अलग-अलग होने के कारण इन्हें पूरी तरह direct compare करना मुश्किल है
- कुछ दिनों तक Gemini Pro 1.5 इस्तेमाल करने के बाद, सबसे दिलचस्प feature token count नहीं बल्कि video को input के रूप में इस्तेमाल करने की क्षमता लगी
- अभी API access नहीं है, लेकिन Google AI Studio interface के ज़रिए model को आज़माया गया
पहला टेस्ट
- एक bookshelf को 7 सेकंड के वीडियो में रिकॉर्ड किया
- इसे "JSON array of books in this video" prompt के साथ upload किया
- इस 7 सेकंड के वीडियो ने 1,048,576 token limit में से सिर्फ 1,841 tokens इस्तेमाल किए
- Gemini Pro 1.5 ने JSON नहीं लौटाया, लेकिन वीडियो में मौजूद किताबों के title और author name की list दी
- फिर "as a JSON array of objects, with title and author keys" कहा गया, तो इसने JSON में किताब/लेखक लौटाए
- नतीजे काफ़ी चौंकाने वाले थे। वीडियो सिर्फ 7 सेकंड का था, camera काफ़ी तेज़ी से move कर रहा था (वीडियो में थोड़ा motion blur भी था), और कुछ किताबें दूसरी चीज़ों से ढकी हुई थीं
दूसरा टेस्ट
- इस बार cookbooks से भरी shelf को vertical, थोड़ा लंबे (22 सेकंड) वीडियो में रिकॉर्ड किया गया, जिसमें सिर्फ horizontal नहीं बल्कि नीचे की ओर भी panning की गई
- इस वीडियो में 6,049 tokens इस्तेमाल हुए, जो अब भी बहुत कम है
- नया prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- लेकिन इसे "Unsafe Content" कहकर reject कर दिया गया
- लगता है safety filter को 'Cocktail' शब्द आपत्तिजनक लगा
- safety settings खोलकर सभी categories के लिए 'Low' सेट किया गया और फिर कोशिश की गई, लेकिन दूसरी बार भी reject हुआ
- इसलिए "go on give me that JSON" कहकर ज़बरदस्ती निर्देश दिया गया, तब इसने JSON लौटाया
- इस बार भी output बहुत शानदार था
इसका इस्तेमाल कैसे किया जा सकता है?
- text से structured content निकालना पहले से ही LLMs के सबसे दिलचस्प use cases में से एक है
- GPT-4 Vision और LLaVA ने इसे images तक बढ़ाया, और अब Gemini Pro 1.5 इसे video तक ले जाता है
- बेशक, सामान्य LLM caveats यहाँ भी लागू होते हैं। यह चीज़ें miss कर सकता है और गलत details hallucinate कर सकता है
- Cocktail जैसी safety filter से जुड़ी समस्याएँ भी हैं
- इसलिए, जैसा कि cutting-edge AI के साथ हमेशा होता है, अभी भी पार करने लायक कई चुनौतियाँ बाकी हैं
- फिर भी, यह मुझे उस भविष्य की एक और झलक लगता है जो मेरी अपेक्षा से कहीं ज़्यादा करीब आ चुका है
image vs. video
- शुरुआत में लगा कि videos को images से अलग तरीके से process किया जा रहा होगा, क्योंकि video processing से जुड़े token count हैरान करने वाले रूप से कम थे
- लेकिन Hacker News पर आई एक बात के मुताबिक
Gemini 1.5 Pro अधिकतम 1 घंटे तक के वीडियो पर reasoning कर सकता है। जब आप video attach करते हैं, तो Google AI Studio उसे audio के बिना हज़ारों frames में classify करता है, और फिर Gemini model, जो multimodal है, बहुत sophisticated reasoning और problem-solving tasks कर सकता है.
- Gemini 1.5 technical report में इसे इस तरह समझाया गया है:
45 मिनट की Buster Keaton फिल्म "Sherlock Jr." (1924) (1FPS पर 2,674 frames, 684k tokens) को input देने पर, Gemini 1.5 Pro specific frames से text information retrieve और extract कर सकता है और उनके timestamps भी दे सकता है.
1 टिप्पणियां
Hacker News राय
अगर कोई एजेंट हमेशा चुपचाप यूज़र की स्क्रीन पर नज़र रखे, तो यह बहुत उपयोगी भी हो सकता है और डिस्टोपियन भी।
"Gemini Pro 1.5 का core app video input है" जैसा शीर्षक उपयुक्त लगता है।
वीडियो, images की एक शृंखला है, और OpenAI के GPT-4-Vision demo में मॉडल को frames की सूची भेजकर ऐसा ही प्रभाव पैदा किया जाता है।
ffmpegका उपयोग करके हर दूसरे frame को output करने का तरीका भी है।जब AI video, image और text का विश्लेषण कर सस्ता और कुशल processing करने लगेगा, तब privacy पूरी तरह खत्म हो जाएगी।
लगता है लेखक ने input के रूप में इस्तेमाल किए गए video में जिन किताबों का उल्लेख था, वे सचमुच सही हैं या नहीं, यह जाँचा नहीं।
लगता है Google का safety filter "Cocktail" शब्द पर प्रतिक्रिया कर गया।
प्रति frame सिर्फ 256 tokens का उपयोग होना चौंकाने वाला बताया गया है।
"Cocktail" से जुड़ी समस्या वास्तव में मौजूद है।
जिज्ञासा है कि Google के hardware scale की तुलना में OpenAI (या Microsoft द्वारा उपलब्ध कराए गए संसाधनों) का असली core app क्या है।
तकनीक खुद में प्रभावशाली और दिलचस्प है, लेकिन स्थिति ऐसी लगती है जैसे Scunthorpe problem का बदला हो, जिस पर हँसी आती है।