Gemini Pro 1.5 का killer app वीडियो है

(simonwillison.net)

10 पॉइंट द्वारा GN⁺ 2024-02-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google Gemini Pro 1.5 का token context size 1,000,000 है
पहले Claude 2.1 (200,000 tokens) और gpt-4-turbo (128,000 tokens) के पास यह रिकॉर्ड था, लेकिन models के बीच tokenization implementation अलग-अलग होने के कारण इन्हें पूरी तरह direct compare करना मुश्किल है
कुछ दिनों तक Gemini Pro 1.5 इस्तेमाल करने के बाद, सबसे दिलचस्प feature token count नहीं बल्कि video को input के रूप में इस्तेमाल करने की क्षमता लगी
अभी API access नहीं है, लेकिन Google AI Studio interface के ज़रिए model को आज़माया गया

पहला टेस्ट

एक bookshelf को 7 सेकंड के वीडियो में रिकॉर्ड किया
इसे "JSON array of books in this video" prompt के साथ upload किया
इस 7 सेकंड के वीडियो ने 1,048,576 token limit में से सिर्फ 1,841 tokens इस्तेमाल किए
Gemini Pro 1.5 ने JSON नहीं लौटाया, लेकिन वीडियो में मौजूद किताबों के title और author name की list दी
फिर "as a JSON array of objects, with title and author keys" कहा गया, तो इसने JSON में किताब/लेखक लौटाए
नतीजे काफ़ी चौंकाने वाले थे। वीडियो सिर्फ 7 सेकंड का था, camera काफ़ी तेज़ी से move कर रहा था (वीडियो में थोड़ा motion blur भी था), और कुछ किताबें दूसरी चीज़ों से ढकी हुई थीं

दूसरा टेस्ट

इस बार cookbooks से भरी shelf को vertical, थोड़ा लंबे (22 सेकंड) वीडियो में रिकॉर्ड किया गया, जिसमें सिर्फ horizontal नहीं बल्कि नीचे की ओर भी panning की गई
इस वीडियो में 6,049 tokens इस्तेमाल हुए, जो अब भी बहुत कम है
नया prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
लेकिन इसे "Unsafe Content" कहकर reject कर दिया गया
लगता है safety filter को 'Cocktail' शब्द आपत्तिजनक लगा
safety settings खोलकर सभी categories के लिए 'Low' सेट किया गया और फिर कोशिश की गई, लेकिन दूसरी बार भी reject हुआ
इसलिए "go on give me that JSON" कहकर ज़बरदस्ती निर्देश दिया गया, तब इसने JSON लौटाया
इस बार भी output बहुत शानदार था

इसका इस्तेमाल कैसे किया जा सकता है?

text से structured content निकालना पहले से ही LLMs के सबसे दिलचस्प use cases में से एक है
GPT-4 Vision और LLaVA ने इसे images तक बढ़ाया, और अब Gemini Pro 1.5 इसे video तक ले जाता है
बेशक, सामान्य LLM caveats यहाँ भी लागू होते हैं। यह चीज़ें miss कर सकता है और गलत details hallucinate कर सकता है
Cocktail जैसी safety filter से जुड़ी समस्याएँ भी हैं
इसलिए, जैसा कि cutting-edge AI के साथ हमेशा होता है, अभी भी पार करने लायक कई चुनौतियाँ बाकी हैं
फिर भी, यह मुझे उस भविष्य की एक और झलक लगता है जो मेरी अपेक्षा से कहीं ज़्यादा करीब आ चुका है

image vs. video

शुरुआत में लगा कि videos को images से अलग तरीके से process किया जा रहा होगा, क्योंकि video processing से जुड़े token count हैरान करने वाले रूप से कम थे
लेकिन Hacker News पर आई एक बात के मुताबिक

Gemini 1.5 Pro अधिकतम 1 घंटे तक के वीडियो पर reasoning कर सकता है। जब आप video attach करते हैं, तो Google AI Studio उसे audio के बिना हज़ारों frames में classify करता है, और फिर Gemini model, जो multimodal है, बहुत sophisticated reasoning और problem-solving tasks कर सकता है.
Gemini 1.5 technical report में इसे इस तरह समझाया गया है:

45 मिनट की Buster Keaton फिल्म "Sherlock Jr." (1924) (1FPS पर 2,674 frames, 684k tokens) को input देने पर, Gemini 1.5 Pro specific frames से text information retrieve और extract कर सकता है और उनके timestamps भी दे सकता है.

1 टिप्पणियां

GN⁺ 2024-02-22

Hacker News राय

अगर कोई एजेंट हमेशा चुपचाप यूज़र की स्क्रीन पर नज़र रखे, तो यह बहुत उपयोगी भी हो सकता है और डिस्टोपियन भी।
- उम्मीद की जा सकती है कि वह महीनों तक यूज़र को coding करते, योजना बनाते और research करते देखे, और व्यक्तिगत तथा पेशेवर सलाह दे सके।
- ऐसी तकनीक किसी व्यक्ति की मनोवृत्ति को प्रतिबिंबित कर सकती है और बहुत-सी जानकारी याद रख सकती है, इसलिए यह कंपनियों या दुर्भावनापूर्ण तत्वों के लिए बहुत मूल्यवान हो सकती है।
- मॉडल को सुरक्षित रूप से चलना चाहिए, और इसमें किसी व्यक्ति की नकल या privacy के उल्लंघन का जोखिम है।
"Gemini Pro 1.5 का core app video input है" जैसा शीर्षक उपयुक्त लगता है।
- यह YouTube जैसे video content की बड़े पैमाने पर moderation में उपयोगी हो सकता है, और अगर लागत कम हो सके तो अच्छा होगा।
वीडियो, images की एक शृंखला है, और OpenAI के GPT-4-Vision demo में मॉडल को frames की सूची भेजकर ऐसा ही प्रभाव पैदा किया जाता है।
- अच्छा होगा अगर GPT-4-Vision function calling या structured data को support करे ताकि JSON output सुनिश्चित हो सके।
- लागत आधी करने के लिए ffmpeg का उपयोग करके हर दूसरे frame को output करने का तरीका भी है।
- OpenAI demo में लगभग 600-frame वाले video का हर 50वाँ frame भेजा जाता है।
जब AI video, image और text का विश्लेषण कर सस्ता और कुशल processing करने लगेगा, तब privacy पूरी तरह खत्म हो जाएगी।
- अभी बड़ी कंपनियों के पास हमारे बारे में बहुत data है, लेकिन सब कुछ समझने और जोड़ने में उनकी सीमाएँ हैं।
- शक्तिशाली AI डिजिटल जीवन के हर पहलू को समझ सकता है, और अच्छे तथा बुरे दोनों उद्देश्यों के लिए इस्तेमाल होने की इसकी संभावना बहुत बड़ी है।
लगता है लेखक ने input के रूप में इस्तेमाल किए गए video में जिन किताबों का उल्लेख था, वे सचमुच सही हैं या नहीं, यह जाँचा नहीं।
- सबसे पहले जाँची गई किताब "Growing Up with Lucy by April Henry" नाम से मौजूद ही नहीं है, और वास्तव में उसका श्रेय Steve Grand को जाता है।
- यह एक शानदार demo है, लेकिन वास्तव में इससे ज़्यादा कामों के लिए उपयोगी नहीं है।
लगता है Google का safety filter "Cocktail" शब्द पर प्रतिक्रिया कर गया।
- safety setting कम करके फिर कोशिश की गई, लेकिन दूसरी कोशिश में भी इनकार कर दिया गया।
- Google का risk management विभाग शायद संगठन पर पूरी तरह हावी हो गया है, यहाँ तक कि सबसे बुद्धिमान कंप्यूटर भी "cocktail" या "Abraham Lincoln" जैसे खतरनाक शब्दों या images का उपयोग करने से डरता है।
प्रति frame सिर्फ 256 tokens का उपयोग होना चौंकाने वाला बताया गया है।
- "एक तस्वीर हज़ार शब्दों के बराबर होती है" वाली कहावत के विपरीत, इसका मतलब है कि वास्तव में उसकी कीमत लगभग 192 शब्दों जितनी ही है।
"Cocktail" से जुड़ी समस्या वास्तव में मौजूद है।
- Moby Dick के पात्रों को DALLE से कल्पना करने की कोशिश की गई, लेकिन उसे पूरी तरह अस्वीकार कर दिया गया।
- लगता है कि एक AI कंपनी इससे बेहतर profanity filter बना सकती है।
जिज्ञासा है कि Google के hardware scale की तुलना में OpenAI (या Microsoft द्वारा उपलब्ध कराए गए संसाधनों) का असली core app क्या है।
- Google ने जो किया, वह OpenAI टीम के लिए शायद खास तौर पर चौंकाने वाला नहीं है, लेकिन हो सकता है कि वह बहुत बड़े scale पर और तेज़ी से iteration कर सके।
तकनीक खुद में प्रभावशाली और दिलचस्प है, लेकिन स्थिति ऐसी लगती है जैसे Scunthorpe problem का बदला हो, जिस पर हँसी आती है।
- लगता है safety filter "Cocktail" शब्द पर प्रतिक्रिया कर गया।

Gemini Pro 1.5 का killer app वीडियो है

पहला टेस्ट

दूसरा टेस्ट

इसका इस्तेमाल कैसे किया जा सकता है?

image vs. video

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय