2 पॉइंट द्वारा GN⁺ 2024-12-12 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Gemini 1.0 ने टेक्स्ट, वीडियो, इमेज, ऑडियो और कोड सहित विभिन्न प्रकार की जानकारी को प्रोसेस कर सकने वाले मल्टीमॉडल मॉडल के रूप में बड़ा बदलाव लाया था
  • Gemini 2.0 इस विज़न को आगे बढ़ाते हुए ऐसे एजेंटिक मॉडल में विकसित हुआ है जो दुनिया को समझ सकता है, कई चरणों की योजना बना सकता है और कार्य कर सकता है
  • Gemini 2.0 को Google Search जैसे प्रमुख उत्पादों में इंटीग्रेट किया जा रहा है, जिससे अधिक जटिल विषयों और मल्टी-स्टेप सवालों को संभालने की क्षमता मिलेगी

Gemini 2.0 Flash की मुख्य विशेषताएँ

  • 1.5 Flash की सफलता के आधार पर और बेहतर परफ़ॉर्मेंस तथा तेज़ रिस्पॉन्स टाइम प्रदान करता है
  • 1.5 Pro की तुलना में 2 गुना तेज़ और प्रमुख बेंचमार्क्स पर बेहतर प्रदर्शन
  • इमेज, वीडियो और ऑडियो जैसे मल्टीमॉडल इनपुट के साथ-साथ टेक्स्ट के साथ मिश्रित इमेज जनरेशन और बहुभाषी स्पीच सिंथेसिस को भी सपोर्ट करता है
  • Google Search, कोड एक्ज़ीक्यूशन और कस्टम फ़ंक्शंस जैसे टूल्स को नेटिव रूप से कॉल कर सकता है
  • पहले डेवलपर्स और भरोसेमंद टेस्टर्स के लिए उपलब्ध कराया जा रहा है, और अगले साल की शुरुआत में इसे व्यापक रूप से जारी किया जाएगा

शोध परियोजनाओं का परिचय

  • Project Astra : उन्नत मेमोरी क्षमताओं वाला एक सामान्य-उद्देश्य AI असिस्टेंट
    • बहुभाषी बातचीत, Google Search/Lens/Maps का उपयोग, लगभग 10 मिनट की सेशन मेमोरी जैसी क्षमताओं में सुधार
    • Android डिवाइसेज़ के माध्यम से भरोसेमंद टेस्टर्स से फ़ीडबैक इकट्ठा करते हुए विकास जारी है
  • Project Mariner : ब्राउज़र के साथ इंटरैक्ट करके जटिल कार्यों में मदद कर सकने वाला एक शोध प्रोटोटाइप
    • WebVoyager बेंचमार्क में 83.5% का उच्च प्रदर्शन हासिल
    • उपयोगकर्ता द्वारा अंतिम कार्य स्वीकृत करने से पहले पुष्टि माँगने वाले सुरक्षा उपाय अंतर्निहित हैं
  • Jules : GitHub वर्कफ़्लो में इंटीग्रेट किया गया AI-आधारित कोडिंग एजेंट
    • डेवलपर्स को इश्यू हल करने और योजनाओं को लागू करने की प्रक्रिया में सहायता करता है

AI एजेंट्स के अनुप्रयोग क्षेत्र

  • गेम डेवलपर Supercell के साथ मिलकर गेम के भीतर AI एजेंट्स के उपयोग की संभावनाएँ तलाश रहा है
  • रोबोटिक्स क्षेत्र में Gemini 2.0 की स्पैशियल रीजनिंग क्षमताओं के उपयोग पर प्रयोग चल रहे हैं

सुरक्षा और ज़िम्मेदार विकास

  • नई तकनीक के विकास में चरणबद्ध और खोजपरक दृष्टिकोण अपनाया गया है
  • AI-सहायित रेड टीम अप्रोच के माध्यम से जोखिम पहचान और उनके निवारण के उपाय स्वतः तैयार किए जाते हैं
  • Project Mariner में दुर्भावनापूर्ण prompt injection प्रयासों से उपयोगकर्ताओं की रक्षा करने वाली सुविधाएँ लागू की गई हैं
  • उपयोगकर्ता गोपनीयता की सुरक्षा के लिए नियंत्रण और सेशन डिलीट करने की सुविधा प्रदान की जाती है

आगे की योजना

  • Gemini ऐप और अन्य Google उत्पादों में Gemini 2.0 की क्षमताओं का विस्तार किया जाएगा
  • AGI की दिशा में प्रगति करते समय सुरक्षा और ज़िम्मेदारी को सर्वोच्च प्राथमिकता दी जाएगी

1 टिप्पणियां

 
GN⁺ 2024-12-12
Hacker News राय
  • नया llm-gemini प्लगइन Gemini 2.0 Flash मॉडल को support करता है। टर्मिनल में इस्तेमाल करने का तरीका साझा किया गया

    • Gemini मॉडल में Python code लिखने और चलाने की क्षमता है
    • नेटवर्क कॉल संभव नहीं हैं, लेकिन कई तरह के approaches आज़माए गए
    • visual explanation में बेहतरीन performance दिखाता है
  • बड़ी कंपनियां दिशा बदलने में धीमी होती हैं, लेकिन एक बार दिशा तय कर लें तो वे वह हासिल कर सकती हैं जो छोटी कंपनियां नहीं कर सकतीं

    • Google के पास इस क्षेत्र में बहुत प्रतिभा है और अच्छे नतीजे मिल रहे हैं
    • LLM मॉडल की productization और marketing क्षमता अभी भी अनिश्चित है, लेकिन performance शानदार है
  • ज़्यादातर benchmarks में Gemini 1.5 Pro से बेहतर है

    • Google DeepMind LLM युग के साथ खुद को ढाल रहा है
    • TPU के ज़रिए hardware पर सीधा नियंत्रण रखता है
  • नया SDK घोषित किया गया है। यह modern best practices का पालन करता हुआ दिखता है

    • OpenAI-compatible endpoint दिया जाता रहा है, लेकिन long-term support को लेकर अनिश्चितता थी
    • Kubernetes cluster और GCP bucket configuration की सिफारिश की जाती है
  • Google की नई release तुरंत उपलब्ध होने से खुशी है

    • Gemini Flash 2.0, Advent of Code समस्याओं में Gemini Pro 1.5 से बेहतर है
    • Flash 2.0 compile errors को ठीक करता है
  • "agentic" शब्द अटपटा लगता है

    • "versatile", "multifaceted", "autonomous" जैसे शब्द ज़्यादा उपयुक्त हैं
  • Gemini 2 मॉडल audio और image generation features को support करता है

    • image generation जनवरी में सामान्य रूप से उपलब्ध होने की उम्मीद है
    • computer vision tasks, LLM के ज़रिए संभव हो जाएंगे
  • Gemini 2, chatbot arena में 4o से आगे है

  • लगता है "agentic" शब्द उपयुक्त नहीं है

    • यह ज़्यादातर system prompts और tools से बनी pipeline है
  • iPhone के Safari browser में Google AI Studio के ज़रिए Gemini 2.0 Flash को access किया

    • कैमरे से दिख रही चीज़ों को सटीक रूप से पहचानता है
    • अंग्रेज़ी और जापानी text पढ़ सकता है
    • piano notes को visually पहचान लिया, लेकिन सिर्फ़ आवाज़ से नहीं कर पाया