Gemini 2.0 लॉन्च
(developers.googleblog.com)Gemini 2.0: डेवलपर्स के लिए अगली पीढ़ी का AI मॉडल
- Google द्वारा विकसित एक अत्याधुनिक AI मॉडल, जो डेवलपर्स को AI का भविष्य बनाने में सहायता करता है।
- Gemini 1.0 के लॉन्च के बाद से, लाखों डेवलपर्स Google AI Studio और Vertex AI के माध्यम से 109 भाषाओं में Gemini का उपयोग कर रहे हैं।
- Gemini 2.0 Flash Experimental के जरिए अधिक इमर्सिव और इंटरैक्टिव एप्लिकेशन डेवलप करना संभव है, और यह ऐसे नए coding agents भी प्रदान करता है जो डेवलपर्स की ओर से काम कर सकते हैं।
Gemini 2.0 Flash
- यह मॉडल Gemini 1.5 Flash की सफलता पर आधारित है, और 1.5 Pro की तुलना में 2 गुना तेज़ होने के साथ शक्तिशाली प्रदर्शन देता है।
- यह नई multimodal output capabilities और native tool use capabilities प्रदान करता है।
- यह real-time audio और video streaming के जरिए dynamic applications बनाने के लिए Multimodal Live API पेश करता है।
- डेवलपर्स Google AI Studio और Vertex AI में experimental चरण के Gemini 2.0 Flash को test और explore कर सकते हैं, और इसका सामान्य रिलीज़ अगले साल की शुरुआत में होने वाला है।
मुख्य विशेषताएँ:
-
बेहतर प्रदर्शन:
- यह Gemini 1.5 Pro से अधिक शक्तिशाली है, जबकि Flash मॉडल की speed और efficiency बनाए रखता है।
- multimodal, text, code, video, spatial understanding और reasoning performance में सुधार किया गया है।
- खास तौर पर, spatial understanding में सुधार के कारण जटिल इमेजों में छोटे objects के bounding box बनाने की सटीकता बेहतर हुई है।
-
नई output methods:
- एक ही API call के जरिए text, audio और images सहित एकीकृत response जनरेट किया जा सकता है।
- गलत सूचना और गलत attribution की समस्याओं को कम करने के लिए सभी image और audio outputs पर SynthID invisible watermark लागू किया जाता है।
- बहुभाषी native audio output: 8 उच्च-गुणवत्ता वाली आवाज़ों, अलग-अलग भाषाओं और उच्चारणों में से चुनकर text-to-speech audio output को बारीकी से नियंत्रित किया जा सकता है।
- Native image output: यह images जनरेट कर सकता है और conversational multi-turn editing को support करता है, जिससे पिछली outputs के आधार पर images को बेहतर बनाया जा सकता है। यह text और images को मिलाकर recipe जैसे multimodal content बनाने में उपयोगी है।
-
Native tool use:
- इसमें tool use की क्षमता है, जो agent experiences बनाने के लिए एक बुनियादी सुविधा है।
- यह Google Search और code execution जैसे tools को native रूप से call कर सकता है, और custom function calling के जरिए third-party functionality भी उपयोग कर सकता है।
- Google Search को tool के रूप में उपयोग करने पर अधिक fact-based और व्यापक जवाब दिए जा सकते हैं, और publishers के लिए traffic भी बढ़ता है।
- यह कई searches को parallel में चलाकर कई sources से एक साथ संबंधित जानकारी ढूंढ सकता है, जिससे सटीकता बढ़ती है।
-
Multimodal Live API:
- camera या screen से audio और video streaming input का उपयोग करके real-time multimodal applications बनाए जा सकते हैं।
- यह interruption और voice activity detection जैसे natural conversation patterns को support करता है।
- एक ही API call में जटिल use cases को हल करने के लिए कई tools को integrate किया जा सकता है।
AI code support में प्रगति
- AI code support साधारण code lookup से तेजी से आगे बढ़कर developer workflow में embedded AI-powered assistants में बदल रहा है।
- Gemini 2.0 का उपयोग करने वाले coding agents डेवलपर की ओर से कार्य कर सकते हैं।
- code execution tool से लैस 2.0 Flash ने वास्तविक software engineering tasks में agent performance को मापने वाले SWE-bench Verified पर 51.8% की सफलता दर हासिल की है।
Jules: AI-आधारित code agent
- यह Python और Javascript coding tasks को संभालने वाला एक experimental AI-powered code agent है।
- यह GitHub workflow के साथ integrated है, asynchronous रूप से काम करता है, और bug fixes तथा अन्य समय लेने वाले कामों को संभालता है।
- Jules समस्या समाधान के लिए एक व्यापक multi-step plan बनाता है, कई files को कुशलतापूर्वक संशोधित करता है, और GitHub पर सीधे changes लागू करने के लिए pull request तैयार करता है।
Jules के फायदे:
- उत्पादकता में वृद्धि: asynchronous coding के जरिए issues और coding tasks Jules को सौंपकर efficiency बढ़ाई जा सकती है।
- प्रगति ट्रैकिंग: real-time updates के माध्यम से जानकारी मिलती रहती है और उन tasks को प्राथमिकता दी जा सकती है जिन पर ध्यान देने की जरूरत है।
- डेवलपर का नियंत्रण: Jules द्वारा बनाए गए plan की समीक्षा की जा सकती है, feedback दिया जा सकता है या adjustments मांगे जा सकते हैं। Jules द्वारा लिखे गए code की समीक्षा करके उसे project में merge किया जा सकता है।
- यह फिलहाल trusted testers के एक समूह को उपलब्ध है, और 2025 की शुरुआत में अन्य डेवलपर्स के लिए भी उपलब्ध कराया जाएगा।
Colab का data science agent
- labs.google/code पर एक experimental data science agent उपलब्ध है, जिसमें dataset upload करके कुछ ही मिनटों में insights प्राप्त किए जा सकते हैं।
- यही agent capabilities Colab में भी integrate की जा रही हैं, जहाँ Gemini 2.0 का उपयोग होगा।
- natural language instructions के जरिए analysis goals बताने पर यह अपने-आप notebook जनरेट कर सकता है, जिससे research और data analysis तेज़ हो जाता है।
- trusted tester program के माध्यम से early access दिया जा रहा है, और 2025 की पहली छमाही में इसे Colab users के लिए अधिक व्यापक रूप से जारी किया जाएगा।
डेवलपर समर्थन
- Gemini 2.0 models डेवलपर्स को तेज़ी से और आसानी से शक्तिशाली AI apps बनाने में मदद करते हैं।
- Gemini 2.0 को Android Studio, Chrome DevTools और Firebase जैसे platforms में integrate किया जाएगा।
- Visual Studio Code, IntelliJ, PyCharm जैसे लोकप्रिय IDEs में बेहतर coding support features के लिए Gemini Code Assist में Gemini 2.0 Flash उपलब्ध होगा।
1 टिप्पणियां
लगता है कि यह अभी Google AI Studio और Vertex AI में इस्तेमाल के लिए उपलब्ध है।
मॉडल की परफॉर्मेंस और live E2E voice की latency काफ़ी प्रभावशाली है।