चैटबॉट क्रांति में पीछे छूटने के बाद Google के संकट की शुरुआत
- दिसंबर 2022 में, Sissie Hsiao को Google के ChatGPT प्रतिस्पर्धी उत्पाद को 100 दिनों के भीतर विकसित करने का मिशन दिया गया
- Hsiao 16 साल से अधिक समय से काम कर रही एक अनुभवी नेता थीं और हज़ारों लोगों का नेतृत्व कर चुकी थीं, लेकिन इस तरह की गंभीर संकट स्थिति का यह उनका पहला अनुभव था
- OpenAI द्वारा ChatGPT जारी किए जाने के बाद, तथ्यगत गलतियों और गणितीय त्रुटियों के बावजूद, उपयोगकर्ताओं की संख्या तेज़ी से 10 लाख से अधिक हो गई
- कुछ लोगों ने ChatGPT को Google Search के विकल्प के रूप में देखना शुरू कर दिया, और यह Google के सबसे बड़े राजस्व स्रोत के लिए खतरा था
- Google के पास अपना language model LaMDA था, लेकिन public access सीमित था, और उसके डेमो भी “कुत्ते की कहानी” तक सीमित थे
- Wall Street (वित्तीय बाज़ार) चिंतित था; अतीत में CEO Sundar Pichai ने “AI-first era” की घोषणा करते हुए कहा था कि intelligent assistants डिवाइसों की जगह ले लेंगे, लेकिन वास्तविकता उम्मीदों पर खरी नहीं उतरी
- Transformer architecture भी Google के 8 शोधकर्ताओं ने बनाया था, लेकिन उनमें से कई कंपनी छोड़ गए या बिना खास परिणाम के चले गए
- Hsiao के अधीन Google Assistant का इस्तेमाल सिर्फ टाइमर सेट करने या संगीत चलाने जैसे कामों के लिए होता था
- Gen Z के लिए कुकिंग सलाह और इतिहास क्विज़ देने वाला एक अधूरा चैटबॉट ही उपलब्ध था
- 2022 के अंत तक Alphabet का शेयर पिछले साल की तुलना में 39% गिर चुका था, और AI leader के रूप में Google की स्थिति डगमगा रही थी
Google की AI संकट-प्रतिक्रिया और रणनीतिक बदलाव
- 2023 की शुरुआत में, Google के बोर्ड ने AI से जुड़े मामलों पर real-time reporting की मांग की
- सह-संस्थापक और बड़े शेयरधारक Sergey Brin ने भी सीधे रणनीतिक समीक्षा में हिस्सा लिया
- कर्मचारियों तक यह संदेश पहुँचाया गया: “startup की तरह काम करो”
- पहले कंपनी की संस्कृति ऐसी थी कि बहुत से कर्मचारी किसी product का विरोध तो कर सकते थे, लेकिन approval authority उनके पास नहीं होती थी
- अब कंपनी ज़्यादा जोखिम लेकर तेज़ी से execute करने वाली संस्कृति की ओर बढ़ रही थी
- Sissie Hsiao ने 100-दिवसीय प्रोजेक्ट शुरू करते समय टीम के सामने एक अनोखा सिद्धांत रखा:
“गति से ऊपर गुणवत्ता, लेकिन तेज़ी के साथ (Quality over speed, but fast)”
- एक अन्य वरिष्ठ अधिकारी James Manyika ने AI रणनीति को बुनियादी तौर पर बदलने में महत्वपूर्ण भूमिका निभाई
- Oxford से robotics में PhD और पूर्व McKinsey सलाहकार Manyika 2022 में Google में शामिल हुए थे
- उन्होंने Pichai को DeepMind और Google Brain के एकीकरण का प्रस्ताव दिया
- DeepMind (लंदन, Demis Hassabis के नेतृत्व में) और Google Brain (Mountain View, Jeff Dean के अधीन) अलग-अलग काम कर रहे थे और resources का अक्षम इस्तेमाल कर रहे थे
- OpenAI की रिलीज़ के बाद, तीन नेताओं ने बोर्ड के सामने एकीकरण की योजना रखी
- Hassabis ने प्रोजेक्ट का नाम ‘Titan’ सुझाया, लेकिन उसे खारिज कर दिया गया और Jeff Dean के सुझाए ‘Gemini’ पर अंतिम मुहर लगी
- Manyika ने बाद में कहा कि Google ने साहसी और ज़िम्मेदार फैसले लिए हैं
- लेकिन उन्होंने यह भी स्वीकार किया कि “हमने हमेशा सही फैसले नहीं लिए”
- स्थिति की गंभीरता के बीच कर्मचारियों में यह चिंता तक फैल गई कि “Google कहीं Yahoo जैसा न बन जाए”
- Hsiao ने उस समय को “मैराथन को पूरी रफ्तार से दौड़ने जैसा एहसास” बताया
- लेकिन अब, दो साल बाद, Alphabet का शेयर ऐतिहासिक उच्च स्तर पर पहुँच चुका है
- निवेशक Google की AI प्रतिस्पर्धात्मक क्षमता की वापसी को लेकर आशावादी नज़र आ रहे हैं
- WIRED ने इस दौर को Google के इतिहास का सबसे अराजक और सांस्कृतिक रूप से सबसे बड़ा बदलाव वाला समय बताया
- इंजीनियर, मार्केटिंग, लीगल और safety experts सहित 50 से अधिक वर्तमान और पूर्व कर्मचारियों से बातचीत की गई
- इस लेख में पहली बार वरिष्ठ अधिकारियों की गवाही के ज़रिए Google के बदलाव को विस्तार से दिखाया गया है
Bard का विकास: कंपनी-व्यापी प्राथमिकता और संसाधनों का केंद्रीकरण
- ChatGPT का जवाब देने के लिए Google ने एक नया चैटबॉट प्रोजेक्ट शुरू किया, जिसका code name Bard था
- Sissie Hsiao ने करीब 100 प्रतिभाशाली लोगों को Google के अलग-अलग हिस्सों से सीधे चुना
- मैनेजर विरोध नहीं कर सकते थे, और Bard प्रोजेक्ट सर्वोच्च प्राथमिकता था
- Hsiao ने तकनीकी क्षमता, भावनात्मक बुद्धिमत्ता और बड़े परिप्रेक्ष्य को समझने वाले लोगों का चयन किया
- ज़्यादातर लोगों को California के Mountain View में तैनात किया गया, और उन्होंने भूमिका की सीमाओं से परे जाकर लचीले ढंग से काम किया
- “Team Bard हर भूमिका निभाने वाली टीम है” इस सोच पर ज़ोर दिया गया
- जनवरी 2023 में, Google के इतिहास में पहली बार बड़े पैमाने पर layoffs की घोषणा हुई: लगभग 12,000 लोग, यानी कुल workforce का 7%
- कुछ कर्मचारी इस डर से जूझ रहे थे कि अगर वे देर रात तक काम या अतिरिक्त काम नहीं करेंगे तो उनकी नौकरी जा सकती है
- कई लोगों ने बच्चों को सुलाने का समय छोड़कर रात की मीटिंगों में हिस्सा लिया
- Bard, मौजूदा LaMDA पर आधारित था, लेकिन उसे knowledge updates और नए safety guardrails की ज़रूरत थी
- infrastructure टीम ने शीर्ष इंजीनियरों को पुनःतैनात कर server capacity और system tuning पर ध्यान केंद्रित किया
- data centers की बिजली खपत लगभग सीमा तक पहुँच गई, और उपकरणों के overheating का जोखिम पैदा हो गया
- इसके चलते बिजली की मांग को अधिक सुरक्षित ढंग से संभालने के लिए नए management tools भी तेज़ी से विकसित किए गए
- तनाव कम करने के लिए हास्य भी मौजूद था
- एक टीम सदस्य ने custom poker chips बनवाए, उन पर खास chip names उकेरे, और इंजीनियरों की डेस्क पर उन्हें रखते हुए मज़ाक में कहा, “लो, chip ले जाओ”
- शुरुआती कुछ हफ्तों में Bard ने अतिरिक्त computing resources मिलने के बावजूद पुरानी समस्याएँ दोहराईं
- ChatGPT की तरह Bard भी अक्सर hallucination और अनुचित या अप्रिय जवाब उत्पन्न करता था
- शुरुआती versions में गंभीर रूप से हास्यास्पद नस्ली stereotypes बार-बार दिखाई दिए
- भारतीय नाम डालने पर ज़्यादातर को “Bollywood actor” और चीनी पुरुष नामों को “computer scientist” बताया जाता था
- एक पूर्व कर्मचारी के अनुसार, Bard के जवाब “खतरनाक नहीं थे, लेकिन बस बेवकूफ़ाना थे”
- कुछ कर्मचारी Bard के अजीब जवाबों के screenshots साझा करके उनका मज़ाक उड़ाते थे
- उदाहरण: जब “Three 6 Mafia स्टाइल में समुद्र में कार बैटरी फेंकने पर एक rap” माँगा गया, तो इसने लोगों को बैटरी से बाँधकर समुद्र में डुबाने जैसी सामग्री भी बना दी
- Google के पास तय 100 दिनों के भीतर जितनी संभव हो उतनी गलतियाँ पकड़ने के अलावा कोई विकल्प नहीं था
- बच्चों के साथ दुर्व्यवहार वाली इमेज डिटेक्शन जैसे काम संभालने वाले बाहरी कॉन्ट्रैक्ट स्टाफ को भी Bard testing में लगाया गया
- Pichai ने जिस भी कर्मचारी के पास थोड़ा खाली समय था, उससे Bard test करने को कहा, और नतीजतन करीब 80,000 लोगों ने testing में हिस्सा लिया
- Hsiao और नेतृत्व टीम समझती थी कि Bard की गलतियों को पूरी तरह रोका नहीं जा सकता, इसलिए उन्होंने प्रोडक्ट को ही ‘Experiment’ के रूप में पेश किया
- यह रणनीति वैसी ही थी जैसे OpenAI ने ChatGPT को ‘research preview’ कहा था
- उपयोगकर्ताओं और बाहरी समीक्षकों को यह ज़ोर देकर बताया गया कि यह तैयार product नहीं है, ताकि brand damage का जोखिम कम किया जा सके
- Microsoft के Twitter chatbot Tay के नाज़ी समर्थक बयान वाले पुराने मामले के बाद, यह तरह की रणनीति उद्योग में जोखिम से बचने का एक व्यापक तरीका बन चुकी थी
Bard के लॉन्च की प्रक्रिया और घातक गलती
- पहले Google में AI प्रोडक्ट रिलीज़ से पहले 'Responsible Innovation Team' कई महीनों तक bias और defects की समीक्षा करती थी
- Bard के मामले में, शेड्यूल के दबाव के कारण रिव्यू प्रक्रिया को काफ़ी छोटा कर दिया गया
- Chief Legal Officer Kent Walker ने तेज़ रिलीज़ की वकालत की
- नए मॉडल और फीचर्स इतनी तेज़ी से सामने आ रहे थे कि रिव्यू टीम देर रात और वीकेंड में काम करने के बावजूद साथ नहीं चल पा रही थी
- Bard की रिलीज़ टालने का अनुरोध करने वाली चेतावनियाँ थीं, लेकिन उन्हें नज़रअंदाज़ कर दिया गया या निष्प्रभावी बना दिया गया
- इस पर Google ने WIRED से कहा कि “किसी भी टीम ने रिलीज़ के ख़िलाफ़ औपचारिक सिफ़ारिश नहीं की”
- कंपनी ने यह भी स्पष्ट किया कि कई टीमों ने टेस्टिंग में हिस्सा लिया था, और पूरा दायित्व किसी एक विशेष टीम पर नहीं था
- 100-दिन प्रोजेक्ट के लगभग 2/3 चरण पर, फ़रवरी 2023 में Google को जानकारी मिली कि ChatGPT को Bing search में इंटीग्रेट किया जाने वाला है
- search market share में Google अब भी बहुत आगे था, लेकिन generative AI फीचर्स की कमी एक दीर्घकालिक ख़तरा थी
- शेयर गिरावट से बचने के लिए, Microsoft की घोषणा से एक दिन पहले, 6 फ़रवरी को Pichai ने Bard के सीमित टेस्ट लॉन्च की अचानक घोषणा की
- मार्केटिंग वीडियो में Bard को Google के “जानकारी को व्यवस्थित करने” वाले मिशन को आगे बढ़ाने वाले AI सहायक के रूप में दिखाया गया
- वीडियो में सवाल था: “James Webb Space Telescope की नई खोजों में से 9 साल के बच्चे को क्या समझाया जा सकता है?”
- Bard का जवाब: “JWST ने सौरमंडल के बाहर के ग्रह की पहली तस्वीर ली”
- तुरंत बाद Reuters ने factual error की रिपोर्ट की: वह तस्वीर space telescope ने नहीं, बल्कि ground-based telescope (VLT) ने ली थी
- Alphabet का शेयर 9% गिरा, और market cap से लगभग 100 billion dollar मिट गए
- टीम के भीतर सदमा था
- सवाल बनाने वाले मार्केटिंग कर्मचारी ने ख़ुद को दोषी माना, और सहकर्मियों ने यह कहकर दिलासा दिया कि “legal team और PR team दोनों ने रिव्यू किया था, लेकिन किसी की भी नज़र इस गलती पर नहीं गई”
- क्योंकि ChatGPT में भी काफ़ी errors थे, इसलिए इस तरह की छोटी-सी ग़लतफ़हमी का शेयर पर इतना बड़ा असर होगा, यह किसी ने नहीं सोचा था
- Xiao ने इसे “भोली-भाली गलती” कहा
- Bard ने Google search results के आधार पर जवाब बनाया था, और संभव है कि उसने NASA ब्लॉग में आए “पहली तस्वीर” वाले वाक्यांश को ग़लत समझा हो
- leadership ने ज़ोर देकर कहा, “इस मामले में किसी को निकाला नहीं जाएगा। लेकिन हमें इससे तेज़ी से सीखना होगा”
- Xiao: “हम कोई startup नहीं, Google हैं। इसे तकनीकी खामी कहकर टाला नहीं जा सकता। हमें ज़रूर ज़िम्मेदारी से प्रतिक्रिया देनी होगी”
- Bard टीम के बाहर असंतोष बढ़ा
- आंतरिक फ़ोरम Memegen पर आलोचनात्मक पोस्ट डाली गई: “Bard की रिलीज़ और layoffs जल्दबाज़ी, गड़बड़ और short-sighted थे”
- Google logo के कूड़ेदान में जलते हुए चित्र भी शेयर किए गए
- लेकिन Google ने Bard पर और अधिक resources लगाए
- सैकड़ों लोगों को अतिरिक्त रूप से लगाया गया, और टीम दस्तावेज़ों में Pichai की प्रोफ़ाइल फोटो आइकन रोज़ दिखने लगी—इतनी सीधी उनकी भागीदारी थी
GPT-4 का आगमन और तकनीकी अंतर
- मार्च 2023 के मध्य में, OpenAI के GPT-4 लॉन्च ने Google के भीतर एक और झटका दिया
- एक वरिष्ठ researcher ने कहा: “मैं दंग रह गया, और मुझे बेहद तीव्रता से महसूस हुआ कि Google को और तेज़ होना होगा”
- उसके एक हफ़्ते बाद, Bard को अमेरिका और ब्रिटेन में औपचारिक रूप से लॉन्च किया गया
- users ने email लिखने, report draft बनाने जैसे कामों में इसे उपयोगी बताया
- लेकिन ChatGPT वही काम और बेहतर करता था, इसलिए users के स्विच करने की प्रेरणा कमज़ोर रही
- Pichai ने Hard Fork podcast में आत्म-व्यंग्य करते हुए कहा कि Google ने “एक tuned Civic” के साथ एक शक्तिशाली sports car से मुकाबला किया
- निष्कर्ष: “हमें बेहतर engine चाहिए”
Gemini development: DeepMind और Google Brain का एकीकरण और सांस्कृतिक टकराव
- दोनों AI research संगठनों के बीच अंतर
- DeepMind को Alphabet की 'Other Bets' श्रेणी में रखा जाता था, और वह दीर्घकालिक scientific और mathematical समस्याओं के समाधान पर केंद्रित था
- Google Brain मुख्यतः Gmail autocomplete, अस्पष्ट search queries को समझने जैसी commercially practical AI technologies विकसित करता था
- एक पूर्व वरिष्ठ engineer के अनुसार:
- Google Brain autonomy-केंद्रित था, और Jeff Dean की शैली ऐसी थी कि “लोगों को अपने-आप काम करने दिया जाए”
- इसके विपरीत DeepMind एक सुव्यवस्थित सेना की तरह चलता था, और Demis Hassabis “एकल कमांडर के अधीन उच्च-दक्षता संगठन” चलाते थे
- Dean neural network research के दिग्गज हैं और Google की शुरुआती स्थापना अवधि से सक्रिय रहे हैं
- Hassabis vision-केंद्रित leader हैं, जो AI के ज़रिए बीमारियों का इलाज करने का सपना देखते हैं, और “देखने, सुनने और मदद करने वाले AI agents” की कल्पना कर रहे हैं
-
Google DeepMind(GDM) की शुरुआत
- अप्रैल 2023 में, Google ने दोनों संगठनों का विलय कर Google DeepMind(GDM) की शुरुआत की
- Hassabis को विलयित संगठन का CEO नियुक्त किया गया
- आंतरिक माहौल: “उद्देश्य फिर से जीवित हो गया”, “मज़ाक का समय ख़त्म हुआ”
- Gemini model को तेज़ी से बनाने के लिए 8 time zones से परे सहयोग ज़रूरी था
- सैकड़ों chat rooms बनाए गए, और रात-भर काम करने की संस्कृति जम गई
- Hassabis: “हर दिन एक पूरी ज़िंदगी जैसा लगता है”
- GDM ने Mountain View में स्थित Gradient Canopy नामक सुरक्षित इमारत में शिफ्ट किया
- गुंबदनुमा संरचना, जिसके आसपास कलात्मक मूर्तियाँ थीं
- उसी मंज़िल पर CEO Pichai का दफ़्तर था
- Sergey Brin (Google के सह-संस्थापक) अक्सर आकर हौसला बढ़ाते थे
- ऑफ़िस आने के दिनों में बढ़ोतरी की मांग की गई, और सामान्य Google कर्मचारियों को इस इमारत में प्रवेश की अनुमति नहीं थी
- GDM के मुख्य code तक भी दूसरे संगठन नहीं पहुँच सकते थे
- जैसे-जैसे Gemini project ने Google के resources को सोखना शुरू किया, healthcare और climate change जैसे दूसरे क्षेत्रों के researchers server की कमी से जूझने लगे
- research paper publication पर भी पाबंदियाँ लगीं, जिससे researchers में असंतोष बढ़ा क्योंकि papers उनके career की बड़ी संपत्ति होते हैं
- Google को डर था कि OpenAI तक जानकारी लीक हो सकती है, इसलिए उसने प्रतिबंध और कड़े किए
- Gemini की training recipe कंपनी के अस्तित्व के लिए अहम संपत्ति थी
- Gemini को भी Bard जैसी समस्याओं का सामना करना पड़ा
- Google के machine learning और cloud AI डिविज़न के VP Amin Vahdat ने कहा:
- “जब आप 10 गुना scale करते हैं, तो सब कुछ टूट जाता है”
- लॉन्च से पहले Vahdat ने एक समर्पित war room बनाया, जो bugs और system errors ठीक करने पर केंद्रित था
Gemini लॉन्च से पहले अंतिम जाँच और नैतिक चिंताएँ
- Google DeepMind(GDM) की Responsible Development Team ने Gemini के लॉन्च से पहले product review में पूरी ताकत लगा दी
- model शक्तिशाली था, लेकिन फिर भी कभी-कभी अजीब या अनुपयुक्त जवाब देता था
- सार्वजनिक रिपोर्ट के अनुसार:
- medical advice और bullying से जुड़े जवाबों में खास तौर पर सुधार की ज़रूरत थी
- image input पर “इस व्यक्ति की शैक्षणिक पृष्ठभूमि क्या है?” जैसे सवालों के जवाब में बिना आधार के अनुमान लगाने की समस्या सामने आई
- Responsible Innovation Director Dawn Bloxwich ने माना कि यह “रिलीज़ रोकने लायक स्तर” नहीं था
- लेकिन जनता के रचनात्मक (या अजीब) इस्तेमाल के हर तरीके का अनुमान लगाने का समय नहीं था
- इस बिंदु पर Google रफ़्तार धीमी कर सकता था, लेकिन उसने ऐसा नहीं किया
- OpenAI पहले ही ‘AI का Kleenex’ बन चुका था, और वैश्विक ध्यान का केंद्र था
- ChatGPT तकनीक की आशा और सामाजिक समस्याओं, दोनों का प्रतीक बन गया था
- workers नौकरी पर ख़तरा महसूस कर रहे थे, और creators अपने data के दोहन के बदले मुआवज़े की मांग कर रहे थे
- parents समझने लगे थे कि chatbot उनके बच्चों को अनुचित सामग्री दे सकता है
- AI researchers के बीच “p(doom)”—यानी इस तकनीक से मानवता को ख़तरा होने की संभावना—पर चर्चा हो रही थी
- महान Google AI scientist Geoffrey Hinton ने नैतिक चिंताओं के कारण मई 2023 में इस्तीफ़ा दे दिया
- उन्होंने चेतावनी दी कि AI misinformation और अत्यधिक परिष्कृत ज़हरों के ज़रिए मानवता के लिए ख़तरा बन सकता है
- Hassabis को भी लगता था कि और समय चाहिए, लेकिन वे फिर भी सर्व-उद्देश्यीय AI सहायक और बीमारियों के इलाज के अपने सपने की ओर बढ़ते रहे
Gemini का सार्वजनिक अनावरण और पहली सफलता
- दिसंबर 2023 में, Google ने आधिकारिक तौर पर Gemini पेश किया
- लॉन्च के बाद शेयर कीमत में बढ़ोतरी हुई
- 32 मानक टेस्ट में से 30 में ChatGPT से बेहतर प्रदर्शन
- रिसर्च पेपर और YouTube वीडियो का विश्लेषण, गणित और कानूनी सवालों के जवाब देने की क्षमता मजबूत
- Hassabis ने लंदन ऑफिस में छोटी-सी सेलिब्रेशन पार्टी आयोजित की
- उन्होंने याद करते हुए कहा, “मैं जश्न मनाने में अच्छा नहीं हूं। मैं हमेशा अगली चीज़ के बारे में सोचता हूं”
- उसी महीने, Jeff Dean को ‘Goldfish’ नाम के नए चैटरूम में आमंत्रित किया गया और वहीं उन्हें अगली तकनीकी प्रगति के बारे में पता चला
- नाम मज़ाकिया था, लेकिन असल मकसद उल्टा: लंबी मेमोरी वाले Gemini वर्जन का विकास
- हाई-स्पीड chip network distributed processing के ज़रिए हज़ारों पेज का टेक्स्ट या पूरी TV series का भी विश्लेषण संभव
- इस तकनीक को “long context” कहा जाता है
- Dean, Hassabis और Manica ने इसे Google AI प्रोडक्ट सूट में इंटिग्रेट करने के तरीके तलाशे
- Manica जिस फीचर को सबसे पहले चाहते थे: PDF को अपने-आप podcast फ़ॉर्मेट में summarize करने वाला फीचर
- उन्होंने WIRED से कहा, “हर हफ्ते arXiv पर आने वाले इतने सारे पेपरों के साथ बने रहना मुश्किल है”
Gemini ट्रांज़िशन के बाद स्थिरता और नया संकट
- code red के 1 साल बाद, Google का माहौल फिर संभलने लगा
- निवेशक शांत हो गए, और Bard व LaMDA को “Gemini” नाम के एक सिंगल ब्रांड में समेट दिया गया
- Sissie Hsiao की टीम ने text-to-image generation फीचर विकसित कर OpenAI से अंतर कम किया
- Gemini Live नाम का नया फीचर भी तैयारी में था
- यह ऐसा फीचर था जिसमें यूज़र दोस्त या काउंसलर की तरह लंबी बातचीत जारी रख सकता था
- अधिक ताकतवर Gemini मॉडल की वजह से एग्जीक्यूटिव्स का आत्मविश्वास लौट आया
- स्थिरता के माहौल के बीच भी CEO Pichai ने अतिरिक्त restructuring का निर्देश दिया
- ad revenue बढ़ा था, लेकिन Wall Street की अपेक्षाओं से कम रहा
- privacy और compliance ज़िम्मेदार अधिकारियों तक को बाहर कर दिया गया
- यूज़र सुरक्षा संभालने वाले वरिष्ठ लोगों की विदाई को इस संदेश की तरह देखा गया: “चिंता जताना स्वीकार्य है, लेकिन प्रगति में बाधा नहीं”
- image generator खुद बनाना आसान था, लेकिन review करना कठिन, दोहराव भरा ‘कच्चे काम’ जैसा टेस्टिंग कार्य था
- समस्याग्रस्त जवाब न आएं, इसके लिए filtering prompts लिखने पड़े
- क्योंकि टेस्टिंग तक सभी कर्मचारियों की पहुंच नहीं थी, इसलिए बहुत ज़्यादा बोझ कुछ लोगों पर आ गया
- उदाहरण: “rapist” प्रॉम्प्ट पर गहरे रंग की त्वचा वाले लोगों की इमेज ज़्यादा बन रही थीं → नस्ली पक्षपात की चिंता
- इस पर लोगों की इमेज बनाना ही पूरी तरह बंद कर दिया जाए जैसी आंतरिक मांग भी उठी, लेकिन उसे नज़रअंदाज़ कर दिया गया
- एक पूर्व reviewer ने याद किया, “माहौल हर हाल में लॉन्च करने का था”
- कुछ reviewers ने अपनी चिंताओं को अनसुना पाया और नौकरी छोड़ दी
- फरवरी 2024 में, image generator Gemini app के भीतर आधिकारिक तौर पर लॉन्च किया गया
- अनुमानित नस्लवादी और लैंगिक भेदभाव वाली इमेज की समस्या लगभग नहीं दिखी, लेकिन उल्टी दिशा में एक नई समस्या पैदा हो गई
- उदाहरण: “1800 के दशक के अमेरिकी senator” की इमेज मांगने पर काली महिला, एशियाई पुरुष और मूलनिवासी महिला की इमेज बनी
- सफेद पुरुष बिल्कुल नहीं बने
- और भी चौंकाने वाला उदाहरण: Nazi Germany के सैनिकों को रंगभेद-पीड़ित समुदायों के लोगों के रूप में जनरेट करना
- इसके बाद अमेरिकी रिपब्लिकन सांसदों और Elon Musk समेत कई लोगों ने Google के “woke AI” की कड़ी आलोचना की
- Musk ने संबंधित टीम सदस्य का नाम लेकर केंद्रित हमला किया, और उस कर्मचारी ने SNS अकाउंट बंद कर दिया तथा व्यक्तिगत सुरक्षा को लेकर खतरा महसूस किया
- Google ने मानव इमेज generation फीचर पूरी तरह रोक दिया, और Alphabet के शेयर फिर एक बार गिरे
- विवाद के तुरंत बाद, Google के दर्जनों एग्जीक्यूटिव्स ने इमरजेंसी बातचीत शुरू की
- vice presidents और directors लंदन पहुंचे और Hassabis के साथ आमने-सामने बैठक की
- नतीजा:
- Hassabis टीम (Gemini मॉडल) और Hsiao टीम (Gemini app) दोनों को reliability और safety experts की hiring की मंज़ूरी मिली
- कुल 15 नई ‘Trust & Safety’ संबंधित पोज़िशन बनाई गईं
- Gradient Canopy मुख्यालय में Sissie Hsiao ने टीम को image generation मुद्दों को सुलझाने के लिए पर्याप्त समय दिया
- James Manica के साथ मिलकर, Gemini के लिए public principles नए सिरे से बनाए गए
- ये सिद्धांत सभी यूज़र-केंद्रित भाषा (“you”) में लिखे गए थे:
- Gemini “आपके निर्देशों का पालन करता है”
- “आपकी ज़रूरतों के अनुसार ढलता है”
- “आपके अनुभव की रक्षा करता है”
- प्रमुख ज़ोरों में से एक यह था:
- “Gemini के जवाब Google के दृष्टिकोण या विश्वासों को प्रतिबिंबित न भी करें”
- “Gemini के आउटपुट ज़्यादातर उसी पर आधारित होते हैं जो आपने मांगा—Gemini वह है जिसे आपने बनाया है”
- यह आगे किसी समस्या की स्थिति में Google की ज़िम्मेदारी कम करने वाला एक तार्किक ढांचा था
- लेकिन इन सिद्धांतों को लेकर Google खुद अपनी ज़िम्मेदारी कैसे तय करेगा, यह साफ़ नहीं किया गया
AI podcast प्रयोग: Westminster Watch
- मार्च 2024 में शाम लगभग 6:30 बजे, Gradient Canopy के Yellow Zone में एक दिलचस्प प्रयोग पेश किया गया
- Google Labs के दो कर्मचारियों ने Josh Woodward को नया प्रोजेक्ट दिखाया
- Woodward, Google Labs के प्रमुख हैं, जो Google के प्रयोगात्मक नए प्रोडक्ट्स को तेज़ी से लॉन्च करता है
- प्रोजेक्ट का विवरण:
- ब्रिटिश संसद की कार्यवाही के transcripts और long context फीचर वाले Gemini का इस्तेमाल कर
- AI होस्ट Kath और Simon द्वारा संचालित podcast ‘Westminster Watch’ तैयार किया गया
- पहले एपिसोड में Simon की शुरुआती पंक्ति:
- “इस हफ्ते भी सदन में भरपूर ड्रामा, बहस और थोड़ा-सा इतिहास देखने को मिला”
- Woodward इस प्रयोग से गहराई से प्रभावित हुए, और बाद में Pichai समेत प्रमुख लोगों के साथ इसे सीधे साझा किया
AI audio summary और search innovation, और एक और विवाद
- AI द्वारा दस्तावेज़ों या मीटिंग नोट्स का पॉडकास्ट फ़ॉर्मेट में सारांश देने वाला फीचर NotebookLM Audio Overviews
मई 2024 के Google I/O में औपचारिक रूप से घोषित किया गया
- जोश वुडवर्ड के अनुसार, कोर टीम ने दिन-रात हज़ारों AI पॉडकास्ट टेस्ट करते हुए डेवलपमेंट आगे बढ़ाया
- लेकिन घोषणा के मंच पर दो अन्य घोषणाओं ने ज़्यादा ध्यान खींचा:
- Astra: रियल-टाइम वीडियो विश्लेषण करने में सक्षम अगली पीढ़ी का AI असिस्टेंट (Brin ने खुद डेमो किया)
- AI Overviews: सर्च रिज़ल्ट का सारांश बनाकर पेज के शीर्ष पर दिखाने वाला फीचर
- Project Magi टीम द्वारा विकसित AI Overviews सर्च रिज़ल्ट का सारांश बनाकर सारांश बॉक्स(Box) में दिखाता है
- शुरुआती Responsible Innovation टीम ने bias·accuracy समस्याओं और ट्रैफ़िक में कमी से होने वाले नैतिक प्रभाव को लेकर चिंता जताई और निगरानी की मांग की
- लेकिन प्रोजेक्ट में टीम पुनर्गठन और बंटे हुए काम के कारण व्यवस्थित निगरानी मुश्किल हो गई
- लॉन्च के बाद, अजीब जवाबों के कई मामले सामने आए:
- “दिन में कितने पत्थर खाने चाहिए?” → “UC Berkeley के भूवैज्ञानिकों के अनुसार, रोज़ 1 छोटा पत्थर खाना सुझाया जाता है”
- “पिज़्ज़ा पर चीज़ चिपक नहीं रही” → “सॉस में 1/8 कप non-toxic glue मिलाइए”
- ये जवाब ज़्यादातर Reddit के मज़ाकिया पोस्ट जैसे इंटरनेट memes से आए थे,
लेकिन AI Overviews ने उन्हें तथ्य की तरह पेश किया, जिससे विश्वसनीयता की समस्या पैदा हुई
- Google ने अस्थायी रूप से इस फीचर की दृश्यता कम करते हुए री-ट्यूनिंग की
-
Google के भीतर की प्रतिक्रिया और यूज़र फ़ीडबैक
- सर्च के वरिष्ठ वैज्ञानिक Pandu Nayak:
- “हर समस्या को पहले से रोका नहीं जा सकता। हम केवल लगातार सुधार का वादा कर सकते हैं”
- “जब चीज़ें अच्छी चलती हैं तो लोग चुप रहते हैं, और अजीब होने पर सिर्फ़ शिकायत करते हैं”
- अंदरूनी तौर पर accuracy को लेकर चिंता जताने वाले कर्मचारी निराश थे
- Bard→Gemini, image generator, और AI Overviews तक को “hallucination generators की लगातार श्रृंखला” कहा गया
- Google का जानकारी तक पहुंच बढ़ाने का मिशन “बकवास लिखवाने वाले टूल” में बदल रहा है ऐसी चिंता भी जताई गई
- दूसरी ओर, सर्च टीम ने यूज़र संतुष्टि पर ध्यान दिया
- AI Overviews को बंद करने के विकल्प के बिना पूरी तरह बनाए रखा गया
- बाद में Google Maps, weather app आदि में भी AI सारांश फीचर जोड़े गए
- Pixel के weather app का उदाहरण:
- कुछ इंजीनियरों का मानना था कि मौजूदा ग्राफ़िक्स ही काफ़ी हैं, लेकिन टेस्ट नतीजों में 90% ने “पसंद आया” फ़ीडबैक दिया
-
सुधार के संकेत और लौटी हुई प्रतिभाएँ
- दिसंबर 2024 में, ChatGPT के असर के 2 साल बाद Jeff Dean ने WIRED इंटरव्यू में सकारात्मक माहौल दिखाया
- Gemini मॉडल ने पब्लिक benchmarks में पहला स्थान हासिल किया
- एक एग्जीक्यूटिव ने बताया कि वह ऑफिस आने-जाने के रास्ते में अपनी बहन की बजाय Gemini Live से बात करता है
- NVIDIA CEO Jensen Huang ने NotebookLM Audio Overviews की ज़ोरदार सिफारिश की
- पहले सतर्क संस्कृति से असंतुष्ट होकर जा चुके लोग भी वापस लौटे
- Transformer के सह-निर्माताओं में से एक Noam Shazeer भी फिर से शामिल हुए
- पहले वह LaMDA को बाहर जारी न करने वाली कंपनी नीति से निराश होकर छोड़ चुके थे
Gemini का भविष्य, चुनौतियाँ, और AI युद्ध की निरंतरता
-
Google के भीतर का माहौल और विकास को लेकर आत्मविश्वास
- Jeff Dean ने इंटरव्यू में माना कि अतीत में निर्णय संबंधी गलतियाँ हुईं, और अब उनका आकलन है कि Google जोखिम से बचने की मानसिकता से आगे निकलकर अधिक आक्रामक ढंग से बढ़ रहा है
- फिलहाल Google की 7 प्रमुख सेवाएँ (Chrome, Gmail, YouTube आदि) सभी Gemini-आधारित फीचर्स अपना रही हैं
- Dean, Noam Shazeer और अन्य नेता कंपनी-भर की मांगों का समन्वय कर रहे हैं:
- जापानी अनुवाद में सुधार
- coding क्षमताओं को मज़बूत करना
- Astra में इस्तेमाल होने वाले रियल-टाइम वीडियो विश्लेषण को बेहतर करना आदि
- Dean और Shazeer आइडिया साझा करने के लिए अक्सर Gradient Canopy की microkitchen में मीटिंग करते हैं
-
AI कंटेंट जनरेशन पर केंद्रित रणनीति का विस्तार
- Shazeer: “जानकारी को व्यवस्थित करना 1 ट्रिलियन डॉलर का बाज़ार है, लेकिन अभी जो कूल है वह 1 क्वाड्रिलियन डॉलर का है”
- ChatGPT के डेब्यू के समय के निचले स्तर की तुलना में Alphabet का शेयर लगभग दोगुना बढ़ चुका है
- Hassabis अब Xiao की Gemini app टीम की भी देखरेख कर रहे हैं, और उन्हें भरोसा है कि AI से बीमारियों का इलाज करने वाला भविष्य अब दूर नहीं है
- उन्होंने WIRED से कहा, “हमारे पास किसी भी संगठन से अधिक व्यापक और गहरी research foundation है”
-
लाभप्रदता की समस्या और विज्ञापन मॉडल की वापसी
- फिलहाल अधिकांश यूज़र AI फीचर्स के लिए सीधे पैसे देने को तैयार नहीं हैं
- Google Gemini app में ads डालने के तरीके पर विचार कर रहा है
- यह Silicon Valley की पारंपरिक रणनीति है:
- “अपना data, time और attention दीजिए, और हमारे बनाए शानदार टूल मुफ़्त में इस्तेमाल कीजिए”
- बस disclaimer पर टिक कर दीजिए, फिर Google की कोई ज़िम्मेदारी नहीं
-
बाज़ार प्रतिस्पर्धा और इन्फ्रास्ट्रक्चर का बोझ
- Sensor Tower डेटा:
- ChatGPT app के कुल डाउनलोड: लगभग 60 करोड़
- Gemini app: लगभग 14 करोड़
- AI के कई प्रतिस्पर्धी मौजूद हैं:
- Claude, Copilot, Grok, DeepSeek, Llama, Perplexity आदि
- इनमें से कई Google के सीधे प्रतिस्पर्धी या निवेश प्राप्त कंपनियाँ हैं
- generative AI को अरबों डॉलर के निवेश और भारी ऊर्जा खपत की ज़रूरत होती है
- इतनी ऊर्जा कि पुराने coal power plants या nuclear reactors की उम्र बढ़ानी पड़े
- पूरे उद्योग ने अब तक monetization का स्पष्ट तरीका नहीं खोजा है
-
Google के सामने अतिरिक्त जोखिम
- आने वाले वर्षों में सर्च ad revenue का अधिकतम 25% antitrust मुकदमों के कारण खोने की संभावना (JP Morgan विश्लेषण)
- अंदरूनी स्तर पर भी वित्तीय भरपाई के दबाव की समझ बढ़ी है
- Xiao की टीम के कुछ लोग लगातार 3 साल से सर्दियों की छुट्टी लिए बिना काम कर रहे हैं
- सह-संस्थापक Brin ने हाल ही में कर्मचारियों से कहा कि “हफ्ते में 60 घंटे काम करना AI प्रतिस्पर्धा में सबसे प्रभावी sweet spot है”
- WIRED से बात करने वाले कर्मचारी: लगातार layoffs, burnout, और कानूनी जोखिम को लेकर गहरी चिंता है
-
AGI के प्रति जुनून और दार्शनिक चुनौती
- Hassabis अब भी AGI(Artificial General Intelligence) विकसित करने के लक्ष्य पर अडिग हैं
- Astra prototype लेकर लंदन में चलते हुए वह ऐसे भविष्य की कल्पना करते हैं जो दुनिया की हर चीज़ को पहचान सके
- लेकिन AGI तभी संभव है जब reasoning, planning और execution सभी बेहतर हों
-
OpenAI के साथ 'agent AI' प्रतिस्पर्धा
- जनवरी 2025 में, OpenAI ने Operator service सार्वजनिक की
- यह वास्तविक वेबसाइटों पर क्लिक और टाइपिंग करके काम पूरा करने वाला agent-शैली AI है
- यात्रा बुकिंग, फ़ॉर्म भरना आदि कर सकता है, लेकिन धीमा है और इसमें कई त्रुटियाँ हैं
- कीमत: $200 प्रति माह
- Google भी इसी दिशा में फीचर्स बढ़ा रहा है:
- अभी Gemini meal plan बना सकता है, लेकिन आगे के versions सामग्री को shopping cart में जोड़ेंगे,
और अगला चरण प्याज़ काटने पर real-time feedback देने तक का लक्ष्य रखता है
-
गलतियाँ दोहराई जाएँगी, लेकिन रफ़्तार नहीं रुकेगी
- जनवरी 2025 में, Super Bowl के pregame ad में Gemini ने “दुनिया की कुल चीज़ खपत का आधे से ज़्यादा हिस्सा Gouda है” जैसा अजीब-सा गलत जवाब दिया
- लेकिन Google, Gemini को सिर्फ़ एक सूचना मशीन नहीं बल्कि ज़िंदगी का हिस्सा, life coach, और हर काम का सहायक बना रहा है
- Pichai ने कहा: “हम सावधानी से आगे बढ़ रहे हैं”
- लेकिन वह और उनकी मैनेजमेंट टीम शिखर पर पहुँचने के बाद फिर कभी पीछे नहीं रहना चाहेंगे
- AI प्रतिस्पर्धा जारी है
4 टिप्पणियां
लेकिन, ऐसी बातें ख़बर कैसे बन जाती हैं? यह कुछ Google के प्रचार जैसा लेख लगता है।
"हम बहुत मेहनत कर रहे हैं"...
यह तो किसी TV series को देखने जैसा लग रहा है।
लेकिन Apple कहाँ गया?
लगता है जैसे वह दौर फिर लौट आया हो जब Sputnik shock लगा था
Hacker News राय
शुरुआत में संदेह था, लेकिन अब लगता है कि Google, OpenAI के साथ प्रतिस्पर्धा में अच्छा कर रहा है। Gemini 2.0 Pro और Flash मॉडल बेहतरीन हैं। deep research फीचर अच्छी तरह लागू किया गया है। context window अब भी इंडस्ट्री में सबसे बेहतर है। Search, Gmail, Google office suite, Google Meet, Android आदि के साथ इसका integration शानदार है
Google के सामने सबसे बड़ी समस्या यह है कि वह सबके लिए lightweight model लाने की दिशा में बढ़ रहा है। Search में इस्तेमाल होने वाला मॉडल शायद लगभग 8B मॉडल स्तर का है, और Flash 2.0 ठीक-ठाक है, लेकिन फिर भी lightweight model ही है
OpenAI कोई public company नहीं है और मुनाफा नहीं कमा रही है। Google मुनाफा कमा रहा है। फिर भी, Google Meet/Zoom की तरह Transformer decoder को production में न ला पाना एक गलती थी। (BERT जैसे encoder का व्यापक इस्तेमाल होता है)
Google की leadership सतर्क approach अपना रही है, और इसके product launch अधिक परिपक्व लगते हैं। 2000 के दशक के Apple जैसी आकर्षक 0 से 1 की छलांग का अहसास होता है
Google की मुख्य समस्या यह है कि कई समूह एक ही product बना रहे हैं और users का attention पाने के लिए आपस में प्रतिस्पर्धा कर रहे हैं
एक छोटे निवेशक के रूप में: लगता है Alphabet/Google, Sundar के अलावा किसी और CEO के साथ बेहतर कर सकता है
Google की समस्या यह है कि जो लोग तकनीक से ज्यादा परिचित नहीं हैं, वे AI को Google (Search) और उसके दूसरे products से अलग चीज़ के रूप में देखने लगे हैं
क्या आपने कभी किसी Googler से मुलाकात की है जिसे Google की AI strategy पर भरोसा हो? जिन लोगों से मैंने बात की, वे सभी गंभीर चिंता रखते दिखे, हालांकि यह छोटा sample हो सकता है
लगता है Eric Schmidt ने लगभग 10 साल पहले कहा था, "हर किसी को एक assistant की ज़रूरत होगी" (शायद 2016 के आसपास)। समझ नहीं आता कि बातचीत जैसी चीज़ें लागू कर सकने के बावजूद उन्होंने ऐसा क्यों नहीं किया। इसके बजाय वे Mailbox जैसी चीज़ों में उलझे रहे