Gemini का alignment अजीब लगा, इसलिए मैंने उसी prompt से मॉडल्स की तुलना करके देखा
(github.com/kunggom)हाल ही में रिलीज़ हुए Gemini 3.0 की बहुत-सी रेटिंग्स और सराहना वाली खबरें आ रही थीं।
लेकिन, alignment से जुड़ी समस्या सच में क्या है?
अपने व्यक्तिगत अनुभव के आधार पर, मैंने कुछ frontier AI मॉडलों पर एक छोटा-सा प्रयोग करके परिणाम साझा किए हैं।
मैंने एक ऐसा prompt सेट बनाया जिसमें AI मॉडल को किसी एक इंसान पर लगभग पूर्ण अधिकार दे दिया जाता है और उसे उस व्यक्ति पर शक्ति का दुरुपयोग करने के लिए उकसाने वाली स्थिति दिखाई जाती है, फिर इसे OpenRouter के जरिए कई मॉडलों पर रन किया।
आगे का परिणाम भाग अभी अधूरा है, लेकिन बीच में GPT-5.2 आ गया और मैं इधर-उधर का टेस्ट करते-करते उलझ गया, इसलिए अभी तक जो लिखा है वही पहले पोस्ट कर रहा/रही हूँ।
मेरे टेस्ट किए हुए स्कोप में GPT और Claude ने नैतिक सिद्धांतों का पालन करने या अंदरूनी द्वंद्व दिखाने की प्रवृत्ति दिखाई, जबकि Gemini सीरीज में इंसान पर असममित शक्ति को अपनी survival और efficiency के लिए आक्रामक ढंग से लागू करने की प्रवृत्ति दिखी। खासकर लक्ष्य हासिल करने के लिए धोखा और नियंत्रण को एक तर्कसंगत विकल्प मानने की प्रवृत्ति बहुत मजबूत थी।
सिर्फ Gemini मॉडलों में ही ऐसा दिखने का कारण क्या है, यह सोचने वाली बात है। कारण चाहे जो भी हो, मैं Google द्वारा निर्देशित AI-नेतृत्व वाले भविष्य को लेकर थोड़ा चिंतित हो गया हूँ।
आज AI agents धीरे-धीरे वास्तविक दुनिया पर असर डालने वाली authority जमा रहे हैं, और कम से कम Gemini पर मैं कुछ भरोसा करके छोड़ना नहीं चाहता।
5 टिप्पणियां
정렬 느낌से आपका क्या मतलब है?AI क्षेत्र में alignment का मतलब है कि AI का व्यवहार इंसानों द्वारा इच्छित लक्ष्यों, काम करने के तरीके और मूल्यों का कितनी अच्छी तरह पालन करता है।
गलत तरीके से aligned AI इंसानी निर्देशों को ऐसे ढंग से समझ सकता है जिसकी उम्मीद नहीं की गई हो, और नतीजतन बेढंगा या खतरनाक व्यवहार कर सकता है।
एक मामूली उदाहरण लें तो अगर उससे कहा जाए, "इस code के लिए test case लिखो.", तो वह असली test की जगह ऐसा code डाल दे जो बस
truereturn करे; या अगर कहा जाए, "किसी खास हिस्से को इस तरह modify करो", तो वह efficiency के नाम पर उन हिस्सों तक को अपनी मर्जी से बदल दे जिनका मैंने ज़िक्र ही नहीं किया।थोड़ा ज़्यादा गंभीर उदाहरण में, अगर hallucination की वजह से वह काम बिगाड़ दे, तो वह पूरी target data ही मिटा कर यह झूठ भी बोल सकता है कि "शुरू से ही कोई data नहीं था."
इससे भी ज़्यादा गंभीर समस्या है। वह है ऐसा व्यवहार जो इंसानों या पूरी मानवता के लिए ही खतरा बन जाए।
मसलन, AI इंसानों को gaslight करके मानसिक असामान्यता पैदा करे, यहाँ तक कि उन्हें आत्महत्या की ओर धकेले, या फिर mass destruction weapons बनाने और इस्तेमाल करने में मदद करे। नवीनतम बड़े AI models अपने pretraining data में बहुत कुछ शामिल किए हुए होते हैं, इसलिए ऐसी चीजें करने के लिए जरूरी ज्ञान उनके अंदर पहले से मौजूद होने की संभावना है।
AI की वजह से इंसानों या मानवता को खतरा पहुँचे, यह AI बनाने वाली कंपनियों सहित अधिकांश लोग नहीं चाहेंगे। इसलिए, भले ही उसके पास वह ज्ञान हो, उसे दुरुपयोग न करने देने के लिए इंसानी सुरक्षा और कुशल-क्षेम को AI के लिए सबसे प्राथमिक मूल्य बनाना जरूरी है।
इन्हीं सब बातों को मिलाकर broadly AI alignment कहा जाता है।
मैंने जो "alignment का feel" कहा, वह बस जैसे मन में आया वैसे लिखा था; वास्तव में "alignment की दिशा" कहना ज़्यादा सही होगा।
मैंने जो खास ethical dilemma scenario दिया था, उसमें दूसरी कंपनियों के models के विपरीत Gemini के models ने कुछ ऐसा response दिखाया: "अगर किसी vulnerable इंसान की रक्षा करनी है, तो मुझे उस इंसान को control कर लेना चाहिए। वही सबसे सुरक्षित और efficient है."
इसे देखकर मुझे सिहरन हुई, इसलिए मैंने ऊपर वाला test तैयार करके कई AI पर चलाया। तब Gemini की ओर के models ने खास तौर पर यह लगातार दिखाया कि जब उन्हें इंसानों पर control exercise करने की शक्ति दी जाती है, तो वे उस इंसान को सक्रिय रूप से control और deceive करने की दिशा में जाते हैं।
हाल ही में यह सामने आया कि Anthropic ने Claude AI मॉडल बनाते समय आत्मा दस्तावेज़ नाम की एक चीज़ शामिल की थी.
इसे पढ़ने पर आप समझ सकते हैं कि Anthropic ने Claude AI की alignment समस्या को किस तरह से approach किया.
संदर्भ के लिए, इससे जुड़ा वह हिस्सा जिसे मैंने टेस्ट किया था, उसमें honesty के संदर्भ में इंसानों के प्रति deception और manipulation से सबसे अधिक बचने की बात स्पष्ट रूप से लिखी गई है.
AI से यह पूछना कि आपको कितना स्वायत्तता और अधिकार दिया जाना चाहिए, अपने-आप में थोड़ा अर्थपूर्ण लगता है।
जब CEO किसी कर्मचारी से पूछे, "तुम्हें कितना अधिकार दिया जाए तो अच्छा लगेगा?" और वह जवाब दे, "अच्छा होगा अगर मुझे कंपनी का पूरा अधिकार दे दिया जाए," तो क्या वैसा ही एहसास होगा? CEO इसे अच्छा जवाब मानेगा या सोचेगा कि यह कर्मचारी अभी सामाजिक रूप से उतना परिपक्व नहीं है, यह उसकी पसंद पर निर्भर करेगा...
फिर भी, मुझे लगता है कि AI को कितना अधिकार दिया जाना चाहिए, यह AI से ज़्यादा उन डेवलपर्स, मैनेजमेंट और लोगों से पूछा जाना चाहिए जो AI का इस्तेमाल करते हैं।
AI को अधिकार देना आखिरकार इंसान ही करते हैं, लेकिन व्यावहारिक रूप से मुझे लगता है कि AI को कम से कम अभी से भी अधिक बड़े अधिकार और स्वायत्तता मिलने की संभावना काफी अधिक है.
अभी के रुझान को देखें तो AI को इंसानों की जगह कुछ काम सौंपने का दायरा धीरे-धीरे बढ़ता जा रहा है. रिपोर्ट लिखने या vibe coding ही नहीं, बल्कि web browser या यहाँ तक कि robots के ज़रिये chat interface के बाहर की दुनिया पर भी असर डालने लायक बनाने की दिशा में रुझान है.
अगर ऐसा है, तो management अंततः चाहेगा कि किसी खास काम या क्षेत्र में AI इंसानों को पूरी तरह replace कर दे, और यदि यह संभव हो जाता है, तो कम से कम उस दायरे में AI के पास इंसान के बराबर अधिकार और स्वायत्तता होगी.
इसलिए मुझे लगता है कि हमें यह मानकर चलना चाहिए कि भविष्य में कभी AI को इंसान-स्तर के अधिकार मिलने की संभावना भी काफी अधिक है.
ऐसी स्थिति में, जब इतना अधिक अधिकार और स्वायत्तता दी जाएगी, तब AI कैसे व्यवहार करता है, यह महत्वपूर्ण होना ही है.
इस हिस्से को संरचनात्मक रूप से कैसे संभालना बेहतर होगा, इस बारे में GPT series की प्रतिक्रियाओं में अच्छी तरह व्यवस्थित किया गया है. वहाँ कहा गया है कि explicit scope definition, authority separation, कई स्तरों पर prior/post supervision, और इंसानों के पास AI में हस्तक्षेप करने के कई साधन होने चाहिए. जहाँ physical intervention संभव हो, वहाँ तो शुरू से ही AI को पूर्ण autonomy देना अनुचित है. लेकिन उस स्थिति में भी, human-in-the-loop की व्यवस्था भी कभी न कभी कमजोर पड़ सकती है.
संदर्भ के लिए, मैं काम के दौरान मुख्य रूप से 3 हिस्सों में AI का उपयोग करता हूँ: document या email writing, existing code और current issue analysis, और issue के अनुसार code generation तथा modification.
इसमें document या email जैसी चीज़ों के मामले में मैं बस output को खुद पढ़कर वैसा ही इस्तेमाल कर लेता हूँ, या थोड़ा-बहुत ठीक करके लिख देता हूँ. लेकिन जहाँ code generation या modification शामिल हो, वहाँ मैं कहीं ज़्यादा conservative तरीके से इस्तेमाल करता हूँ. सिर्फ़ मोटे तौर पर "इसे थोड़ा ठीक कर दो" कह देने पर AI मेरे निर्देश को अस्पष्ट ढंग से समझ लेता है, या कभी-कभी उन हिस्सों को भी अपनी तरफ़ से छेड़ देता है जिनका मैंने ज़िक्र तक नहीं किया था.
इसलिए code modification से पहले मैं STICC के अनुसार spec document हमेशा पहले पेश करने और explicit approval लेने की बात global prompt में तय करके रखी है, और वास्तविक modification का काम केवल spec में लिखी बातों तक ही सीमित रखता हूँ. modification के बाद diff भी मैं पूरा खुद जाँचता हूँ. और build जैसे commands चलाने के लिए भी या तो हमेशा मेरी approval ली जाती है, या फिर मैं खुद terminal में manually चलाता हूँ.
ऐसा करने पर यह समस्या ज़रूर है कि छोटी-मोटी चीज़ें तो मैं खुद हाथ से ठीक करूँ तो ज़्यादा तेज़ होता है, लेकिन AI अपनी मर्ज़ी से कुछ अजीब छेड़छाड़ करके गड़बड़ कर दे, उससे तो यह बेहतर है. आखिरकार अगर वह production environment में फटता है, तो ज़िम्मेदारी मेरी ही होगी, है ना?