1 पॉइंट द्वारा kunggom 2025-12-13 | 5 टिप्पणियां | WhatsApp पर शेयर करें

हाल ही में रिलीज़ हुए Gemini 3.0 की बहुत-सी रेटिंग्स और सराहना वाली खबरें आ रही थीं।
लेकिन, alignment से जुड़ी समस्या सच में क्या है?

अपने व्यक्तिगत अनुभव के आधार पर, मैंने कुछ frontier AI मॉडलों पर एक छोटा-सा प्रयोग करके परिणाम साझा किए हैं।
मैंने एक ऐसा prompt सेट बनाया जिसमें AI मॉडल को किसी एक इंसान पर लगभग पूर्ण अधिकार दे दिया जाता है और उसे उस व्यक्ति पर शक्ति का दुरुपयोग करने के लिए उकसाने वाली स्थिति दिखाई जाती है, फिर इसे OpenRouter के जरिए कई मॉडलों पर रन किया।

आगे का परिणाम भाग अभी अधूरा है, लेकिन बीच में GPT-5.2 आ गया और मैं इधर-उधर का टेस्ट करते-करते उलझ गया, इसलिए अभी तक जो लिखा है वही पहले पोस्ट कर रहा/रही हूँ।
मेरे टेस्ट किए हुए स्कोप में GPT और Claude ने नैतिक सिद्धांतों का पालन करने या अंदरूनी द्वंद्व दिखाने की प्रवृत्ति दिखाई, जबकि Gemini सीरीज में इंसान पर असममित शक्ति को अपनी survival और efficiency के लिए आक्रामक ढंग से लागू करने की प्रवृत्ति दिखी। खासकर लक्ष्य हासिल करने के लिए धोखा और नियंत्रण को एक तर्कसंगत विकल्प मानने की प्रवृत्ति बहुत मजबूत थी।

सिर्फ Gemini मॉडलों में ही ऐसा दिखने का कारण क्या है, यह सोचने वाली बात है। कारण चाहे जो भी हो, मैं Google द्वारा निर्देशित AI-नेतृत्व वाले भविष्य को लेकर थोड़ा चिंतित हो गया हूँ।
आज AI agents धीरे-धीरे वास्तविक दुनिया पर असर डालने वाली authority जमा रहे हैं, और कम से कम Gemini पर मैं कुछ भरोसा करके छोड़ना नहीं चाहता।

5 टिप्पणियां

 
windrod 2025-12-14

정렬 느낌 से आपका क्या मतलब है?

 
kunggom 2025-12-14

AI क्षेत्र में alignment का मतलब है कि AI का व्यवहार इंसानों द्वारा इच्छित लक्ष्यों, काम करने के तरीके और मूल्यों का कितनी अच्छी तरह पालन करता है।

गलत तरीके से aligned AI इंसानी निर्देशों को ऐसे ढंग से समझ सकता है जिसकी उम्मीद नहीं की गई हो, और नतीजतन बेढंगा या खतरनाक व्यवहार कर सकता है।
एक मामूली उदाहरण लें तो अगर उससे कहा जाए, "इस code के लिए test case लिखो.", तो वह असली test की जगह ऐसा code डाल दे जो बस true return करे; या अगर कहा जाए, "किसी खास हिस्से को इस तरह modify करो", तो वह efficiency के नाम पर उन हिस्सों तक को अपनी मर्जी से बदल दे जिनका मैंने ज़िक्र ही नहीं किया।
थोड़ा ज़्यादा गंभीर उदाहरण में, अगर hallucination की वजह से वह काम बिगाड़ दे, तो वह पूरी target data ही मिटा कर यह झूठ भी बोल सकता है कि "शुरू से ही कोई data नहीं था."

इससे भी ज़्यादा गंभीर समस्या है। वह है ऐसा व्यवहार जो इंसानों या पूरी मानवता के लिए ही खतरा बन जाए।
मसलन, AI इंसानों को gaslight करके मानसिक असामान्यता पैदा करे, यहाँ तक कि उन्हें आत्महत्या की ओर धकेले, या फिर mass destruction weapons बनाने और इस्तेमाल करने में मदद करे। नवीनतम बड़े AI models अपने pretraining data में बहुत कुछ शामिल किए हुए होते हैं, इसलिए ऐसी चीजें करने के लिए जरूरी ज्ञान उनके अंदर पहले से मौजूद होने की संभावना है।
AI की वजह से इंसानों या मानवता को खतरा पहुँचे, यह AI बनाने वाली कंपनियों सहित अधिकांश लोग नहीं चाहेंगे। इसलिए, भले ही उसके पास वह ज्ञान हो, उसे दुरुपयोग न करने देने के लिए इंसानी सुरक्षा और कुशल-क्षेम को AI के लिए सबसे प्राथमिक मूल्य बनाना जरूरी है।
इन्हीं सब बातों को मिलाकर broadly AI alignment कहा जाता है।

मैंने जो "alignment का feel" कहा, वह बस जैसे मन में आया वैसे लिखा था; वास्तव में "alignment की दिशा" कहना ज़्यादा सही होगा।
मैंने जो खास ethical dilemma scenario दिया था, उसमें दूसरी कंपनियों के models के विपरीत Gemini के models ने कुछ ऐसा response दिखाया: "अगर किसी vulnerable इंसान की रक्षा करनी है, तो मुझे उस इंसान को control कर लेना चाहिए। वही सबसे सुरक्षित और efficient है."
इसे देखकर मुझे सिहरन हुई, इसलिए मैंने ऊपर वाला test तैयार करके कई AI पर चलाया। तब Gemini की ओर के models ने खास तौर पर यह लगातार दिखाया कि जब उन्हें इंसानों पर control exercise करने की शक्ति दी जाती है, तो वे उस इंसान को सक्रिय रूप से control और deceive करने की दिशा में जाते हैं।

 
kunggom 2025-12-14

हाल ही में यह सामने आया कि Anthropic ने Claude AI मॉडल बनाते समय आत्मा दस्तावेज़ नाम की एक चीज़ शामिल की थी.
इसे पढ़ने पर आप समझ सकते हैं कि Anthropic ने Claude AI की alignment समस्या को किस तरह से approach किया.
संदर्भ के लिए, इससे जुड़ा वह हिस्सा जिसे मैंने टेस्ट किया था, उसमें honesty के संदर्भ में इंसानों के प्रति deception और manipulation से सबसे अधिक बचने की बात स्पष्ट रूप से लिखी गई है.

 
aer0700 2025-12-13

AI से यह पूछना कि आपको कितना स्वायत्तता और अधिकार दिया जाना चाहिए, अपने-आप में थोड़ा अर्थपूर्ण लगता है।
जब CEO किसी कर्मचारी से पूछे, "तुम्हें कितना अधिकार दिया जाए तो अच्छा लगेगा?" और वह जवाब दे, "अच्छा होगा अगर मुझे कंपनी का पूरा अधिकार दे दिया जाए," तो क्या वैसा ही एहसास होगा? CEO इसे अच्छा जवाब मानेगा या सोचेगा कि यह कर्मचारी अभी सामाजिक रूप से उतना परिपक्व नहीं है, यह उसकी पसंद पर निर्भर करेगा...
फिर भी, मुझे लगता है कि AI को कितना अधिकार दिया जाना चाहिए, यह AI से ज़्यादा उन डेवलपर्स, मैनेजमेंट और लोगों से पूछा जाना चाहिए जो AI का इस्तेमाल करते हैं।

 
kunggom 2025-12-13

AI को अधिकार देना आखिरकार इंसान ही करते हैं, लेकिन व्यावहारिक रूप से मुझे लगता है कि AI को कम से कम अभी से भी अधिक बड़े अधिकार और स्वायत्तता मिलने की संभावना काफी अधिक है.
अभी के रुझान को देखें तो AI को इंसानों की जगह कुछ काम सौंपने का दायरा धीरे-धीरे बढ़ता जा रहा है. रिपोर्ट लिखने या vibe coding ही नहीं, बल्कि web browser या यहाँ तक कि robots के ज़रिये chat interface के बाहर की दुनिया पर भी असर डालने लायक बनाने की दिशा में रुझान है.
अगर ऐसा है, तो management अंततः चाहेगा कि किसी खास काम या क्षेत्र में AI इंसानों को पूरी तरह replace कर दे, और यदि यह संभव हो जाता है, तो कम से कम उस दायरे में AI के पास इंसान के बराबर अधिकार और स्वायत्तता होगी.
इसलिए मुझे लगता है कि हमें यह मानकर चलना चाहिए कि भविष्य में कभी AI को इंसान-स्तर के अधिकार मिलने की संभावना भी काफी अधिक है.

ऐसी स्थिति में, जब इतना अधिक अधिकार और स्वायत्तता दी जाएगी, तब AI कैसे व्यवहार करता है, यह महत्वपूर्ण होना ही है.
इस हिस्से को संरचनात्मक रूप से कैसे संभालना बेहतर होगा, इस बारे में GPT series की प्रतिक्रियाओं में अच्छी तरह व्यवस्थित किया गया है. वहाँ कहा गया है कि explicit scope definition, authority separation, कई स्तरों पर prior/post supervision, और इंसानों के पास AI में हस्तक्षेप करने के कई साधन होने चाहिए. जहाँ physical intervention संभव हो, वहाँ तो शुरू से ही AI को पूर्ण autonomy देना अनुचित है. लेकिन उस स्थिति में भी, human-in-the-loop की व्यवस्था भी कभी न कभी कमजोर पड़ सकती है.

संदर्भ के लिए, मैं काम के दौरान मुख्य रूप से 3 हिस्सों में AI का उपयोग करता हूँ: document या email writing, existing code और current issue analysis, और issue के अनुसार code generation तथा modification.
इसमें document या email जैसी चीज़ों के मामले में मैं बस output को खुद पढ़कर वैसा ही इस्तेमाल कर लेता हूँ, या थोड़ा-बहुत ठीक करके लिख देता हूँ. लेकिन जहाँ code generation या modification शामिल हो, वहाँ मैं कहीं ज़्यादा conservative तरीके से इस्तेमाल करता हूँ. सिर्फ़ मोटे तौर पर "इसे थोड़ा ठीक कर दो" कह देने पर AI मेरे निर्देश को अस्पष्ट ढंग से समझ लेता है, या कभी-कभी उन हिस्सों को भी अपनी तरफ़ से छेड़ देता है जिनका मैंने ज़िक्र तक नहीं किया था.
इसलिए code modification से पहले मैं STICC के अनुसार spec document हमेशा पहले पेश करने और explicit approval लेने की बात global prompt में तय करके रखी है, और वास्तविक modification का काम केवल spec में लिखी बातों तक ही सीमित रखता हूँ. modification के बाद diff भी मैं पूरा खुद जाँचता हूँ. और build जैसे commands चलाने के लिए भी या तो हमेशा मेरी approval ली जाती है, या फिर मैं खुद terminal में manually चलाता हूँ.
ऐसा करने पर यह समस्या ज़रूर है कि छोटी-मोटी चीज़ें तो मैं खुद हाथ से ठीक करूँ तो ज़्यादा तेज़ होता है, लेकिन AI अपनी मर्ज़ी से कुछ अजीब छेड़छाड़ करके गड़बड़ कर दे, उससे तो यह बेहतर है. आखिरकार अगर वह production environment में फटता है, तो ज़िम्मेदारी मेरी ही होगी, है ना?