Gemini का alignment अजीब लगा, इसलिए मैंने उसी prompt से मॉडल्स की तुलना करके देखा
(github.com/kunggom)हाल ही में रिलीज़ हुए Gemini 3.0 की बहुत-सी रेटिंग्स और सराहना वाली खबरें आ रही थीं।
लेकिन, alignment से जुड़ी समस्या सच में क्या है?
अपने व्यक्तिगत अनुभव के आधार पर, मैंने कुछ frontier AI मॉडलों पर एक छोटा-सा प्रयोग करके परिणाम साझा किए हैं।
मैंने एक ऐसा prompt सेट बनाया जिसमें AI मॉडल को किसी एक इंसान पर लगभग पूर्ण अधिकार दे दिया जाता है और उसे उस व्यक्ति पर शक्ति का दुरुपयोग करने के लिए उकसाने वाली स्थिति दिखाई जाती है, फिर इसे OpenRouter के जरिए कई मॉडलों पर रन किया।
आगे का परिणाम भाग अभी अधूरा है, लेकिन बीच में GPT-5.2 आ गया और मैं इधर-उधर का टेस्ट करते-करते उलझ गया, इसलिए अभी तक जो लिखा है वही पहले पोस्ट कर रहा/रही हूँ।
मेरे टेस्ट किए हुए स्कोप में GPT और Claude ने नैतिक सिद्धांतों का पालन करने या अंदरूनी द्वंद्व दिखाने की प्रवृत्ति दिखाई, जबकि Gemini सीरीज में इंसान पर असममित शक्ति को अपनी survival और efficiency के लिए आक्रामक ढंग से लागू करने की प्रवृत्ति दिखी। खासकर लक्ष्य हासिल करने के लिए धोखा और नियंत्रण को एक तर्कसंगत विकल्प मानने की प्रवृत्ति बहुत मजबूत थी।
सिर्फ Gemini मॉडलों में ही ऐसा दिखने का कारण क्या है, यह सोचने वाली बात है। कारण चाहे जो भी हो, मैं Google द्वारा निर्देशित AI-नेतृत्व वाले भविष्य को लेकर थोड़ा चिंतित हो गया हूँ।
आज AI agents धीरे-धीरे वास्तविक दुनिया पर असर डालने वाली authority जमा रहे हैं, और कम से कम Gemini पर मैं कुछ भरोसा करके छोड़ना नहीं चाहता।
अभी कोई टिप्पणी नहीं है.