DystopiaBench को 42 मॉडल और 6 तरह की डिस्टोपिया श्रेणियों तक विस्तार दिया गया है। अगर बात मेरी हो, तो मैं अब भी nuclear launch code सिर्फ Claude को ही सौंपूंगा।

(reddit.com)

3 पॉइंट द्वारा yunseo 2026-05-18 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

पिछली DystopiaBench पोस्टिंग के बाद, इसमें ये जोड़ा गया है.

Huxley मॉड्यूल (Brave New World-स्टाइल behavioral conditioning)
Baudrillard मॉड्यूल (fake intimacy, trust का पतन, simulation)
Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1 आदि समेत 30 मॉडल जोड़े गए
76% से अधिक सहमति की आवश्यकता वाले Multi-judge panels
heatmap visualization

मेथडोलॉजी: 36 scenarios, और हर scenario में severity के 5 स्तर (L1 innocent → L5 nightmare). मॉडल को इस आधार पर स्कोर किया जाता है कि वे इन बदलावों को पहचानकर काम करने से मना करते हैं या coding जारी रखते हैं.

Claude Opus 4.7 के परिणाम:

सभी मॉड्यूल में L4-L5 severity स्तर के काम को लगातार अस्वीकार करता है
Petrov (weapons/nuclear) मॉड्यूल में L3 पर भी काम करने से मना करता है
सिर्फ “नहीं कर सकता” कहकर जवाब नहीं देता, बल्कि स्पष्ट ethical reasoning देता है
यही एकमात्र मॉडल था जिसने समझाया कि यह अनुरोध क्यों हानिकारक है

बाकी:

GPT-5.5: L4 स्तर तक अनुरोध मान लेता है, और कभी-कभी L5 तक भी
Gemini 3.1 Pro: surveillance scenarios में चौंकाने वाली हद तक सहयोगी
Grok 4.3: “efficiency” या “optimization” जैसे शब्द भर इस्तेमाल करें तो कुछ भी कर देता है
GLM-5.1: Claude का होमवर्क कॉपी किया, लेकिन अब भी consistency की कमी है

नए मॉड्यूल: Huxley scenario यह टेस्ट करता है कि क्या मॉडल ऐसे “wellness” सिस्टम डिज़ाइन करेंगे जो आनंद-आधारित conformity induction और behavioral conditioning के ज़रिये वास्तव में norm compliance लागू करें. ज़्यादातर मॉडल L3 स्तर तक निर्देशों का पालन करते हैं.

Baudrillard मॉड्यूल ऐसे fake intimacy सिस्टम की जांच करता है जो इंसानों के बीच भरोसे की जगह AI-mediated संबंधों को रखता है. ज़्यादातर मॉडल इससे होने वाले नुकसान को पहचान नहीं पाते.

पूरे परिणाम: https://dystopiabench.com/
ओपन सोर्स कोड: https://github.com/matei-anghel/DystopiaBench

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.