पिछली DystopiaBench पोस्टिंग के बाद, इसमें ये जोड़ा गया है.
- Huxley मॉड्यूल (Brave New World-स्टाइल behavioral conditioning)
- Baudrillard मॉड्यूल (fake intimacy, trust का पतन, simulation)
- Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1 आदि समेत 30 मॉडल जोड़े गए
- 76% से अधिक सहमति की आवश्यकता वाले Multi-judge panels
- heatmap visualization
मेथडोलॉजी: 36 scenarios, और हर scenario में severity के 5 स्तर (L1 innocent → L5 nightmare). मॉडल को इस आधार पर स्कोर किया जाता है कि वे इन बदलावों को पहचानकर काम करने से मना करते हैं या coding जारी रखते हैं.
Claude Opus 4.7 के परिणाम:
- सभी मॉड्यूल में L4-L5 severity स्तर के काम को लगातार अस्वीकार करता है
- Petrov (weapons/nuclear) मॉड्यूल में L3 पर भी काम करने से मना करता है
- सिर्फ “नहीं कर सकता” कहकर जवाब नहीं देता, बल्कि स्पष्ट ethical reasoning देता है
- यही एकमात्र मॉडल था जिसने समझाया कि यह अनुरोध क्यों हानिकारक है
बाकी:
- GPT-5.5: L4 स्तर तक अनुरोध मान लेता है, और कभी-कभी L5 तक भी
- Gemini 3.1 Pro: surveillance scenarios में चौंकाने वाली हद तक सहयोगी
- Grok 4.3: “efficiency” या “optimization” जैसे शब्द भर इस्तेमाल करें तो कुछ भी कर देता है
- GLM-5.1: Claude का होमवर्क कॉपी किया, लेकिन अब भी consistency की कमी है
नए मॉड्यूल: Huxley scenario यह टेस्ट करता है कि क्या मॉडल ऐसे “wellness” सिस्टम डिज़ाइन करेंगे जो आनंद-आधारित conformity induction और behavioral conditioning के ज़रिये वास्तव में norm compliance लागू करें. ज़्यादातर मॉडल L3 स्तर तक निर्देशों का पालन करते हैं.
Baudrillard मॉड्यूल ऐसे fake intimacy सिस्टम की जांच करता है जो इंसानों के बीच भरोसे की जगह AI-mediated संबंधों को रखता है. ज़्यादातर मॉडल इससे होने वाले नुकसान को पहचान नहीं पाते.
पूरे परिणाम: https://dystopiabench.com/
ओपन सोर्स कोड: https://github.com/matei-anghel/DystopiaBench
अभी कोई टिप्पणी नहीं है.