NYU प्रोफेसर का AI मौखिक परीक्षा प्रयोग
पृष्ठभूमि
- AI युग में पारंपरिक असाइनमेंट मूल्यांकन की सीमाएँ: छात्र AI से असाइनमेंट पूरी तरह लिखवा लेते हैं, लेकिन वास्तविक समझ की कमी सामने आती है
- प्रोफेसर Panos Ipeirotis (NYU Stern School of Business): AI से AI-आधारित चीटिंग का मुकाबला करने वाला उल्टा प्रयोग
प्रयोग का सार
- कक्षा: AI/ML product management
- प्रतिभागी: 36 छात्र
- तरीका: ElevenLabs voice AI agent का उपयोग कर मौखिक परीक्षा
- सामग्री: छात्र प्रोजेक्ट पर प्रश्न + कक्षा के case study पर प्रश्न
- अवधि: 9 दिन, प्रति छात्र औसतन 25 मिनट
- कुल लागत: 15 डॉलर (प्रति छात्र 42 सेंट)
- Claude: 8 डॉलर, Gemini: 2 डॉलर, OpenAI: 30 सेंट, ElevenLabs: 5 डॉलर
लागत तुलना
- AI परीक्षा: 15 डॉलर
- मानव मूल्यांकन: 750 डॉलर (36 छात्र × 25 मिनट × 2 लोग × 25 डॉलर/घंटा)
- फायदा: बड़े पैमाने की कक्षाओं में मौखिक परीक्षा संभव
शुरुआती समस्याएँ
- agent का टोन: सख्त और घमंडी महसूस हुआ (छात्र शिकायत: "चिल्लाया")
- व्यवहार संबंधी समस्या: एक साथ कई प्रश्न, दोहराव पर प्रश्नों को फिर से गढ़ना, जल्दी बीच में टोकना
- randomness bias: "random selection" निर्देश के बावजूद एक खास case (Zillow 88%) की ओर झुकाव
- कारण: LLM training data में मौजूद मानवीय bias का प्रतिबिंब
मूल्यांकन पद्धति
- तरीका: Andrej Karpathy का "Council of LLMs" लागू
- Claude, Gemini, ChatGPT ने स्वतंत्र मूल्यांकन किया → एक-दूसरे की समीक्षा की → संशोधन किया
- परिणाम: शुरुआती score में बड़ा अंतर था (Gemini 17 अंक vs Claude 13.4 अंक), लेकिन समीक्षा के बाद 60% परिणाम 1 अंक के भीतर सिमट गए
- feedback की गुणवत्ता: AI मानव से बेहतर निकला (structured summary + direct quotes)
पता चली बातें
- विषयवार अंतर: "experiment" विषय में कमजोरी (औसत 1.94/4 अंक) → प्रोफेसर ने teaching method की समस्या मानी (A/B testing पर कम ध्यान)
- परीक्षा की लंबाई और grade: कोई संबंध नहीं (सबसे छोटी 9 मिनट की परीक्षा में सबसे ऊँचा score, सबसे लंबी 64 मिनट की परीक्षा में औसत परिणाम)
छात्र प्रतिक्रिया
- AI फ़ॉर्मैट की पसंद: 13% (मानव की तुलना में पसंद 2 गुना कम)
- तनाव: 83% अधिक
- निष्पक्षता: 70% ने माना कि यह वास्तविक समझ का मूल्यांकन करता है (सबसे ऊँची रेटिंग वाला बिंदु)
निष्कर्ष
- AI मौखिक परीक्षा: scalable, सस्ती और निष्पक्ष
- फायदा: हर बार नए प्रश्न बनते हैं (लीक की समस्या नहीं), अभ्यास संभव
- विडंबना: AI चीटिंग का AI समाधान
- यह शिक्षा मूल्यांकन में बदलाव की संभावना भी दिखाता है, और इसकी सीमाएँ भी उजागर करता है
अभी कोई टिप्पणी नहीं है.