NYU प्रोफेसर का AI मौखिक परीक्षा प्रयोग

पृष्ठभूमि

  • AI युग में पारंपरिक असाइनमेंट मूल्यांकन की सीमाएँ: छात्र AI से असाइनमेंट पूरी तरह लिखवा लेते हैं, लेकिन वास्तविक समझ की कमी सामने आती है
  • प्रोफेसर Panos Ipeirotis (NYU Stern School of Business): AI से AI-आधारित चीटिंग का मुकाबला करने वाला उल्टा प्रयोग

प्रयोग का सार

  • कक्षा: AI/ML product management
  • प्रतिभागी: 36 छात्र
  • तरीका: ElevenLabs voice AI agent का उपयोग कर मौखिक परीक्षा
  • सामग्री: छात्र प्रोजेक्ट पर प्रश्न + कक्षा के case study पर प्रश्न
  • अवधि: 9 दिन, प्रति छात्र औसतन 25 मिनट
  • कुल लागत: 15 डॉलर (प्रति छात्र 42 सेंट)
    • Claude: 8 डॉलर, Gemini: 2 डॉलर, OpenAI: 30 सेंट, ElevenLabs: 5 डॉलर

लागत तुलना

  • AI परीक्षा: 15 डॉलर
  • मानव मूल्यांकन: 750 डॉलर (36 छात्र × 25 मिनट × 2 लोग × 25 डॉलर/घंटा)
  • फायदा: बड़े पैमाने की कक्षाओं में मौखिक परीक्षा संभव

शुरुआती समस्याएँ

  • agent का टोन: सख्त और घमंडी महसूस हुआ (छात्र शिकायत: "चिल्लाया")
  • व्यवहार संबंधी समस्या: एक साथ कई प्रश्न, दोहराव पर प्रश्नों को फिर से गढ़ना, जल्दी बीच में टोकना
  • randomness bias: "random selection" निर्देश के बावजूद एक खास case (Zillow 88%) की ओर झुकाव
    • कारण: LLM training data में मौजूद मानवीय bias का प्रतिबिंब

मूल्यांकन पद्धति

  • तरीका: Andrej Karpathy का "Council of LLMs" लागू
    • Claude, Gemini, ChatGPT ने स्वतंत्र मूल्यांकन किया → एक-दूसरे की समीक्षा की → संशोधन किया
  • परिणाम: शुरुआती score में बड़ा अंतर था (Gemini 17 अंक vs Claude 13.4 अंक), लेकिन समीक्षा के बाद 60% परिणाम 1 अंक के भीतर सिमट गए
  • feedback की गुणवत्ता: AI मानव से बेहतर निकला (structured summary + direct quotes)

पता चली बातें

  • विषयवार अंतर: "experiment" विषय में कमजोरी (औसत 1.94/4 अंक) → प्रोफेसर ने teaching method की समस्या मानी (A/B testing पर कम ध्यान)
  • परीक्षा की लंबाई और grade: कोई संबंध नहीं (सबसे छोटी 9 मिनट की परीक्षा में सबसे ऊँचा score, सबसे लंबी 64 मिनट की परीक्षा में औसत परिणाम)

छात्र प्रतिक्रिया

  • AI फ़ॉर्मैट की पसंद: 13% (मानव की तुलना में पसंद 2 गुना कम)
  • तनाव: 83% अधिक
  • निष्पक्षता: 70% ने माना कि यह वास्तविक समझ का मूल्यांकन करता है (सबसे ऊँची रेटिंग वाला बिंदु)

निष्कर्ष

  • AI मौखिक परीक्षा: scalable, सस्ती और निष्पक्ष
  • फायदा: हर बार नए प्रश्न बनते हैं (लीक की समस्या नहीं), अभ्यास संभव
  • विडंबना: AI चीटिंग का AI समाधान
  • यह शिक्षा मूल्यांकन में बदलाव की संभावना भी दिखाता है, और इसकी सीमाएँ भी उजागर करता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.