प्रति छात्र 42 सेंट में AI चीटिंग पकड़ना: NYU प्रोफेसर का AI मौखिक परीक्षा प्रयोग

davespark · 2026-01-08T11:27:53+09:00

NYU प्रोफेसर का AI मौखिक परीक्षा प्रयोग पृष्ठभूमि AI युग में पारंपरिक असाइनमेंट मूल्यांकन की सीमाएँ: छात्र AI से असाइनमेंट पूरी तरह लिखवा लेते हैं, लेकिन वास्तविक समझ की कमी सामने आती है प्रोफेसर Panos Ipeirotis (NYU Stern School of Business): AI से AI-आधारित चीटिंग का मुकाबला करने वाला उल्टा प्रयोग प्रयोग का सार कक्षा: AI/ML product management प्रतिभागी: 36 छात्र तरीका: ElevenLabs voice AI agent का उपयोग कर मौखिक परीक्षा सामग्री: छात्र प्रोजेक्ट पर प्रश्न + कक्षा के case study पर प्रश्न अवधि: 9 दिन, प्रति छात्र औसतन 25 मिनट कुल लागत: 15 डॉलर (प्रति छात्र 42 सेंट) Claude: 8 डॉलर, Gemini: 2 डॉलर, OpenAI: 30 सेंट, ElevenLabs: 5 डॉलर लागत तुलना AI परीक्षा: 15 डॉलर मानव मूल्यांकन: 750 डॉलर (36 छात्र × 25 मिनट × 2 लोग × 25 डॉलर/घंटा) फायदा: बड़े पैमाने की कक्षाओं में मौखिक परीक्षा संभव शुरुआती समस्याएँ agent का टोन: सख्त और घमंडी महसूस हुआ (छात्र शिकायत: "चिल्लाया") व्यवहार संबंधी समस्या: एक साथ कई प्रश्न, दोहराव पर प्रश्नों को फिर से गढ़ना, जल्दी बीच में टोकना randomness bias: "random selection" निर्देश के बावजूद एक खास case (Zillow 88%) की ओर झुकाव कारण: LLM training data में मौजूद मानवीय bias का प्रतिबिंब मूल्यांकन पद्धति तरीका: Andrej Karpathy का "Council of LLMs" लागू Claude, Gemini, ChatGPT ने स्वतंत्र मूल्यांकन किया → एक-दूसरे की समीक्षा की → संशोधन किया परिणाम: शुरुआती score में बड़ा अंतर था (Gemini 17 अंक vs Claude 13.4 अंक), लेकिन समीक्षा के बाद 60% परिणाम 1 अंक के भीतर सिमट गए feedback की गुणवत्ता: AI मानव से बेहतर निकला (structured summary + direct quotes) पता चली बातें विषयवार अंतर: "experiment" विषय में कमजोरी (औसत 1.94/4 अंक) → प्रोफेसर ने teaching method की समस्या मानी (A/B testing पर कम ध्यान) परीक्षा की लंबाई और grade: कोई संबंध नहीं (सबसे छोटी 9 मिनट की परीक्षा में सबसे ऊँचा score, सबसे लंबी 64 मिनट की परीक्षा में औसत परिणाम) छात्र प्रतिक्रिया AI फ़ॉर्मैट की पसंद: 13% (मानव की तुलना में पसंद 2 गुना कम) तनाव: 83% अधिक निष्पक्षता: 70% ने माना कि यह वास्तविक समझ का मूल्यांकन करता है (सबसे ऊँची रेटिंग वाला बिंदु) निष्कर्ष AI मौखिक परीक्षा: scalable, सस्ती और निष्पक्ष फायदा: हर बार नए प्रश्न बनते हैं (लीक की समस्या नहीं), अभ्यास संभव विडंबना: AI चीटिंग का AI समाधान यह शिक्षा मूल्यांकन में बदलाव की संभावना भी दिखाता है, और इसकी सीमाएँ भी उजागर करता है

NYU प्रोफेसर का AI मौखिक परीक्षा प्रयोग

पृष्ठभूमि

AI युग में पारंपरिक असाइनमेंट मूल्यांकन की सीमाएँ: छात्र AI से असाइनमेंट पूरी तरह लिखवा लेते हैं, लेकिन वास्तविक समझ की कमी सामने आती है
प्रोफेसर Panos Ipeirotis (NYU Stern School of Business): AI से AI-आधारित चीटिंग का मुकाबला करने वाला उल्टा प्रयोग

प्रयोग का सार

कक्षा: AI/ML product management
प्रतिभागी: 36 छात्र
तरीका: ElevenLabs voice AI agent का उपयोग कर मौखिक परीक्षा
सामग्री: छात्र प्रोजेक्ट पर प्रश्न + कक्षा के case study पर प्रश्न
अवधि: 9 दिन, प्रति छात्र औसतन 25 मिनट
कुल लागत: 15 डॉलर (प्रति छात्र 42 सेंट)
- Claude: 8 डॉलर, Gemini: 2 डॉलर, OpenAI: 30 सेंट, ElevenLabs: 5 डॉलर

लागत तुलना

AI परीक्षा: 15 डॉलर
मानव मूल्यांकन: 750 डॉलर (36 छात्र × 25 मिनट × 2 लोग × 25 डॉलर/घंटा)
फायदा: बड़े पैमाने की कक्षाओं में मौखिक परीक्षा संभव

शुरुआती समस्याएँ

agent का टोन: सख्त और घमंडी महसूस हुआ (छात्र शिकायत: "चिल्लाया")
व्यवहार संबंधी समस्या: एक साथ कई प्रश्न, दोहराव पर प्रश्नों को फिर से गढ़ना, जल्दी बीच में टोकना
randomness bias: "random selection" निर्देश के बावजूद एक खास case (Zillow 88%) की ओर झुकाव
- कारण: LLM training data में मौजूद मानवीय bias का प्रतिबिंब

मूल्यांकन पद्धति

तरीका: Andrej Karpathy का "Council of LLMs" लागू
- Claude, Gemini, ChatGPT ने स्वतंत्र मूल्यांकन किया → एक-दूसरे की समीक्षा की → संशोधन किया
परिणाम: शुरुआती score में बड़ा अंतर था (Gemini 17 अंक vs Claude 13.4 अंक), लेकिन समीक्षा के बाद 60% परिणाम 1 अंक के भीतर सिमट गए
feedback की गुणवत्ता: AI मानव से बेहतर निकला (structured summary + direct quotes)

पता चली बातें

विषयवार अंतर: "experiment" विषय में कमजोरी (औसत 1.94/4 अंक) → प्रोफेसर ने teaching method की समस्या मानी (A/B testing पर कम ध्यान)
परीक्षा की लंबाई और grade: कोई संबंध नहीं (सबसे छोटी 9 मिनट की परीक्षा में सबसे ऊँचा score, सबसे लंबी 64 मिनट की परीक्षा में औसत परिणाम)

छात्र प्रतिक्रिया

AI फ़ॉर्मैट की पसंद: 13% (मानव की तुलना में पसंद 2 गुना कम)
तनाव: 83% अधिक
निष्पक्षता: 70% ने माना कि यह वास्तविक समझ का मूल्यांकन करता है (सबसे ऊँची रेटिंग वाला बिंदु)

निष्कर्ष

AI मौखिक परीक्षा: scalable, सस्ती और निष्पक्ष
फायदा: हर बार नए प्रश्न बनते हैं (लीक की समस्या नहीं), अभ्यास संभव
विडंबना: AI चीटिंग का AI समाधान
यह शिक्षा मूल्यांकन में बदलाव की संभावना भी दिखाता है, और इसकी सीमाएँ भी उजागर करता है

प्रति छात्र 42 सेंट में AI चीटिंग पकड़ना: NYU प्रोफेसर का AI मौखिक परीक्षा प्रयोग

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.