• Large Language Models (LLMs) के प्रसार के साथ पारंपरिक असाइनमेंट और परीक्षाएँ सीखने की वास्तविक समझ को मापने में विफल होने लगीं, इसलिए शिक्षकों ने ElevenLabs voice AI का उपयोग कर real-time मौखिक परीक्षा लागू करके प्रयोग किया
  • परीक्षा दो भागों में बनी थी: प्रोजेक्ट की व्याख्या और case-based प्रश्न, जिनमें छात्रों को सीधे AI को अपने निर्णय का आधार और सोचने की प्रक्रिया समझानी होती थी
  • Claude·Gemini·ChatGPT तीनों मॉडलों ने council-style grading के जरिए अंक दिए, जिससे consistency और feedback quality बेहतर हुई, और वास्तविक पाठ्यक्रम का कमजोर विषय (experimental design) भी सामने आया
  • 36 छात्रों का 9 दिनों में, औसतन 25 मिनट प्रति छात्र मूल्यांकन किया गया, और प्रति छात्र लागत 0.42 डॉलर रही, जो बेहद कम थी
  • AI मौखिक परीक्षा समझ-केंद्रित मूल्यांकन को स्केलेबल बनाने वाला एक नया परीक्षा मॉडल बन सकती है

समस्या की पहचान और मौखिक परीक्षा शुरू करने की पृष्ठभूमि

  • छात्र असाइनमेंट की गुणवत्ता असामान्य रूप से ऊँची दिखी, जिससे AI द्वारा लिखे जाने का संदेह उठा, और random questioning में कई छात्र अपनी बात स्वयं समझा नहीं सके
  • LLM accessibility के कारण पारंपरिक असाइनमेंट और परीक्षाओं की विश्वसनीयता टूटने लगी, इसलिए real-time reasoning को परख सकने वाली मौखिक परीक्षा एक विकल्प के रूप में उभरी
  • लेकिन मौखिक परीक्षा की सीमा यह थी कि इसे बड़े पैमाने पर चलाना संभव नहीं था, इसलिए इसका समाधान करने के लिए voice AI agents का उपयोग किया गया

ElevenLabs-आधारित voice agent संरचना

  • ElevenLabs Conversational AI का उपयोग करके speech recognition, speech synthesis, turn management जैसे जटिल तत्वों को एकीकृत किया गया
  • Dynamic variables के जरिए छात्र का नाम और प्रोजेक्ट जानकारी दी गई, और workflow structure के माध्यम से authentication, project, और case-question agents को अलग किया गया
    • authentication agent: छात्र ID की पुष्टि
    • project agent: जमा सामग्री के आधार पर प्रश्न
    • case agent: random case चुनकर प्रश्न
  • कई छोटे agents में विभाजित करने से conversation derailment को रोकने और debugging को आसान बनाने में मदद मिली

परीक्षा संचालन और संख्यात्मक परिणाम

  • कुल 36 छात्र, 9 दिनों तक, औसतन 25 मिनट (न्यूनतम 9 मिनट~अधिकतम 64 मिनट)
  • औसतन 65 message exchanges, कुल लागत 15 डॉलर (प्रति छात्र 0.42 डॉलर)
  • LLM grading results का 89% 1 अंक के भीतर मेल खाता था, और सबसे छोटी परीक्षा (9 मिनट) में सबसे अधिक अंक (19/20) मिले
  • मानव मूल्यांकन की तुलना में 50 गुना से अधिक लागत में कमी, साथ ही real-time evaluation, recording, और feedback automation हासिल हुआ

ट्रायल-एंड-एरर और सुधारात्मक कदम

  • छात्रों की प्रतिक्रिया: voice tone बहुत intimidating थी → अलग-अलग आवाज़ों का A/B testing करने की योजना
  • questions stack होने की समस्या → “एक समय में एक प्रश्न” नियम जोड़ा गया
  • प्रश्न दोहराने पर अर्थ बदल जाना → “वाक्य को ज्यों का त्यों दोहराओ” स्पष्ट किया गया
  • सोचने के लिए समय कम → wait time को 10 सेकंड तक बढ़ाया गया
  • random case selection विफल → code level पर random mapping से समाधान

LLM council grading

  • Claude·Gemini·ChatGPT ने स्वतंत्र रूप से grading की, फिर एक-दूसरे की समीक्षा और संशोधन किया
  • पहली grading में mismatch दर अधिक थी, लेकिन दूसरी round की चर्चा के बाद 1 अंक के भीतर agreement rate 62% → 85% हो गया
  • Gemini ने औसतन 2 अंक कम करके समायोजन किया, और Claude·OpenAI के बीच consistency अधिक थी
  • experimental design सेक्शन में grading mismatch सबसे अधिक था, जिसका कारण छात्रों के उत्तरों की अस्पष्टता माना गया
  • AI grading मानव से अधिक सख्त लेकिन निष्पक्ष थी, और feedback विशिष्ट और action-oriented होने के कारण बेहतर था

शैक्षिक अंतर्दृष्टि और निदान

  • विषयवार उपलब्धि विश्लेषण में experimental design का औसत 1.94/4 रहा, जो सबसे कम था
    • 0 अंक 8%, 1 अंक 19%, 2 अंक 42%, 4 अंक 0%
  • पाठ्यक्रम में A/B testing की अपर्याप्त व्याख्या इसका कारण निकली, जिससे शिक्षकों के लिए शिक्षण-सुधार की आवश्यकता स्पष्ट हुई
  • परीक्षा समय और अंक के बीच कोई संबंध नहीं था (r=-0.03), जबकि छोटे और स्पष्ट उत्तर ऊँचे अंकों से जुड़े दिखे

नकल-रोध और पारदर्शिता

  • छात्रों के लिए webcam और audio recording अनिवार्य की गई ताकि बाहरी मदद रोकी जा सके
  • परीक्षा संरचना और प्रश्न प्रकारों को public guidelines के रूप में चलाया गया, जिससे प्रश्न लीक होने का जोखिम खत्म हुआ
  • छात्र उसी संरचना के साथ बार-बार अभ्यास कर सकते थे, जिससे वास्तविक learning effect मजबूत हुआ

छात्रों की प्रतिक्रिया

  • केवल 13% ने AI मौखिक परीक्षा को पसंद किया, 57% ने पारंपरिक लिखित परीक्षा को प्राथमिकता दी, और 83% ने कहा कि यह अधिक stressful थी
  • फिर भी 70% ने माना कि इसने वास्तविक समझ का अच्छा मूल्यांकन किया, यानी परीक्षा की विश्वसनीयता ऊँची रही
  • समय और स्थान की लचीली स्वतंत्रता को सकारात्मक रूप से देखा गया
  • सुधार की माँग: धीमी गति, शांत आवाज़, एक-प्रश्न-प्रति-बार तरीका

आगे के सुधार की योजना

  • speed control और voice diversity, छात्र submissions पर आधारित RAG questioning, explicit random seed से cases का वितरण
  • LLM grading mismatch होने पर human review trigger लागू करना
  • accessibility सुधार: practice mode, अतिरिक्त समय, और वैकल्पिक साधन

निष्कर्ष: AI के साथ स्केलेबल समझ-केंद्रित मूल्यांकन

  • असाइनमेंट-आधारित और लिखित परीक्षाएँ LLM युग में कमजोर पड़ चुकी हैं, इसलिए real-time reasoning assessment की ओर बदलाव ज़रूरी है
  • AI मौखिक परीक्षा समझ, निर्णय और तात्कालिक सोच को मापती है, और बड़े पैमाने पर चल सकने वाला नया मूल्यांकन तरीका हो सकती है
  • प्रश्न लीक होने के जोखिम के बिना दोहराए गए अभ्यास से सीखने को मजबूत किया जा सकता है
  • “Fight fire with fire” — AI से पैदा हुई समस्या का समाधान AI से करने वाला मूल्यांकन नवाचार

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.