जैसे को तैसा: AI voice agents का उपयोग करके मौखिक परीक्षाओं को स्केल करना
(behind-the-enemy-lines.com)- Large Language Models (LLMs) के प्रसार के साथ पारंपरिक असाइनमेंट और परीक्षाएँ सीखने की वास्तविक समझ को मापने में विफल होने लगीं, इसलिए शिक्षकों ने ElevenLabs voice AI का उपयोग कर real-time मौखिक परीक्षा लागू करके प्रयोग किया
- परीक्षा दो भागों में बनी थी: प्रोजेक्ट की व्याख्या और case-based प्रश्न, जिनमें छात्रों को सीधे AI को अपने निर्णय का आधार और सोचने की प्रक्रिया समझानी होती थी
- Claude·Gemini·ChatGPT तीनों मॉडलों ने council-style grading के जरिए अंक दिए, जिससे consistency और feedback quality बेहतर हुई, और वास्तविक पाठ्यक्रम का कमजोर विषय (experimental design) भी सामने आया
- 36 छात्रों का 9 दिनों में, औसतन 25 मिनट प्रति छात्र मूल्यांकन किया गया, और प्रति छात्र लागत 0.42 डॉलर रही, जो बेहद कम थी
- AI मौखिक परीक्षा समझ-केंद्रित मूल्यांकन को स्केलेबल बनाने वाला एक नया परीक्षा मॉडल बन सकती है
समस्या की पहचान और मौखिक परीक्षा शुरू करने की पृष्ठभूमि
- छात्र असाइनमेंट की गुणवत्ता असामान्य रूप से ऊँची दिखी, जिससे AI द्वारा लिखे जाने का संदेह उठा, और random questioning में कई छात्र अपनी बात स्वयं समझा नहीं सके
- LLM accessibility के कारण पारंपरिक असाइनमेंट और परीक्षाओं की विश्वसनीयता टूटने लगी, इसलिए real-time reasoning को परख सकने वाली मौखिक परीक्षा एक विकल्प के रूप में उभरी
- लेकिन मौखिक परीक्षा की सीमा यह थी कि इसे बड़े पैमाने पर चलाना संभव नहीं था, इसलिए इसका समाधान करने के लिए voice AI agents का उपयोग किया गया
ElevenLabs-आधारित voice agent संरचना
- ElevenLabs Conversational AI का उपयोग करके speech recognition, speech synthesis, turn management जैसे जटिल तत्वों को एकीकृत किया गया
- Dynamic variables के जरिए छात्र का नाम और प्रोजेक्ट जानकारी दी गई, और workflow structure के माध्यम से authentication, project, और case-question agents को अलग किया गया
- authentication agent: छात्र ID की पुष्टि
- project agent: जमा सामग्री के आधार पर प्रश्न
- case agent: random case चुनकर प्रश्न
- कई छोटे agents में विभाजित करने से conversation derailment को रोकने और debugging को आसान बनाने में मदद मिली
परीक्षा संचालन और संख्यात्मक परिणाम
- कुल 36 छात्र, 9 दिनों तक, औसतन 25 मिनट (न्यूनतम 9 मिनट~अधिकतम 64 मिनट)
- औसतन 65 message exchanges, कुल लागत 15 डॉलर (प्रति छात्र 0.42 डॉलर)
- LLM grading results का 89% 1 अंक के भीतर मेल खाता था, और सबसे छोटी परीक्षा (9 मिनट) में सबसे अधिक अंक (19/20) मिले
- मानव मूल्यांकन की तुलना में 50 गुना से अधिक लागत में कमी, साथ ही real-time evaluation, recording, और feedback automation हासिल हुआ
ट्रायल-एंड-एरर और सुधारात्मक कदम
- छात्रों की प्रतिक्रिया: voice tone बहुत intimidating थी → अलग-अलग आवाज़ों का A/B testing करने की योजना
- questions stack होने की समस्या → “एक समय में एक प्रश्न” नियम जोड़ा गया
- प्रश्न दोहराने पर अर्थ बदल जाना → “वाक्य को ज्यों का त्यों दोहराओ” स्पष्ट किया गया
- सोचने के लिए समय कम → wait time को 10 सेकंड तक बढ़ाया गया
- random case selection विफल → code level पर random mapping से समाधान
LLM council grading
- Claude·Gemini·ChatGPT ने स्वतंत्र रूप से grading की, फिर एक-दूसरे की समीक्षा और संशोधन किया
- पहली grading में mismatch दर अधिक थी, लेकिन दूसरी round की चर्चा के बाद 1 अंक के भीतर agreement rate 62% → 85% हो गया
- Gemini ने औसतन 2 अंक कम करके समायोजन किया, और Claude·OpenAI के बीच consistency अधिक थी
- experimental design सेक्शन में grading mismatch सबसे अधिक था, जिसका कारण छात्रों के उत्तरों की अस्पष्टता माना गया
- AI grading मानव से अधिक सख्त लेकिन निष्पक्ष थी, और feedback विशिष्ट और action-oriented होने के कारण बेहतर था
शैक्षिक अंतर्दृष्टि और निदान
- विषयवार उपलब्धि विश्लेषण में experimental design का औसत 1.94/4 रहा, जो सबसे कम था
- 0 अंक 8%, 1 अंक 19%, 2 अंक 42%, 4 अंक 0%
- पाठ्यक्रम में A/B testing की अपर्याप्त व्याख्या इसका कारण निकली, जिससे शिक्षकों के लिए शिक्षण-सुधार की आवश्यकता स्पष्ट हुई
- परीक्षा समय और अंक के बीच कोई संबंध नहीं था (r=-0.03), जबकि छोटे और स्पष्ट उत्तर ऊँचे अंकों से जुड़े दिखे
नकल-रोध और पारदर्शिता
- छात्रों के लिए webcam और audio recording अनिवार्य की गई ताकि बाहरी मदद रोकी जा सके
- परीक्षा संरचना और प्रश्न प्रकारों को public guidelines के रूप में चलाया गया, जिससे प्रश्न लीक होने का जोखिम खत्म हुआ
- छात्र उसी संरचना के साथ बार-बार अभ्यास कर सकते थे, जिससे वास्तविक learning effect मजबूत हुआ
छात्रों की प्रतिक्रिया
- केवल 13% ने AI मौखिक परीक्षा को पसंद किया, 57% ने पारंपरिक लिखित परीक्षा को प्राथमिकता दी, और 83% ने कहा कि यह अधिक stressful थी
- फिर भी 70% ने माना कि इसने वास्तविक समझ का अच्छा मूल्यांकन किया, यानी परीक्षा की विश्वसनीयता ऊँची रही
- समय और स्थान की लचीली स्वतंत्रता को सकारात्मक रूप से देखा गया
- सुधार की माँग: धीमी गति, शांत आवाज़, एक-प्रश्न-प्रति-बार तरीका
आगे के सुधार की योजना
- speed control और voice diversity, छात्र submissions पर आधारित RAG questioning, explicit random seed से cases का वितरण
- LLM grading mismatch होने पर human review trigger लागू करना
- accessibility सुधार: practice mode, अतिरिक्त समय, और वैकल्पिक साधन
निष्कर्ष: AI के साथ स्केलेबल समझ-केंद्रित मूल्यांकन
- असाइनमेंट-आधारित और लिखित परीक्षाएँ LLM युग में कमजोर पड़ चुकी हैं, इसलिए real-time reasoning assessment की ओर बदलाव ज़रूरी है
- AI मौखिक परीक्षा समझ, निर्णय और तात्कालिक सोच को मापती है, और बड़े पैमाने पर चल सकने वाला नया मूल्यांकन तरीका हो सकती है
- प्रश्न लीक होने के जोखिम के बिना दोहराए गए अभ्यास से सीखने को मजबूत किया जा सकता है
- “Fight fire with fire” — AI से पैदा हुई समस्या का समाधान AI से करने वाला मूल्यांकन नवाचार
1 टिप्पणियां
Hacker News की राय
मुझे लगता है कि लेख में दिए गए डेटा और निष्कर्ष आपस में मेल नहीं खाते
AI से बातचीत करने के बाद भी छात्र अब भी लिखित परीक्षा को ही पसंद करते थे
विश्वविद्यालय सदियों से नकल रोकते हुए लिखित परीक्षाएँ चलाते आए हैं, और COVID के बाद उन्होंने ऑनलाइन मूल्यांकन जैसा ‘चौकोर पहिया’ अपना लिया, लेकिन सच कहूँ तो फिर से गोल पहिए पर लौटना बेहतर होगा
LLM मूल्यांकन की सटीकता को सत्यापित भी नहीं किया गया। कुल मिलाकर ऐसा लगा जैसे निष्कर्ष पहले से तय था और डेटा को उसी के हिसाब से फिट किया गया
‘Take-home परीक्षा खत्म हो चुकी है’ एक स्पष्ट तथ्य जैसा कथन है, प्रयोग का परिणाम नहीं
आजकल अकेले भी नकल करना बहुत आसान हो गया है
और अलग-अलग अकादमिक क्षेत्रों में मूल्यांकन के तरीके भी अलग होने चाहिए; computer science जैसे नए क्षेत्रों में अभी मूल्यांकन की परिपक्वता कम है
अंत में, छात्रों की पसंद परीक्षा की गुणवत्ता तय करने का मानदंड नहीं है
वास्तविक दुनिया में अक्सर लोगों के सामने अपने निर्णय के आधार की व्याख्या करनी पड़ती है
COVID के दौर में आमने-सामने के अनुभव कम पाने वाली पीढ़ी के लिए बोलने से डरना समझ में आता है, लेकिन ऐसी घबराहट पर काबू पाने की ट्रेनिंग उलटे मददगार हो सकती है
Take-home परीक्षा में नकल की संभावना बढ़ जाने के कारण, मौखिक परीक्षा भले ही परफेक्ट न हो, फिर भी बेहतर विकल्प हो सकती है
पहले हर परीक्षा ऐसी होती थी जिसमें AI के दखल की कोई गुंजाइश ही नहीं थी
लोग पेन से हाथ से लिखते थे, और निरीक्षकों की निगरानी वाले जिमनैज़ियम में परीक्षा देते थे
नकल का मतलब सीधा निष्कासन था, और हज़ारों में से सिर्फ़ 1% ही ग्रेजुएट होते थे
अब जब लोग AI के हिसाब से परीक्षाएँ बदलने की बात करते हैं, तो यह पागलपन लगता है। समाधान पहले से मौजूद था
आख़िरकार यह पूरी ज़िम्मेदारी छात्रों पर डालने वाली संरचना थी, और प्रोफेसरों की आलस व पुराने परीक्षा प्रश्नों का दोबारा इस्तेमाल ही समस्या थे
असली समाधान है हर बार नए सवाल बनाना और विविध तरीके से परीक्षा लेना
मुझे तो लगता है कि स्कूल द्वारा उपलब्ध कराए गए development environment वाले कंप्यूटर पर परीक्षा देना बेहतर होगा
अगर यह सही है, तो scalable मौखिक परीक्षा पद्धति खोजना सार्थक है
Scalability को लेकर ज़रूरत से ज़्यादा आसक्त होने की आवश्यकता नहीं है
विश्वविद्यालयों के पास पैसा है, तो प्रोफेसर खुद मौखिक परीक्षा ले सकते हैं
जर्मनी के graduate school में भी मौखिक परीक्षाएँ आम थीं, और वे अच्छी तरह काम करती थीं
AI पर निर्भर होना आलस का प्रतीक लगता है
AI दोहराए जाने वाले कामों में अच्छा है, लेकिन विरोधी या टकराव वाली स्थितियों में उस पर भरोसा करना मुश्किल है
मैंने भी undergraduate के दौरान मौखिक परीक्षा दी थी, और प्रोफेसर के रवैये में बदलाव इतना अधिक होता था कि तनाव बहुत बढ़ जाता था
AI क्या वैसा भावनात्मक दबाव बना पाएगा, इस पर संदेह है
बल्कि मुझे तो AI की छोटी-छोटी गलतियों पर चिढ़ होती है
लेकिन ऐसे हालात में मेरा दिमाग़ सुन्न हो जाता है और मैं कुछ बोल ही नहीं पाता। यह सच में पीड़ादायक है
पहले भर्ती प्रक्रिया में हम Take-home assignment दिया करते थे, लेकिन कुछ उम्मीदवार अपने जमा किए गए code को समझा ही नहीं पाते थे
अब LLM आने के बाद AI से लिखवा लेने का लालच कहीं अधिक बढ़ गया है
लेकिन हमें उम्मीदवार की problem-solving क्षमता और communication skill का मूल्यांकन करना चाहिए
LLM की अनुमति देने वाला इंटरव्यू अंततः “AI इस्तेमाल करने की दक्षता की परीक्षा” बनकर रह जाता है
मैं लेख में बताए गए तरीके से सहमत नहीं हूँ, लेकिन समस्या की पहचान अपने-आप में वास्तविक है
अगला कदम शायद यह हो कि AI से आवाज़ में जवाब देने वाले AI की जगह जवाब दिलाया जाए
अंततः इंसान को फिर से केंद्र में आना होगा
आगे smart glasses, bone-conduction mic जैसी चीज़ों से यह और चालाक हो जाएगा
अंत में नुकसान सिर्फ़ ईमानदार लेकिन social anxiety वाले छात्रों का होगा
सेमेस्टर के दौरान स्वैच्छिक mock मौखिक परीक्षा चलाना अच्छा विचार हो सकता है
इससे छात्र प्रारूप के अभ्यस्त हो जाएँगे और आवाज़ के टोन के साथ भी सहज हो सकेंगे
लगभग 36 छात्रों के लिए मौखिक परीक्षा असंभव है, यह बात मुझे हैरान करती है
इसी तरह की दोहराव वाली पढ़ाई ही असली सीखने का तरीका है
$25 वापस मिल जाए लेकिन LLM मेरे लिए परीक्षा ले, यह मुझे बिल्कुल मंज़ूर नहीं
अगर सिर्फ़ कुछ छात्रों को नमूने के तौर पर चुना जाए, तो यह प्रेरणा भी दे सकता है और हताशा भी पैदा कर सकता है
कम-से-कम top students के साथ 10 मिनट की बातचीत वाली मौखिक परीक्षा तो आसानी से संभव है
AI voice app द्वारा पूछताछ किए जाने का विचार ही डरावना है
अगर यह तरीका जारी रहता है, तो शायद बिना मूल्यांकन वाली शिक्षा पद्धति की ज़रूरत पड़ जाए
इंसान के सामने जो बातें मैं कभी नहीं कहता, वे भी आसानी से कह दीं
मैं ही उस ब्लॉग पोस्ट का लेखक हूँ
हमने अपनी AI कक्षा में बस एक नया प्रयोग किया था
हमारा उद्देश्य लिखित परीक्षा हटाना नहीं, बल्कि मौखिक परीक्षा को एक और उपकरण के रूप में जोड़ना था
मकसद यह देखना था कि team project में छात्र ने वास्तव में अपने काम को समझा भी है या नहीं
जिन छात्रों को मौखिक परीक्षा में कम अंक मिले, उनकी project understanding वास्तव में कम थी, जैसा अपेक्षित था
36 छात्रों के स्तर पर सीधे इंटरव्यू संभव हैं, लेकिन 100 से अधिक छात्रों पर यह कठिन हो जाता है
सबसे बढ़कर, AI थकता नहीं है, इसलिए वह अधिक सुसंगत मूल्यांकन दे सकता है—ऐसा शोध में पाया गया था। इसी कारण मैंने उस पर भरोसा किया
यह gym में forklift इस्तेमाल करने जैसा है
MBA स्तर के साधारण विषयों में शायद चल जाए, लेकिन सूक्ष्म निर्णय की आवश्यकता वाले विषयों में AI निष्पक्ष नहीं है
ऐसे साधारण सत्यापन वाले टेस्ट के लिए तो मुझे kiosk पर multiple-choice परीक्षा ज़्यादा उचित लगती है
हमारे समय में हर परीक्षा मौखिक होती थी
बड़ी परीक्षाएँ दो-दो दिन चलती थीं, लेकिन प्रोफेसर और TA साल में 6 सत्र चलाते थे
एक कारण निष्पक्षता की सांस्कृतिक व्याख्या में अंतर था
अधिक विविधता वाले वातावरण में मौखिक परीक्षा bias को लेकर विवाद पैदा कर सकती है
अगर वे AI से $5 में मूल्यांकन करा सकते हों और 20 घंटे mobile scroll करते हुए बिता सकते हों, तो वे वही चुनेंगे