2 पॉइंट द्वारा GN⁺ 2026-01-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Large Language Models (LLMs) के प्रसार के साथ पारंपरिक असाइनमेंट और परीक्षाएँ सीखने की वास्तविक समझ को मापने में विफल होने लगीं, इसलिए शिक्षकों ने ElevenLabs voice AI का उपयोग कर real-time मौखिक परीक्षा लागू करके प्रयोग किया
  • परीक्षा दो भागों में बनी थी: प्रोजेक्ट की व्याख्या और case-based प्रश्न, जिनमें छात्रों को सीधे AI को अपने निर्णय का आधार और सोचने की प्रक्रिया समझानी होती थी
  • Claude·Gemini·ChatGPT तीनों मॉडलों ने council-style grading के जरिए अंक दिए, जिससे consistency और feedback quality बेहतर हुई, और वास्तविक पाठ्यक्रम का कमजोर विषय (experimental design) भी सामने आया
  • 36 छात्रों का 9 दिनों में, औसतन 25 मिनट प्रति छात्र मूल्यांकन किया गया, और प्रति छात्र लागत 0.42 डॉलर रही, जो बेहद कम थी
  • AI मौखिक परीक्षा समझ-केंद्रित मूल्यांकन को स्केलेबल बनाने वाला एक नया परीक्षा मॉडल बन सकती है

समस्या की पहचान और मौखिक परीक्षा शुरू करने की पृष्ठभूमि

  • छात्र असाइनमेंट की गुणवत्ता असामान्य रूप से ऊँची दिखी, जिससे AI द्वारा लिखे जाने का संदेह उठा, और random questioning में कई छात्र अपनी बात स्वयं समझा नहीं सके
  • LLM accessibility के कारण पारंपरिक असाइनमेंट और परीक्षाओं की विश्वसनीयता टूटने लगी, इसलिए real-time reasoning को परख सकने वाली मौखिक परीक्षा एक विकल्प के रूप में उभरी
  • लेकिन मौखिक परीक्षा की सीमा यह थी कि इसे बड़े पैमाने पर चलाना संभव नहीं था, इसलिए इसका समाधान करने के लिए voice AI agents का उपयोग किया गया

ElevenLabs-आधारित voice agent संरचना

  • ElevenLabs Conversational AI का उपयोग करके speech recognition, speech synthesis, turn management जैसे जटिल तत्वों को एकीकृत किया गया
  • Dynamic variables के जरिए छात्र का नाम और प्रोजेक्ट जानकारी दी गई, और workflow structure के माध्यम से authentication, project, और case-question agents को अलग किया गया
    • authentication agent: छात्र ID की पुष्टि
    • project agent: जमा सामग्री के आधार पर प्रश्न
    • case agent: random case चुनकर प्रश्न
  • कई छोटे agents में विभाजित करने से conversation derailment को रोकने और debugging को आसान बनाने में मदद मिली

परीक्षा संचालन और संख्यात्मक परिणाम

  • कुल 36 छात्र, 9 दिनों तक, औसतन 25 मिनट (न्यूनतम 9 मिनट~अधिकतम 64 मिनट)
  • औसतन 65 message exchanges, कुल लागत 15 डॉलर (प्रति छात्र 0.42 डॉलर)
  • LLM grading results का 89% 1 अंक के भीतर मेल खाता था, और सबसे छोटी परीक्षा (9 मिनट) में सबसे अधिक अंक (19/20) मिले
  • मानव मूल्यांकन की तुलना में 50 गुना से अधिक लागत में कमी, साथ ही real-time evaluation, recording, और feedback automation हासिल हुआ

ट्रायल-एंड-एरर और सुधारात्मक कदम

  • छात्रों की प्रतिक्रिया: voice tone बहुत intimidating थी → अलग-अलग आवाज़ों का A/B testing करने की योजना
  • questions stack होने की समस्या → “एक समय में एक प्रश्न” नियम जोड़ा गया
  • प्रश्न दोहराने पर अर्थ बदल जाना → “वाक्य को ज्यों का त्यों दोहराओ” स्पष्ट किया गया
  • सोचने के लिए समय कम → wait time को 10 सेकंड तक बढ़ाया गया
  • random case selection विफल → code level पर random mapping से समाधान

LLM council grading

  • Claude·Gemini·ChatGPT ने स्वतंत्र रूप से grading की, फिर एक-दूसरे की समीक्षा और संशोधन किया
  • पहली grading में mismatch दर अधिक थी, लेकिन दूसरी round की चर्चा के बाद 1 अंक के भीतर agreement rate 62% → 85% हो गया
  • Gemini ने औसतन 2 अंक कम करके समायोजन किया, और Claude·OpenAI के बीच consistency अधिक थी
  • experimental design सेक्शन में grading mismatch सबसे अधिक था, जिसका कारण छात्रों के उत्तरों की अस्पष्टता माना गया
  • AI grading मानव से अधिक सख्त लेकिन निष्पक्ष थी, और feedback विशिष्ट और action-oriented होने के कारण बेहतर था

शैक्षिक अंतर्दृष्टि और निदान

  • विषयवार उपलब्धि विश्लेषण में experimental design का औसत 1.94/4 रहा, जो सबसे कम था
    • 0 अंक 8%, 1 अंक 19%, 2 अंक 42%, 4 अंक 0%
  • पाठ्यक्रम में A/B testing की अपर्याप्त व्याख्या इसका कारण निकली, जिससे शिक्षकों के लिए शिक्षण-सुधार की आवश्यकता स्पष्ट हुई
  • परीक्षा समय और अंक के बीच कोई संबंध नहीं था (r=-0.03), जबकि छोटे और स्पष्ट उत्तर ऊँचे अंकों से जुड़े दिखे

नकल-रोध और पारदर्शिता

  • छात्रों के लिए webcam और audio recording अनिवार्य की गई ताकि बाहरी मदद रोकी जा सके
  • परीक्षा संरचना और प्रश्न प्रकारों को public guidelines के रूप में चलाया गया, जिससे प्रश्न लीक होने का जोखिम खत्म हुआ
  • छात्र उसी संरचना के साथ बार-बार अभ्यास कर सकते थे, जिससे वास्तविक learning effect मजबूत हुआ

छात्रों की प्रतिक्रिया

  • केवल 13% ने AI मौखिक परीक्षा को पसंद किया, 57% ने पारंपरिक लिखित परीक्षा को प्राथमिकता दी, और 83% ने कहा कि यह अधिक stressful थी
  • फिर भी 70% ने माना कि इसने वास्तविक समझ का अच्छा मूल्यांकन किया, यानी परीक्षा की विश्वसनीयता ऊँची रही
  • समय और स्थान की लचीली स्वतंत्रता को सकारात्मक रूप से देखा गया
  • सुधार की माँग: धीमी गति, शांत आवाज़, एक-प्रश्न-प्रति-बार तरीका

आगे के सुधार की योजना

  • speed control और voice diversity, छात्र submissions पर आधारित RAG questioning, explicit random seed से cases का वितरण
  • LLM grading mismatch होने पर human review trigger लागू करना
  • accessibility सुधार: practice mode, अतिरिक्त समय, और वैकल्पिक साधन

निष्कर्ष: AI के साथ स्केलेबल समझ-केंद्रित मूल्यांकन

  • असाइनमेंट-आधारित और लिखित परीक्षाएँ LLM युग में कमजोर पड़ चुकी हैं, इसलिए real-time reasoning assessment की ओर बदलाव ज़रूरी है
  • AI मौखिक परीक्षा समझ, निर्णय और तात्कालिक सोच को मापती है, और बड़े पैमाने पर चल सकने वाला नया मूल्यांकन तरीका हो सकती है
  • प्रश्न लीक होने के जोखिम के बिना दोहराए गए अभ्यास से सीखने को मजबूत किया जा सकता है
  • “Fight fire with fire” — AI से पैदा हुई समस्या का समाधान AI से करने वाला मूल्यांकन नवाचार

1 टिप्पणियां

 
GN⁺ 2026-01-05
Hacker News की राय
  • मुझे लगता है कि लेख में दिए गए डेटा और निष्कर्ष आपस में मेल नहीं खाते
    AI से बातचीत करने के बाद भी छात्र अब भी लिखित परीक्षा को ही पसंद करते थे
    विश्वविद्यालय सदियों से नकल रोकते हुए लिखित परीक्षाएँ चलाते आए हैं, और COVID के बाद उन्होंने ऑनलाइन मूल्यांकन जैसा ‘चौकोर पहिया’ अपना लिया, लेकिन सच कहूँ तो फिर से गोल पहिए पर लौटना बेहतर होगा

    • प्रयोग के नतीजे साफ़ तौर पर अच्छे नहीं थे, फिर भी लेखक ने इसे “बहुत बड़ी सफलता” कहा, यह हैरान करने वाला है
      LLM मूल्यांकन की सटीकता को सत्यापित भी नहीं किया गया। कुल मिलाकर ऐसा लगा जैसे निष्कर्ष पहले से तय था और डेटा को उसी के हिसाब से फिट किया गया
    • उद्धृत वाक्य निष्कर्ष नहीं, सिर्फ़ एक दावा है
      ‘Take-home परीक्षा खत्म हो चुकी है’ एक स्पष्ट तथ्य जैसा कथन है, प्रयोग का परिणाम नहीं
      आजकल अकेले भी नकल करना बहुत आसान हो गया है
      और अलग-अलग अकादमिक क्षेत्रों में मूल्यांकन के तरीके भी अलग होने चाहिए; computer science जैसे नए क्षेत्रों में अभी मूल्यांकन की परिपक्वता कम है
      अंत में, छात्रों की पसंद परीक्षा की गुणवत्ता तय करने का मानदंड नहीं है
    • सिर्फ़ इसलिए कि छात्र लिखित परीक्षा पसंद करते हैं, यह नहीं मान लेना चाहिए कि वही सबसे अच्छा तरीका है
      वास्तविक दुनिया में अक्सर लोगों के सामने अपने निर्णय के आधार की व्याख्या करनी पड़ती है
      COVID के दौर में आमने-सामने के अनुभव कम पाने वाली पीढ़ी के लिए बोलने से डरना समझ में आता है, लेकिन ऐसी घबराहट पर काबू पाने की ट्रेनिंग उलटे मददगार हो सकती है
    • ऑनलाइन कक्षाओं में लिखित परीक्षा कठिन होती है
      Take-home परीक्षा में नकल की संभावना बढ़ जाने के कारण, मौखिक परीक्षा भले ही परफेक्ट न हो, फिर भी बेहतर विकल्प हो सकती है
    • छात्र और शिक्षक के बीच नकल-निगरानी की होड़ सदियों से चलती आ रही है
  • पहले हर परीक्षा ऐसी होती थी जिसमें AI के दखल की कोई गुंजाइश ही नहीं थी
    लोग पेन से हाथ से लिखते थे, और निरीक्षकों की निगरानी वाले जिमनैज़ियम में परीक्षा देते थे
    नकल का मतलब सीधा निष्कासन था, और हज़ारों में से सिर्फ़ 1% ही ग्रेजुएट होते थे
    अब जब लोग AI के हिसाब से परीक्षाएँ बदलने की बात करते हैं, तो यह पागलपन लगता है। समाधान पहले से मौजूद था

    • ऐसा सिस्टम जिसमे 99% छात्र फेल हो जाएँ, उस पर गर्व करने जैसी कोई बात नहीं है
      आख़िरकार यह पूरी ज़िम्मेदारी छात्रों पर डालने वाली संरचना थी, और प्रोफेसरों की आलसपुराने परीक्षा प्रश्नों का दोबारा इस्तेमाल ही समस्या थे
      असली समाधान है हर बार नए सवाल बनाना और विविध तरीके से परीक्षा लेना
    • क्या हाथ से C++ code लिखवाना सच में सबसे अच्छा मूल्यांकन तरीका है, इस पर संदेह है
      मुझे तो लगता है कि स्कूल द्वारा उपलब्ध कराए गए development environment वाले कंप्यूटर पर परीक्षा देना बेहतर होगा
    • कुछ लोग यह भी कहते हैं कि मौखिक परीक्षा समझ को परखने में बेहतर होती है
      अगर यह सही है, तो scalable मौखिक परीक्षा पद्धति खोजना सार्थक है
    • 99% फेल रेट पर यक़ीन करना मुश्किल है। ऐसी यूनिवर्सिटी बंद हो जानी चाहिए
  • Scalability को लेकर ज़रूरत से ज़्यादा आसक्त होने की आवश्यकता नहीं है
    विश्वविद्यालयों के पास पैसा है, तो प्रोफेसर खुद मौखिक परीक्षा ले सकते हैं
    जर्मनी के graduate school में भी मौखिक परीक्षाएँ आम थीं, और वे अच्छी तरह काम करती थीं

    • यूरोप में Matura या doctoral thesis defense जैसी मौखिक परीक्षाएँ सामान्य हैं
      AI पर निर्भर होना आलस का प्रतीक लगता है
      AI दोहराए जाने वाले कामों में अच्छा है, लेकिन विरोधी या टकराव वाली स्थितियों में उस पर भरोसा करना मुश्किल है
  • मैंने भी undergraduate के दौरान मौखिक परीक्षा दी थी, और प्रोफेसर के रवैये में बदलाव इतना अधिक होता था कि तनाव बहुत बढ़ जाता था
    AI क्या वैसा भावनात्मक दबाव बना पाएगा, इस पर संदेह है
    बल्कि मुझे तो AI की छोटी-छोटी गलतियों पर चिढ़ होती है

    • इटली में प्राथमिक विद्यालय से लेकर विश्वविद्यालय तक हर परीक्षा में मौखिक हिस्सा होता है
      लेकिन ऐसे हालात में मेरा दिमाग़ सुन्न हो जाता है और मैं कुछ बोल ही नहीं पाता। यह सच में पीड़ादायक है
  • पहले भर्ती प्रक्रिया में हम Take-home assignment दिया करते थे, लेकिन कुछ उम्मीदवार अपने जमा किए गए code को समझा ही नहीं पाते थे
    अब LLM आने के बाद AI से लिखवा लेने का लालच कहीं अधिक बढ़ गया है
    लेकिन हमें उम्मीदवार की problem-solving क्षमता और communication skill का मूल्यांकन करना चाहिए
    LLM की अनुमति देने वाला इंटरव्यू अंततः “AI इस्तेमाल करने की दक्षता की परीक्षा” बनकर रह जाता है
    मैं लेख में बताए गए तरीके से सहमत नहीं हूँ, लेकिन समस्या की पहचान अपने-आप में वास्तविक है

    • “synthetic pronouns” अभिव्यक्ति दिलचस्प लगी
  • अगला कदम शायद यह हो कि AI से आवाज़ में जवाब देने वाले AI की जगह जवाब दिलाया जाए
    अंततः इंसान को फिर से केंद्र में आना होगा

    • पहले से ही सिर्फ़ teleprompter के सहारे धोखा देना काफ़ी है
      आगे smart glasses, bone-conduction mic जैसी चीज़ों से यह और चालाक हो जाएगा
      अंत में नुकसान सिर्फ़ ईमानदार लेकिन social anxiety वाले छात्रों का होगा
    • अगर परीक्षा की जगह दर्जनों phone booth जैसे केबिनों से भर जाए, तो वह दफ़्तर के cubicle से भी ज़्यादा डरावनी लगेगी
  • सेमेस्टर के दौरान स्वैच्छिक mock मौखिक परीक्षा चलाना अच्छा विचार हो सकता है
    इससे छात्र प्रारूप के अभ्यस्त हो जाएँगे और आवाज़ के टोन के साथ भी सहज हो सकेंगे
    लगभग 36 छात्रों के लिए मौखिक परीक्षा असंभव है, यह बात मुझे हैरान करती है

    • लेख के अंत में बताए गए अनुसार, AI हर बार नए प्रश्न उत्पन्न कर सकता है, इसलिए लीक की चिंता के बिना अभ्यास संभव है
      इसी तरह की दोहराव वाली पढ़ाई ही असली सीखने का तरीका है
    • अगर एक TA को प्रति घंटा $25 मिलता है, तो मौखिक परीक्षा पूरी तरह संभव है
      $25 वापस मिल जाए लेकिन LLM मेरे लिए परीक्षा ले, यह मुझे बिल्कुल मंज़ूर नहीं
    • प्राग की Charles University में 200 से अधिक छात्रों की भी मौखिक परीक्षा हुई है
    • यह मौखिक परीक्षा की गहराई और आवृत्ति पर निर्भर करता है
      अगर सिर्फ़ कुछ छात्रों को नमूने के तौर पर चुना जाए, तो यह प्रेरणा भी दे सकता है और हताशा भी पैदा कर सकता है
    • आखिर यह पैसा बचाने के लिए chatbot से परीक्षा बदलने का विचार ही तो है
      कम-से-कम top students के साथ 10 मिनट की बातचीत वाली मौखिक परीक्षा तो आसानी से संभव है
  • AI voice app द्वारा पूछताछ किए जाने का विचार ही डरावना है
    अगर यह तरीका जारी रहता है, तो शायद बिना मूल्यांकन वाली शिक्षा पद्धति की ज़रूरत पड़ जाए

    • अंततः फिर से हस्तलिखित परीक्षा पर लौटना ही सबसे व्यावहारिक समाधान हो सकता है
    • मैंने भी हाल ही में AI interview दिया, और AI से झूठ बोलने पर कोई अपराधबोध नहीं हुआ
      इंसान के सामने जो बातें मैं कभी नहीं कहता, वे भी आसानी से कह दीं
    • अगर परीक्षाएँ पूरी तरह खत्म हो जाएँ, तो सीखने की प्रेरणा टिकाए रखना मुश्किल होगा
  • मैं ही उस ब्लॉग पोस्ट का लेखक हूँ
    हमने अपनी AI कक्षा में बस एक नया प्रयोग किया था
    हमारा उद्देश्य लिखित परीक्षा हटाना नहीं, बल्कि मौखिक परीक्षा को एक और उपकरण के रूप में जोड़ना था
    मकसद यह देखना था कि team project में छात्र ने वास्तव में अपने काम को समझा भी है या नहीं
    जिन छात्रों को मौखिक परीक्षा में कम अंक मिले, उनकी project understanding वास्तव में कम थी, जैसा अपेक्षित था
    36 छात्रों के स्तर पर सीधे इंटरव्यू संभव हैं, लेकिन 100 से अधिक छात्रों पर यह कठिन हो जाता है
    सबसे बढ़कर, AI थकता नहीं है, इसलिए वह अधिक सुसंगत मूल्यांकन दे सकता है—ऐसा शोध में पाया गया था। इसी कारण मैंने उस पर भरोसा किया

    • आपने कहा कि LLM का उपयोग स्वाभाविक रूप से स्वीकार होना चाहिए, लेकिन मैं इससे सहमत नहीं हूँ
      यह gym में forklift इस्तेमाल करने जैसा है
      MBA स्तर के साधारण विषयों में शायद चल जाए, लेकिन सूक्ष्म निर्णय की आवश्यकता वाले विषयों में AI निष्पक्ष नहीं है
      ऐसे साधारण सत्यापन वाले टेस्ट के लिए तो मुझे kiosk पर multiple-choice परीक्षा ज़्यादा उचित लगती है
  • हमारे समय में हर परीक्षा मौखिक होती थी
    बड़ी परीक्षाएँ दो-दो दिन चलती थीं, लेकिन प्रोफेसर और TA साल में 6 सत्र चलाते थे

    • मेरे physics bachelor और master के दौरान भी मौखिक परीक्षा ही मानक थी, लेकिन PhD में यह लगभग गायब हो गई
      एक कारण निष्पक्षता की सांस्कृतिक व्याख्या में अंतर था
      अधिक विविधता वाले वातावरण में मौखिक परीक्षा bias को लेकर विवाद पैदा कर सकती है
    • प्रोफेसर भी आखिर इंसान ही हैं
      अगर वे AI से $5 में मूल्यांकन करा सकते हों और 20 घंटे mobile scroll करते हुए बिता सकते हों, तो वे वही चुनेंगे