171,476 अंग्रेज़ी शब्दों में से आप कितने जानते हैं?
(vocabowl-870366514258.us-west1.run.app)- VocabOwl एक Scientific Word Count टूल है, जो 171,476 अंग्रेज़ी शब्दों के आधार पर यह अनुमान लगाता है कि उपयोगकर्ता वास्तव में कितने शब्द जानते हैं
- नतीजा देखने के लिए 100-प्रश्न चुनौती पूरी करनी होती है, और यह एक छोटे टेस्ट के ज़रिए कुल शब्दावली का अनुमान लगाने का तरीका है
- बताया गया है कि प्रश्नों की संरचना में स्तरीकृत नमूना चयन (stratified sampling) पद्धति का उपयोग किया जाता है
- साइट Gemini 3 Flash AI के उपयोग को प्रमुखता से दिखाती है और शब्द परीक्षण के निर्माण व संचालन में AI को शामिल करती है
- यह The Rest Is Science पॉडकास्ट और Prof. Hannah Fry, Michael Stevens से प्रेरित प्रोजेक्ट है
VocabOwl द्वारा उपलब्ध कराया गया टेस्ट
- VocabOwl “How many of the 171,476 English words do you actually know?” इस सवाल पर केंद्रित अंग्रेज़ी शब्दावली-आकार अनुमान सेवा है
- उपयोगकर्ता 100 प्रश्नों वाली चुनौती पूरी करके यह देख सकते हैं कि वे कितने अंग्रेज़ी शब्द जानते हैं
- बताया गया है कि टेस्ट प्रश्न scientifically stratified तरीके से तैयार किए गए हैं
कार्यान्वयन का तरीका और प्रेरणा के स्रोत
- साइट पर Stratified Sampling को मुख्य पद्धति के रूप में दिखाया गया है
- उपयोग की गई तकनीक के रूप में Gemini 3 Flash AI दिखाया गया है
- प्रेरणा के स्रोत के रूप में The Rest Is Science पॉडकास्ट, Prof. Hannah Fry, और Michael Stevens को दिखाया गया है
1 टिप्पणियां
Hacker News की राय
हर शब्द पर बहुत ज़्यादा क्लिक करने पड़ते हैं। मुझे इस तरह के “आप कितने शब्द जानते हैं” क्विज़ पसंद हैं, इसलिए मैंने इसे आखिर तक किया, लेकिन कुल मिलाकर इसकी वर्गीकरण पद्धति संदिग्ध लगी
मोटे तौर पर शुरुआत के शब्द आसान और आखिर के शब्द कठिन हैं, लेकिन बीच की कठिनाई काफ़ी मिली-जुली है। breviary मिड-लेवल के लिए बहुत ज़्यादा दुर्लभ है, और Hippopotomonstrosesquippedaliophobia जैसा फोबिया-शब्द किसी सचमुच इस्तेमाल होने वाले शब्द से ज़्यादा ऐसा मज़ाक लगता है जिसे कोई स्कूली बच्चा डिक्शनरी में ढूँढकर दिखाए। metamorphosis और kinetic को expert में रखना भी समझना मुश्किल है
परिभाषाएँ ज़्यादातर पहचानने लायक थीं, लेकिन lethargy को “सुस्ती/निष्क्रियता की अवस्था” कहना बहुत सीधा-सादा था, complacent को “आत्मसंतुष्ट घमंड” कहना ज़्यादा हो गया, magnanimous में “प्रतिद्वंद्वी” का होना ज़रूरी नहीं, और gauche को सिर्फ़ “सामाजिक रूप से अटपटा” कहना tactless वाली बारीकी छोड़ देता है
इसे “वैज्ञानिक” कहा गया है, लेकिन बस एक मोटा-सा फ़ॉर्मूला दिया है और शब्दों को शुरू में किस तरह स्तरों में बाँटा गया यह नहीं बताया। अगर stratified sampling सचमुच इस तरह की चीज़ के लिए औपचारिक रूप से मान्य तरीका है, तो असली रेफ़रेंस लिंक होना चाहिए था। मुझे लगता है कि मैं बहुत शब्द जानता हूँ, लेकिन इस ऐप का दिया हुआ 75k+ का अनुमान भरोसेमंद नहीं लगता
Hippopotomonstrosesquippedaliophobia में शायद पूरा शब्द याद होना अपेक्षित नहीं था, बल्कि उसके घटकों को देखकर अर्थ का अनुमान लगाना था। मैं sesquippedalian जानता था, phobia पहचानना आसान था, और hippo को जानवर की जगह लैटिन मूल के हिसाब से “बड़ा” समझने का अनुमान लगाया जा सकता था
complacent और gauche को भी मैंने ऐसे इस्तेमाल होते सुना है, और डिक्शनरी में वे कम-से-कम दूसरी या तीसरी परिभाषा के आसपास तो लगते ही हैं, इसलिए मुझे शिकायत नहीं। मैंने पहले spelling bee में अच्छा किया है, और अगर मुझमें हर वीकेंड कई घंटे डिक्शनरी पढ़ने का अनुशासन होता, तो शायद और ऊपर जा सकता था
अगर एक ऐसा सारांश होता जिसमें मैं जो चुनकर आया और जो ग़लत किया उनकी सही व्याख्या दिखती, तो वह बहुत बेहतर होता
हालाँकि वहाँ smug को भी self-satisfied या self-complacent जैसा विश्लेषित किया गया है, इसलिए हो सकता है कि मेरी अपेक्षा से अलग चीज़ दरअसल smug का अर्थ हो। मेरी समझ में smug सिर्फ़ “self-” वाला गुण नहीं, बल्कि संबंधपरक है—जैसे कोई व्यक्ति किसी और से बेहतर स्थिति का आनंद ले रहा हो। complacent का मूल अर्थ अपनी स्थिति से संतुष्ट होना है, लेकिन इसमें अक्सर यह नकारात्मक संकेत जुड़ जाता है कि व्यक्ति को बेहतर होने के लिए कुछ करना चाहिए, फिर भी वह नहीं कर रहा
हर शब्द पर बहुत ज़्यादा क्लिक करने पड़ते थे, इसलिए इसे पूरा करने में बहुत समय लगा, और विकल्प दिए होने की वजह से अनजाने शब्दों में भी अनुमान लगाना बहुत आसान था
विचार दिलचस्प है, लेकिन 100 शब्द करना काफ़ी ज़्यादा है। शुरुआत के आसान शब्दों से गुज़रना उबाऊ लगा, इसलिए दिलचस्प शब्द आने से पहले ही मन भर गया
इस तरह की प्रणाली अंदरूनी तौर पर स्कोर और confidence रखकर इससे कहीं तेज़ी से calibrate कर सकती है। शुरुआत में confidence कम हो, समय के साथ बढ़े, और शुरू में सही/ग़लत जवाब स्कोर को तेज़ी से बदलें, फिर धीरे-धीरे वह स्थिर हो जाए
व्यवहार में शुरू में कम आम शब्द आते रहें, फिर अगर आप ग़लत करें तो वह आसान शब्दों पर लौट आए, और जब आप फिर सही करने लगें तो अंततः आपकी वास्तविक क्षमता के आसपास के शब्दों के बीच घूमता रहे। और हर शब्द पर क्लिक भी बहुत ज़्यादा हैं। यह लो-स्टेक्स टेस्ट है, तो परिभाषा पर एक बार क्लिक करते ही उसे स्वीकार कर लेना चाहिए; अगर misclick की चिंता है तो undo बटन दे सकते हैं
अच्छा होगा अगर हर विकल्प के साथ कोई अक्षर या संख्या हो ताकि उन्हें कीबोर्ड से दबाया जा सके। पहले कोई ऐसी फ़ॉर्म सेवा थी और वह काफ़ी अच्छी तरह काम करती थी, शायद Typeform। अभी जाँचने के लिए खोला तो वह पूरी तरह AI के ज़िक्रों से भरा हुआ था, इसलिए आगे देखने की दिलचस्पी ही ख़त्म हो गई
दूसरी टिप्पणियों के अलावा, संरचनात्मक गलती की वजह से गणना सिर्फ आधी सही है। गिनने के तरीके के हिसाब से इसे 100% गलत भी कहा जा सकता है
मैं अंग्रेज़ी का native speaker हूँ, बहुत किताबें पढ़ने वाला nerd हूँ, और SAT में full score ला चुका हूँ; फिर भी बिना खोजे 100 में 100 सही किए। लेकिन “SCIENTIFIC ESTIMATE” में यह दिखा कि मुझे 170,000 में से सिर्फ 85,000 शब्द ही आते हैं, इसलिए मैं उलझन में पड़ गया
आखिर की “How is this calculated” पेज पर लिखा है कि Oxford English Dictionary Second Edition के हिसाब से अभी इस्तेमाल में लगभग 171,476 शब्द हैं, और कठिनाई के स्तर Core Basics 3,000, Intermediate 7,000, Advanced 10,000, Expert 25,000, The Obscure 40,000+ में बाँटे गए हैं। कुल स्कोर हर स्तर की accuracy × उस स्तर के आकार के योग से निकाला जाता है
लेकिन इन स्तरों को जोड़ने पर भी कुल 85,000 ही बनता है, इसलिए perfect score मिलने पर भी सिर्फ 50% आता है। ऊपर से यह भाषा के एक बहुत सीमित और शायद कठिनाई-प्रतिनिधित्व के लिहाज़ से कमजोर subset का इस्तेमाल कर रहा है। प्यारा है, लेकिन कई मायनों में गलत है
अंग्रेज़ी vocabulary tests में अक्सर ऐसा होता है, Greek जानने वालों को कठिन स्तर पर फ़ायदा मिलता है
कुछ specialist शब्द हैं, लेकिन ज़्यादातर वे शब्द हैं जो Radio 4 की सामान्य बातचीत में भी सुनाई दे सकते हैं
मुझे 78,000 मिला, जो दूसरी भाषा के हिसाब से काफ़ी अच्छा है। इस टेस्ट का maximum 85,000 लगता है
विकल्प ऐसे लगते हैं जैसे LLM ने बनाए हों, और कुछ patterns भी हैं, जैसे “now” और “forever” का बार-बार दिखना
कुछ साल पहले मैंने ऐसा ही एक गेम खेला था, जिसमें लगातार पर्याप्त सही करने पर level ऊपर जाता था और एक गलत होने पर नीचे आ जाता था, इसलिए आप लगातार खेल सकते थे। बहुत ऊँचे level पर यह उल्टा आसान हो गया था, क्योंकि वहाँ Old English के शब्द मिले हुए थे और वे मेरी मातृभाषा Dutch से लगभग एक जैसे थे। शायद उसमें charity वाला पहलू भी था, और शायद वह https://freerice.com/ था, लेकिन अब लगता है कि गेम को सरल बना दिया गया है
बेल्जियम की Ghent University में भी एक दिलचस्प टेस्ट था, जो किसी खास education level के औसत स्कोर से तुलना करके proficiency आँकता था। वहाँ मेरा स्कोर लगभग 41,000 था, और शायद उसे university-level native English speaker के औसत के बराबर माना गया था। https://languagehat.com/ghent-vocabulary-test/ के नीचे वाले update में बताया गया है कि वह टेस्ट कहाँ गया और कुछ alternatives भी दिए गए हैं
काफ़ी मज़ेदार है
submit button हटा देना चाहिए; क्लिक करते ही सही/गलत दिखे और फिर लगभग 1 सेकंड बाद अगले पर चला जाए। submit को दो बार दबाने वाला flow immersion तोड़ देता है
और जिन शब्दों को मैंने देखा, उनमें 4 विकल्पों में से एक सही था, एक सही जवाब का antonym था, और बाकी दो लगभग random थे। व्यवहार में जहाँ antonym साथ न हो, ऐसे विकल्पों को छोड़ भी सकते हैं
सबसे पहले, जिन जवाबों को आम अंग्रेज़ी शब्दों में तोड़ा जा सकता था, उन्हें हटाया जा सकता था। अगर कोई शब्द इतनी आसानी से टूट जाए, तो वह शुरू से ही obscure होने की संभावना कम है
multiple-choice सवालों के wrong choices लिखना मुश्किल होता है। जिन परीक्षाओं को मैं जानता हूँ, उनमें calculation या रटने वाली परीक्षाओं को छोड़कर Poland की national medical exam LEK यह काम लगभग क्रूर स्तर तक अच्छी तरह करती है। उस क्षेत्र के बाहर का कोई व्यक्ति अंदाज़े से random chance से बेहतर स्कोर लगभग नहीं कर सकता
“पता नहीं” का जवाब देना संभव होना चाहिए। जब सचमुच नहीं पता हो तब 1/4 संभावना से सही हो जाना अनुचित है, और आम multiple-choice tricks इस्तेमाल करके उससे भी ज़्यादा सही किया जा सकता है
कुछ शब्द ऐसे थे जिन्हें मैं खुशी से गलत मानने देता, लेकिन उन्हें सही गिन लिया गया
कठिनाई को भी थोड़ा मिलाना चाहिए। आख़िरी लगभग 30 सवाल उबाऊ मेहनत जैसे लगे। आइडिया अपने आप में बढ़िया है
सबसे बुरी स्थिति में भी संयोग से सही होने वाली 25% संभावना को adjust किया जा सकता है
सवालों को काफ़ी आसानी से tricks से हल किया जा सकता है। बहुत से विकल्प शब्द-परिभाषा जैसे लगते ही नहीं, “सही जवाब + उल्टा अर्थ + 2 असंबंधित” वाला ढाँचा बार-बार आता है, और बाद के हिस्से में सबसे लंबा जवाब बहुत बार सही होता है। wrong choices की design अच्छी नहीं है
शब्दों का sample भी शब्द, बोलचाल, speaker और persuasion से जुड़े विचारों की तरफ़ बहुत ज़्यादा झुका हुआ है। शायद LLM को शब्द चुनने के लिए prompt दिया गया और उसी वजह से उसने “शब्द” से जुड़े शब्द ज़्यादा चुन लिए
संदर्भ के लिए, मैं दूसरी भाषा का speaker हूँ, linguistics का nerd हूँ, और अंग्रेज़ी का इस्तेमाल मुख्यतः academic और professional माहौल में करता हूँ। ऊपर की tricks मिलाकर मुझे 75,400 मिला, लेकिन असल में यह 10~15k के क़रीब हो सकता है
design भी, जैसा कोई भी देख सकता है, Duolingo से दर्दनाक हद तक मिलता-जुलता है
एक उम्र के बाद शायद ज़्यादातर लोग मानेंगे कि लगभग हर भाषा में इस तरह के दर्द के लिए कोई न कोई शब्द होता है
मैंने 100 में से 88 सही किए, लेकिन इससे मुझे बस इतना पता चला कि मैं अंदाज़ा लगाने में काफ़ी अच्छा हूँ। लगभग 20 शब्द ऐसे थे जिन्हें मैं अविश्वसनीय विकल्प हटाकर या शब्द के कुछ हिस्सों के अर्थ से अनुमान लगाकर सही कर पाया
अगर सच में यह ज़्यादा ईमानदारी से आँकना है कि मुझे कितने शब्द वास्तव में आते हैं और कितनों का सही अनुमान लगा सकता हूँ, तो “पता नहीं” विकल्प होना चाहिए
स्तर को ज़्यादा जल्दी पता करने के लिए ELO रेटिंग का इस्तेमाल करना चाहिए। बुनियादी 100 शब्दों को बड़ी मुश्किल से हल करना कोई मायने नहीं रखता
OED के 171,476 वाले आँकड़े का ग़लत और असटीक इस्तेमाल किया जा रहा है, और यह dictionary तथा language—दोनों को काफ़ी ग़लत समझने वाला तरीका है
यह संख्या Oxford English Dictionary के 20-वॉल्यूम वाले Second Edition में “current use” के रूप में परिभाषित शब्दों की full entry की संख्या को दर्शाती है। इसका मतलब शब्दों की कुल संख्या नहीं है। इसमें OED की variant spellings, inflected forms, phrases, और run-on entries भी शामिल नहीं हैं
इसके अलावा, OED अंग्रेज़ी की किसी भी तरह से पूरी सूची भी नहीं है। दरअसल इसका update cycle बहुत धीमा है, इसलिए संभव है कि इसमें लाखों शब्द छूटे हुए हों। एक dictionary editor और lexicographer के तौर पर मैं OED का हर दिन इस्तेमाल करता हूँ, और जो लोग इसे बनाते हैं वे भी यह जानते हैं