171,476 अंग्रेज़ी शब्दों में से आप कितने जानते हैं?

(vocabowl-870366514258.us-west1.run.app)

1 पॉइंट द्वारा GN⁺ 6 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

VocabOwl एक Scientific Word Count टूल है, जो 171,476 अंग्रेज़ी शब्दों के आधार पर यह अनुमान लगाता है कि उपयोगकर्ता वास्तव में कितने शब्द जानते हैं
नतीजा देखने के लिए 100-प्रश्न चुनौती पूरी करनी होती है, और यह एक छोटे टेस्ट के ज़रिए कुल शब्दावली का अनुमान लगाने का तरीका है
बताया गया है कि प्रश्नों की संरचना में स्तरीकृत नमूना चयन (stratified sampling) पद्धति का उपयोग किया जाता है
साइट Gemini 3 Flash AI के उपयोग को प्रमुखता से दिखाती है और शब्द परीक्षण के निर्माण व संचालन में AI को शामिल करती है
यह The Rest Is Science पॉडकास्ट और Prof. Hannah Fry, Michael Stevens से प्रेरित प्रोजेक्ट है

VocabOwl द्वारा उपलब्ध कराया गया टेस्ट

VocabOwl “How many of the 171,476 English words do you actually know?” इस सवाल पर केंद्रित अंग्रेज़ी शब्दावली-आकार अनुमान सेवा है
उपयोगकर्ता 100 प्रश्नों वाली चुनौती पूरी करके यह देख सकते हैं कि वे कितने अंग्रेज़ी शब्द जानते हैं
बताया गया है कि टेस्ट प्रश्न scientifically stratified तरीके से तैयार किए गए हैं

कार्यान्वयन का तरीका और प्रेरणा के स्रोत

साइट पर Stratified Sampling को मुख्य पद्धति के रूप में दिखाया गया है
उपयोग की गई तकनीक के रूप में Gemini 3 Flash AI दिखाया गया है
प्रेरणा के स्रोत के रूप में The Rest Is Science पॉडकास्ट, Prof. Hannah Fry, और Michael Stevens को दिखाया गया है

1 टिप्पणियां

GN⁺ 6 시간 전

Hacker News की राय

हर शब्द पर बहुत ज़्यादा क्लिक करने पड़ते हैं। मुझे इस तरह के “आप कितने शब्द जानते हैं” क्विज़ पसंद हैं, इसलिए मैंने इसे आखिर तक किया, लेकिन कुल मिलाकर इसकी वर्गीकरण पद्धति संदिग्ध लगी
मोटे तौर पर शुरुआत के शब्द आसान और आखिर के शब्द कठिन हैं, लेकिन बीच की कठिनाई काफ़ी मिली-जुली है। breviary मिड-लेवल के लिए बहुत ज़्यादा दुर्लभ है, और Hippopotomonstrosesquippedaliophobia जैसा फोबिया-शब्द किसी सचमुच इस्तेमाल होने वाले शब्द से ज़्यादा ऐसा मज़ाक लगता है जिसे कोई स्कूली बच्चा डिक्शनरी में ढूँढकर दिखाए। metamorphosis और kinetic को expert में रखना भी समझना मुश्किल है
परिभाषाएँ ज़्यादातर पहचानने लायक थीं, लेकिन lethargy को “सुस्ती/निष्क्रियता की अवस्था” कहना बहुत सीधा-सादा था, complacent को “आत्मसंतुष्ट घमंड” कहना ज़्यादा हो गया, magnanimous में “प्रतिद्वंद्वी” का होना ज़रूरी नहीं, और gauche को सिर्फ़ “सामाजिक रूप से अटपटा” कहना tactless वाली बारीकी छोड़ देता है
इसे “वैज्ञानिक” कहा गया है, लेकिन बस एक मोटा-सा फ़ॉर्मूला दिया है और शब्दों को शुरू में किस तरह स्तरों में बाँटा गया यह नहीं बताया। अगर stratified sampling सचमुच इस तरह की चीज़ के लिए औपचारिक रूप से मान्य तरीका है, तो असली रेफ़रेंस लिंक होना चाहिए था। मुझे लगता है कि मैं बहुत शब्द जानता हूँ, लेकिन इस ऐप का दिया हुआ 75k+ का अनुमान भरोसेमंद नहीं लगता
- मुझे कुछ बातें उल्टा ठीक भी लगीं। breviary मेरे लिए जाना-पहचाना और बहुत दुर्लभ नहीं था। कैथोलिक लोगों के बीच यह काफ़ी जाना जाता है, और अगर किसी को मध्ययुगीन कला या किताबों में रुचि हो तो उसके इसे जानने की संभावना है। छपाई-कला से पहले यह प्रमुख किताबों के प्रकारों में से एक था, इसलिए अगर आप सजी हुई हस्तलिखित पांडुलिपियों की छवियाँ सोचें, तो उनमें से आधी शायद इसी तरह की हों
  Hippopotomonstrosesquippedaliophobia में शायद पूरा शब्द याद होना अपेक्षित नहीं था, बल्कि उसके घटकों को देखकर अर्थ का अनुमान लगाना था। मैं sesquippedalian जानता था, phobia पहचानना आसान था, और hippo को जानवर की जगह लैटिन मूल के हिसाब से “बड़ा” समझने का अनुमान लगाया जा सकता था
  complacent और gauche को भी मैंने ऐसे इस्तेमाल होते सुना है, और डिक्शनरी में वे कम-से-कम दूसरी या तीसरी परिभाषा के आसपास तो लगते ही हैं, इसलिए मुझे शिकायत नहीं। मैंने पहले spelling bee में अच्छा किया है, और अगर मुझमें हर वीकेंड कई घंटे डिक्शनरी पढ़ने का अनुशासन होता, तो शायद और ऊपर जा सकता था
- आख़िरी शब्दों में से एक kerfuffle था, जो काफ़ी आम शब्द है। दूसरी तरफ़ Zenzizenzizenzic मैंने पहले कभी नहीं सुना था, लेकिन लगता है सही कर लिया
  अगर एक ऐसा सारांश होता जिसमें मैं जो चुनकर आया और जो ग़लत किया उनकी सही व्याख्या दिखती, तो वह बहुत बेहतर होता
- मैं इससे सहमत हूँ कि complacent मूल रूप से smug नहीं लगता, लेकिन अजीब बात यह है कि dictionary.com और Wiktionary दोनों में smug को पर्याय या परिभाषा के हिस्से के रूप में रखा गया है
  हालाँकि वहाँ smug को भी self-satisfied या self-complacent जैसा विश्लेषित किया गया है, इसलिए हो सकता है कि मेरी अपेक्षा से अलग चीज़ दरअसल smug का अर्थ हो। मेरी समझ में smug सिर्फ़ “self-” वाला गुण नहीं, बल्कि संबंधपरक है—जैसे कोई व्यक्ति किसी और से बेहतर स्थिति का आनंद ले रहा हो। complacent का मूल अर्थ अपनी स्थिति से संतुष्ट होना है, लेकिन इसमें अक्सर यह नकारात्मक संकेत जुड़ जाता है कि व्यक्ति को बेहतर होने के लिए कुछ करना चाहिए, फिर भी वह नहीं कर रहा
- यह काफ़ी दिलचस्प है कि टेस्ट मुश्किल से adaptive लगता है, फिर भी HN के फ़्रंट पेज तक पहुँच गया
- Hippopotomonstrosesquippedaliophobia को न जानते हुए भी चार विकल्पों में से सही जवाब देना बहुत आसान था
  हर शब्द पर बहुत ज़्यादा क्लिक करने पड़ते थे, इसलिए इसे पूरा करने में बहुत समय लगा, और विकल्प दिए होने की वजह से अनजाने शब्दों में भी अनुमान लगाना बहुत आसान था
विचार दिलचस्प है, लेकिन 100 शब्द करना काफ़ी ज़्यादा है। शुरुआत के आसान शब्दों से गुज़रना उबाऊ लगा, इसलिए दिलचस्प शब्द आने से पहले ही मन भर गया
इस तरह की प्रणाली अंदरूनी तौर पर स्कोर और confidence रखकर इससे कहीं तेज़ी से calibrate कर सकती है। शुरुआत में confidence कम हो, समय के साथ बढ़े, और शुरू में सही/ग़लत जवाब स्कोर को तेज़ी से बदलें, फिर धीरे-धीरे वह स्थिर हो जाए
व्यवहार में शुरू में कम आम शब्द आते रहें, फिर अगर आप ग़लत करें तो वह आसान शब्दों पर लौट आए, और जब आप फिर सही करने लगें तो अंततः आपकी वास्तविक क्षमता के आसपास के शब्दों के बीच घूमता रहे। और हर शब्द पर क्लिक भी बहुत ज़्यादा हैं। यह लो-स्टेक्स टेस्ट है, तो परिभाषा पर एक बार क्लिक करते ही उसे स्वीकार कर लेना चाहिए; अगर misclick की चिंता है तो undo बटन दे सकते हैं
- यह भी मानकर चलना चाहिए कि इनपुट की ग़लतियाँ होंगी, और उसे confidence calculation में शामिल करना चाहिए। दुनिया का सबसे बुद्धिमान व्यक्ति भी कभी-कभी साधारण इनपुट गलती कर सकता है, या पल भर के लिए कोई ग़लत न्यूरॉन सक्रिय हो सकता है
- ख़ासकर पहले वाले बिंदु से सहमत हूँ। मैंने करीब 10 शब्द किए और छोड़ दिया, क्योंकि यह साफ़ नहीं था कि अगले चरण तक पहुँचना कैसे है
- यह पर्याप्त कठिन भी नहीं होता। ऊपर से बहुत सारे शब्द लंबे शब्दों या बहुत बक-बक करने की प्रवृत्ति से जुड़े थे
- मोबाइल पर submit बटन स्क्रीन के नीचे है, इसलिए स्क्रॉल भी करना पड़ता है। एक बार स्क्रॉल करने के बाद इसकी पोज़िशन ठीक लगती है
- क्लिक करने की जगहें भी बहुत दूर-दूर हैं। लैपटॉप पर जवाब चुनने और उसे confirm करने के लिए कर्सर को बार-बार ऊपर-नीचे ले जाना पड़ता है
  अच्छा होगा अगर हर विकल्प के साथ कोई अक्षर या संख्या हो ताकि उन्हें कीबोर्ड से दबाया जा सके। पहले कोई ऐसी फ़ॉर्म सेवा थी और वह काफ़ी अच्छी तरह काम करती थी, शायद Typeform। अभी जाँचने के लिए खोला तो वह पूरी तरह AI के ज़िक्रों से भरा हुआ था, इसलिए आगे देखने की दिलचस्पी ही ख़त्म हो गई
दूसरी टिप्पणियों के अलावा, संरचनात्मक गलती की वजह से गणना सिर्फ आधी सही है। गिनने के तरीके के हिसाब से इसे 100% गलत भी कहा जा सकता है
मैं अंग्रेज़ी का native speaker हूँ, बहुत किताबें पढ़ने वाला nerd हूँ, और SAT में full score ला चुका हूँ; फिर भी बिना खोजे 100 में 100 सही किए। लेकिन “SCIENTIFIC ESTIMATE” में यह दिखा कि मुझे 170,000 में से सिर्फ 85,000 शब्द ही आते हैं, इसलिए मैं उलझन में पड़ गया
आखिर की “How is this calculated” पेज पर लिखा है कि Oxford English Dictionary Second Edition के हिसाब से अभी इस्तेमाल में लगभग 171,476 शब्द हैं, और कठिनाई के स्तर Core Basics 3,000, Intermediate 7,000, Advanced 10,000, Expert 25,000, The Obscure 40,000+ में बाँटे गए हैं। कुल स्कोर हर स्तर की accuracy × उस स्तर के आकार के योग से निकाला जाता है
लेकिन इन स्तरों को जोड़ने पर भी कुल 85,000 ही बनता है, इसलिए perfect score मिलने पर भी सिर्फ 50% आता है। ऊपर से यह भाषा के एक बहुत सीमित और शायद कठिनाई-प्रतिनिधित्व के लिहाज़ से कमजोर subset का इस्तेमाल कर रहा है। प्यारा है, लेकिन कई मायनों में गलत है
- बिल्कुल वही feedback। 100 के 100 सही किए, और नतीजा भी वही आया
  अंग्रेज़ी vocabulary tests में अक्सर ऐसा होता है, Greek जानने वालों को कठिन स्तर पर फ़ायदा मिलता है
- “advanced words” का चुनाव थोड़ा अजीब है। obscure शब्द उतने obscure नहीं हैं
  कुछ specialist शब्द हैं, लेकिन ज़्यादातर वे शब्द हैं जो Radio 4 की सामान्य बातचीत में भी सुनाई दे सकते हैं
- काफ़ी बार 4 विकल्पों में से 3 साफ़ तौर पर बेमतलब होते हैं, इसलिए सही जवाब निकाला जा सकता है। अगर लक्ष्य सच में estimation है, तो सिर्फ सही जवाब चुनवाने के बजाय “पता नहीं” बटन होना चाहिए
- साफ़ लगता है कि यह AI से बनाया गया है
- मैंने लगभग 80 सही किए और 57k मिला
मुझे 78,000 मिला, जो दूसरी भाषा के हिसाब से काफ़ी अच्छा है। इस टेस्ट का maximum 85,000 लगता है
विकल्प ऐसे लगते हैं जैसे LLM ने बनाए हों, और कुछ patterns भी हैं, जैसे “now” और “forever” का बार-बार दिखना
कुछ साल पहले मैंने ऐसा ही एक गेम खेला था, जिसमें लगातार पर्याप्त सही करने पर level ऊपर जाता था और एक गलत होने पर नीचे आ जाता था, इसलिए आप लगातार खेल सकते थे। बहुत ऊँचे level पर यह उल्टा आसान हो गया था, क्योंकि वहाँ Old English के शब्द मिले हुए थे और वे मेरी मातृभाषा Dutch से लगभग एक जैसे थे। शायद उसमें charity वाला पहलू भी था, और शायद वह https://freerice.com/ था, लेकिन अब लगता है कि गेम को सरल बना दिया गया है
बेल्जियम की Ghent University में भी एक दिलचस्प टेस्ट था, जो किसी खास education level के औसत स्कोर से तुलना करके proficiency आँकता था। वहाँ मेरा स्कोर लगभग 41,000 था, और शायद उसे university-level native English speaker के औसत के बराबर माना गया था। https://languagehat.com/ghent-vocabulary-test/ के नीचे वाले update में बताया गया है कि वह टेस्ट कहाँ गया और कुछ alternatives भी दिए गए हैं
काफ़ी मज़ेदार है
submit button हटा देना चाहिए; क्लिक करते ही सही/गलत दिखे और फिर लगभग 1 सेकंड बाद अगले पर चला जाए। submit को दो बार दबाने वाला flow immersion तोड़ देता है
और जिन शब्दों को मैंने देखा, उनमें 4 विकल्पों में से एक सही था, एक सही जवाब का antonym था, और बाकी दो लगभग random थे। व्यवहार में जहाँ antonym साथ न हो, ऐसे विकल्पों को छोड़ भी सकते हैं
- अगर keyboard shortcuts हों, तो 100 शब्दों का टेस्ट बहुत कम अटपटा लगेगा। 1~4 से विकल्प चुनना, Enter से submit करना, और layout के झटके से हिलने की समस्या भी ठीक करनी चाहिए
- मेरा अनुमान 74k आया, लेकिन लगा कि यह बढ़ा-चढ़ा हो सकता है। जवाब न जानते हुए भी कई बार विकल्पों के मूड से guess किया जा सकता था, और गलत विकल्प काफ़ी plausible नहीं थे
  सबसे पहले, जिन जवाबों को आम अंग्रेज़ी शब्दों में तोड़ा जा सकता था, उन्हें हटाया जा सकता था। अगर कोई शब्द इतनी आसानी से टूट जाए, तो वह शुरू से ही obscure होने की संभावना कम है
  multiple-choice सवालों के wrong choices लिखना मुश्किल होता है। जिन परीक्षाओं को मैं जानता हूँ, उनमें calculation या रटने वाली परीक्षाओं को छोड़कर Poland की national medical exam LEK यह काम लगभग क्रूर स्तर तक अच्छी तरह करती है। उस क्षेत्र के बाहर का कोई व्यक्ति अंदाज़े से random chance से बेहतर स्कोर लगभग नहीं कर सकता
- अगर गलत उत्तर सिर्फ इसलिए दर्ज हो जाए कि मैंने जवाब गलत नहीं चुना बल्कि फोन स्क्रीन को गलती से छू दिया, तो वह वाकई बहुत खराब लगेगा
“पता नहीं” का जवाब देना संभव होना चाहिए। जब सचमुच नहीं पता हो तब 1/4 संभावना से सही हो जाना अनुचित है, और आम multiple-choice tricks इस्तेमाल करके उससे भी ज़्यादा सही किया जा सकता है
कुछ शब्द ऐसे थे जिन्हें मैं खुशी से गलत मानने देता, लेकिन उन्हें सही गिन लिया गया
- मैंने पूरे 100 किए, और यह सिर्फ 1/4 की बात भी नहीं है। कठिन शब्दों में अगर एक explanation बाकी से बहुत लंबी हो, तो वही अक्सर सही होती है। इसके अलावा दो विकल्प अक्सर किसी वस्तु जैसे होते हैं, और ऐसे जवाब शायद ही कभी सही लगते हैं
  कठिनाई को भी थोड़ा मिलाना चाहिए। आख़िरी लगभग 30 सवाल उबाऊ मेहनत जैसे लगे। आइडिया अपने आप में बढ़िया है
- अगर हर शब्द पर बस हाँ/नहीं में पूछा जाए कि क्या आप उसकी definition जानते हैं, तो यह ज़्यादा आसान और तेज़ होगा। तब 100 शब्दों को जल्दी-जल्दी देखा जा सकता है। हर विकल्प के लिए keyboard shortcuts भी अच्छे होंगे
- कुछ मामलों में मैंने विकल्पों की तुलना करके सही definition का अनुमान लगाया
- ज़बरदस्ती guess करवाना शायद ज़्यादा अर्थपूर्ण भी हो सकता है, क्योंकि आप शब्द के जाने-पहचाने हिस्सों के आधार पर अनुमान लगा सकते हैं
  सबसे बुरी स्थिति में भी संयोग से सही होने वाली 25% संभावना को adjust किया जा सकता है
सवालों को काफ़ी आसानी से tricks से हल किया जा सकता है। बहुत से विकल्प शब्द-परिभाषा जैसे लगते ही नहीं, “सही जवाब + उल्टा अर्थ + 2 असंबंधित” वाला ढाँचा बार-बार आता है, और बाद के हिस्से में सबसे लंबा जवाब बहुत बार सही होता है। wrong choices की design अच्छी नहीं है
शब्दों का sample भी शब्द, बोलचाल, speaker और persuasion से जुड़े विचारों की तरफ़ बहुत ज़्यादा झुका हुआ है। शायद LLM को शब्द चुनने के लिए prompt दिया गया और उसी वजह से उसने “शब्द” से जुड़े शब्द ज़्यादा चुन लिए
संदर्भ के लिए, मैं दूसरी भाषा का speaker हूँ, linguistics का nerd हूँ, और अंग्रेज़ी का इस्तेमाल मुख्यतः academic और professional माहौल में करता हूँ। ऊपर की tricks मिलाकर मुझे 75,400 मिला, लेकिन असल में यह 10~15k के क़रीब हो सकता है
design भी, जैसा कोई भी देख सकता है, Duolingo से दर्दनाक हद तक मिलता-जुलता है
- “पीठ में तीखा दर्द” जैसी definition की वजह से मुझे अंग्रेज़ी शब्द lumbago देखना पड़ा। German में इसके लिए रंगीन अभिव्यक्ति Hexenschuss है
  एक उम्र के बाद शायद ज़्यादातर लोग मानेंगे कि लगभग हर भाषा में इस तरह के दर्द के लिए कोई न कोई शब्द होता है
- जिन विकल्पों में semicolon था, वे सब सही थे
- landing page देखते ही मुझे लगा कि यह Duolingo जैसा है
मैंने 100 में से 88 सही किए, लेकिन इससे मुझे बस इतना पता चला कि मैं अंदाज़ा लगाने में काफ़ी अच्छा हूँ। लगभग 20 शब्द ऐसे थे जिन्हें मैं अविश्वसनीय विकल्प हटाकर या शब्द के कुछ हिस्सों के अर्थ से अनुमान लगाकर सही कर पाया
अगर सच में यह ज़्यादा ईमानदारी से आँकना है कि मुझे कितने शब्द वास्तव में आते हैं और कितनों का सही अनुमान लगा सकता हूँ, तो “पता नहीं” विकल्प होना चाहिए
स्तर को ज़्यादा जल्दी पता करने के लिए ELO रेटिंग का इस्तेमाल करना चाहिए। बुनियादी 100 शब्दों को बड़ी मुश्किल से हल करना कोई मायने नहीं रखता
OED के 171,476 वाले आँकड़े का ग़लत और असटीक इस्तेमाल किया जा रहा है, और यह dictionary तथा language—दोनों को काफ़ी ग़लत समझने वाला तरीका है
यह संख्या Oxford English Dictionary के 20-वॉल्यूम वाले Second Edition में “current use” के रूप में परिभाषित शब्दों की full entry की संख्या को दर्शाती है। इसका मतलब शब्दों की कुल संख्या नहीं है। इसमें OED की variant spellings, inflected forms, phrases, और run-on entries भी शामिल नहीं हैं
इसके अलावा, OED अंग्रेज़ी की किसी भी तरह से पूरी सूची भी नहीं है। दरअसल इसका update cycle बहुत धीमा है, इसलिए संभव है कि इसमें लाखों शब्द छूटे हुए हों। एक dictionary editor और lexicographer के तौर पर मैं OED का हर दिन इस्तेमाल करता हूँ, और जो लोग इसे बनाते हैं वे भी यह जानते हैं

171,476 अंग्रेज़ी शब्दों में से आप कितने जानते हैं?

VocabOwl द्वारा उपलब्ध कराया गया टेस्ट

कार्यान्वयन का तरीका और प्रेरणा के स्रोत

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय