NVIDIA Nemotron-Personas-Korea - दक्षिण कोरिया के वास्तविक जनसंख्या वितरण पर आधारित 10 लाख सिंथेटिक persona डेटासेट

(huggingface.co)

75 पॉइंट द्वारा GN⁺ 2026-04-27 | 10 टिप्पणियां | WhatsApp पर शेयर करें

दक्षिण कोरिया के Statistics Korea, Supreme Court, National Health Insurance Service आदि सार्वजनिक डेटा पर आधारित, वास्तविक जनसांख्यिकीय, भौगोलिक और व्यक्तित्व वितरण को दर्शाने वाला पहला बड़े पैमाने का कोरियन persona डेटासेट
10 लाख रिकॉर्ड में 70 लाख persona शामिल हैं, और यह नाम, लिंग, आयु, वैवाहिक स्थिति, शिक्षा स्तर, पेशा, निवास क्षेत्र आदि 26 फ़ील्ड से बना है
एंटरप्राइज़-ग्रेड सिंथेटिक डेटा जनरेशन सिस्टम NeMo Data Designer और google/gemma-4-31B-it मॉडल का उपयोग करके तैयार किया गया
मौजूदा persona डेटासेट की तुलना में बुजुर्गों, ग्रामीण क्षेत्रों, और विविध शिक्षा व पेशागत वितरण को अधिक निष्ठा से दर्शाकर sovereign AI मॉडल के bias को कम करने में योगदान
CC BY 4.0 लाइसेंस के तहत व्यावसायिक और गैर-व्यावसायिक दोनों उपयोगों के लिए स्वतंत्र रूप से उपलब्ध

मौजूदा LLM द्वारा बनाए गए कोरियन persona की समस्याएँ

persona किसी व्यक्ति की विशिष्ट विशेषताओं, रुचियों, व्यक्तित्व और पेशे आदि का वर्णन होता है, और persona से बना डेटासेट उस समूह की सांस्कृतिक और वितरणगत विशेषताओं को सही ढंग से दर्शाना चाहिए
विदेशी LLM को "कोरियाई समाज के यथार्थवादी और विविध व्यक्ति प्रोफ़ाइल बनाओ" जैसा prompt देने पर भी परिणाम गंभीर रूप से विकृत होते हैं
- बने हुए persona में 40% ने salad को अपनी पसंदीदा food चुना, या "मैं Gyeongsangbuk-do के Andong शहर में apple orchard चलाता/चलाती हूँ" जैसे अवास्तविक परिणाम आए
Claude Opus 4.7 से कोरिया के 2,000 persona का यादृच्छिक सैंपल लेने पर, पेशागत वितरण में 77.6% "yuzu उगाने वाले किसान" के रूप में बनने जैसा चरम bias दिखा
GPT-5.4 के मामले में 90.1% "care worker" के रूप में बने
शहरों का वितरण, परिवार संरचना, आवास स्वामित्व का रूप, भोजन पसंद आदि हर पहलू में कोरिया की वास्तविक स्थिति से मेल न खाने वाला bias मौजूद था

डेटासेट का अवलोकन और उद्देश्य

दक्षिण कोरिया की आबादी की विविधता और विशेषताओं को व्यापक रूप से दर्शाने के लिए डिज़ाइन किया गया open source सिंथेटिक persona डेटासेट
कोरियन भाषा में लिखा गया ताकि कोई भी आसानी से पढ़ सके
sovereign AI सिस्टम बनाते समय training data में मौजूद missing data और संभावित bias को कम करना इसका मुख्य लक्ष्य है
सिंथेटिक डेटा जनरेशन में उपयोग होने वाले मौजूदा persona डेटासेट के bias, खासकर आयु, क्षेत्र, शिक्षा स्तर और पेशे के आयामों पर bias को कम करने पर फ़ोकस

डेटा स्रोत और निर्माण विधि

KOSIS (Statistics Korea National Statistical Portal) के लिंग, क्षेत्र, उद्योग, पेशा, यात्रा और अवकाश जीवन से जुड़े census data का उपयोग
Supreme Court के जन्म वर्ष, लिंग और नाम डेटा, National Health Insurance Service की health screening जानकारी, और Korea Rural Economic Institute के food consumption behavior survey के परिणामों का उपयोग
NAVER Cloud ने डिज़ाइन चरण में शुरुआती डेटा और domain expertise प्रदान की
स्वामित्व वाले Probabilistic Graph Model (PGM), Apache-2.0 लाइसेंस वाले google/gemma-4-31B-it मॉडल, और NeMo Data Designer की validation और evaluation विधियों का उपयोग
नाम, आयु, लिंग, क्षेत्र, विवाह, परिवार, आवास, शिक्षा, major field, आर्थिक गतिविधि, आय, उद्योग समूह, पेशा समूह, blood pressure, blood sugar, waist circumference, BMI, यात्रा, leisure life, पसंदीदा restaurant प्रकार, delivery और eating out की आवृत्ति आदि शामिल
सभी डेटा वास्तविक वितरण को दर्शाते हैं, लेकिन पूरी तरह कृत्रिम रूप से सिंथेटिक हैं; किसी वास्तविक व्यक्ति से समानता मात्र संयोग है

डेटासेट का आकार और संरचना

कुल 1.7 अरब token (persona के 1 अरब token) से बने 10 लाख रिकॉर्ड
26 फ़ील्ड: 7 persona फ़ील्ड, 6 persona attribute फ़ील्ड, 12 demographic और geographic context फ़ील्ड, और 1 unique identifier
17 प्रांत/महानगर और 252 शहर/ज़िला/काउंटी का व्यापक प्रशासनिक कवरेज
2 लाख 9 हज़ार से अधिक unique नाम संयोजन (118 उपनाम, 21,400 दिए गए नाम)
7 persona प्रकार: पेशा, sports, art, travel, food, family, summary
अतिरिक्त persona attributes: सांस्कृतिक पृष्ठभूमि, तकनीकी कौशल और विशेषज्ञता, career goal व aspirations, hobby व interest

नाम वितरण

वर्तमान में कोरिया में सार्वजनिक रूप से उपलब्ध नाम डेटा केवल 2008 के बाद तक सीमित है
Nemotron-Personas-Korea 1940 से पूरे कोरिया के नामों के संपूर्ण डेटा पर आधारित पहला सार्वजनिक डेटासेट है
"82 वर्षीय Kim Hayul?" "21 वर्षीय Kim Soon-ja?" जैसी समय-संदर्भ से मेल न खाने वाली नाम-आवंटन समस्या का समाधान
उपनाम वितरण में Kim (21.5%), Lee (14.7%), Park (8.5%), Jeong (4.8%), Choi (4.7%) जैसे शीर्ष 5 उपनाम कुल का लगभग 54% हैं
नामों में लिंग और जन्म वर्ष के अनुसार पीढ़ीगत naming trend झलकते हैं
- महिलाएँ: Young-sook, Jeong-sook, Soon-ja जैसे अधिक आयु समूह के नाम, और Ji-young, Yoo-jin, Ji-hyun जैसे युवा पीढ़ी के नाम साथ मौजूद
- पुरुष: Ji-hoon, Hyun-woo, Jun-ho जैसे आधुनिक नाम शीर्ष पर
सबसे अधिक बार आने वाला पूरा नाम Kim Young-sook है, जो वास्तविक सर्वेक्षण परिणामों से मेल खाता है

आयु वितरण

बीच में उभरी हुई घड़ा-आकार की संरचना, जो कम जन्मदर और बढ़ती उम्रदराज़ आबादी वाले वर्तमान जनसंख्या ढाँचे को अच्छी तरह दर्शाती है
सबसे मोटा आयु खंड 50~64 वर्ष (लगभग 0.09 हिस्सेदारी) है, जो 1960~70 के baby boom generation से मेल खाता है
70 वर्ष से ऊपर के आयु वर्ग में महिलाओं का अनुपात पुरुषों की तुलना में स्पष्ट रूप से अधिक है
- 80~89 वर्ष समूह में महिलाओं का अनुपात पुरुषों का लगभग 1.52 गुना है

वैवाहिक स्थिति वितरण

अविवाहित अनुपात 19~24 वर्ष में 95% से अधिक, और 30s में 55%→31% तक घटता है, जो औसत पहली शादी की आयु 31~33 वर्ष के देर से विवाह रुझान से मेल खाता है
विवाहित अनुपात 35 वर्ष से 64% तक बढ़ता है और 50s के उत्तरार्ध में 78% पर शिखर पर पहुँचता है
विधवापन/विधुरता 60s से तेज़ी से बढ़ती है, 80s के उत्तरार्ध में 66%, और 90s में 74~81% तक पहुँचती है
तलाक 50s से शुरुआती 60s में लगभग 12% के साथ सबसे अधिक है, जो late-life divorce रुझान से मेल खाता है

परिवार प्रकार वितरण

सभी आयु समूहों में दंपति + अविवाहित बच्चे वाला परिवार सबसे बड़ा हिस्सा रखता है, 19 वर्ष की आयु पर 63.6% के साथ सर्वोच्च
50s के बाद केवल दंपति परिवार तेज़ी से बढ़ते हैं और 65~69 वर्ष में 45.7% पर शिखर पर पहुँचते हैं
single-person household शुरुआती 20s (15~22%) और 75 वर्ष के बाद (21~32%) में दोहरी-चोटी पैटर्न दिखाते हैं
माँ + अविवाहित बच्चे परिवार (5~14%) पिता + अविवाहित बच्चे परिवार (2~5%) से अधिक हैं, जिससे single-parent household में gender asymmetry दिखती है

शिक्षा स्तर वितरण

20~34 वर्ष के युवा समूह में 4-year university graduation rate 50% से अधिक है, और junior college को शामिल करने पर लगभग 75% के पास college या उससे ऊपर की शिक्षा है
80 वर्ष से ऊपर के लोगों में बिना औपचारिक शिक्षा (36%) और प्राथमिक विद्यालय (37%) मिलाकर कुल का 73% बनते हैं
क्षेत्रवार Sejong (49.0%), Seoul (45.1%), Daejeon (39.7%) में bachelor या उससे ऊपर की शिक्षा का अनुपात सबसे अधिक है
- Sejong में यह government complex के स्थानांतरण के कारण उच्च-शिक्षित सिविल सेवा और research workforce के आने से प्रभावित है

पेशागत वितरण

professionals और office workers का हिस्सा सबसे बड़ा है, जो service और knowledge-based economy structure को दर्शाता है
sales roles में online shopping salesperson (19.8%) पहले स्थान पर है, जो e-commerce की ऊँची हिस्सेदारी दिखाता है
elementary labor में building security guard (21.3%) और building cleaner (16.0%) पर अधिक concentration है
सैनिक कुल employed लोगों का लगभग 1% हैं, जिनमें दो-तिहाई से अधिक Army में हैं

तकनीकी सीमाएँ और प्रतिबंध

सार्वजनिक डेटा की उपलब्धता, timeliness, और PGM मॉडल की व्यावहारिक सीमाओं के कारण कुछ variables के बीच independence assumption लागू की गई
- उदाहरण: विस्तृत पेशा असाइन करते समय लिंग, आय, शिक्षा, major आदि को स्वतंत्र प्रभाव मान लिया गया, interactions को शामिल नहीं किया गया
gender पर व्यापक आँकड़े घरेलू सार्वजनिक डेटा में उपलब्ध नहीं हैं, इसलिए इसे शामिल नहीं किया गया
केवल 19 वर्ष या उससे अधिक आयु के वयस्क persona शामिल हैं
finance, healthcare आदि enterprise customer से जुड़े persona शामिल नहीं हैं

केवल LLM-आधारित तरीके की तुलना में सुधार

केवल LLM पर निर्भर होने पर शहरों का वितरण Suncheon और Changwon जैसे शहरों की ओर झुक गया था, जबकि Nemotron-Personas-Korea में Gyeonggi Hwaseong, Namyangju, Seoul Songpa आदि वास्तविक जनसंख्या-अनुपाती वितरण दिखता है
परिवार संरचना single-person household तक सीमित रहने के बजाय spouse के साथ रहना, spouse + children, parents के साथ रहना जैसी विविध संरचनाओं तक विस्तृत हुई
आवास स्वामित्व भी 100% self-owned से आगे बढ़कर स्वामित्व और किराये के वास्तविक अनुपात को दर्शाता है
भोजन वितरण भी केवल salad तक सीमित न रहकर bibimbap, Japanese food, chicken, galbi, samgyeopsal, tteokbokki, bunsik, bread, doenjang-jjigae, jajangmyeon जैसी वास्तविक खाद्य संस्कृति को दर्शाता है

सांस्कृतिक परावर्तन के उदाहरण

"ऑफ़िस से लौटते समय सहकर्मियों के साथ samgyeopsal और soju के साथ दिनभर की थकान दूर करने वाला 33 वर्षीय kangaroo generation का Jeong Jun" — Seoul Songpa निवासी, 4-year university, अविवाहित, माता-पिता के साथ रहने वाला, यानी कोरियाई समाज के kangaroo generation phenomenon को दर्शाता है
"Sim Soo-bong के गाने और family group chat में फोटो डालना पसंद करने वाली Ulsan की 73 वर्षीय Kim Chun-hee" — महिला, बिना औपचारिक शिक्षा, विवाहित, बेरोज़गार, यानी बुजुर्ग महिला आबादी को दर्शाता है

persona डेटासेट LLM के लिए क्यों उपयोगी है

हर व्यक्ति के पास अपना विशिष्ट ज्ञान होता है, और persona उस विशिष्ट ज्ञान का संक्षिप्त phenotype है
- उदाहरण: electric technician persona, LLM से बिजली-संबंधी ज्ञान निकलवाने का माध्यम बन सकता है
सिंथेटिक डेटा में diversity बहुत महत्वपूर्ण metric है, और मनुष्य स्वयं diversity का सबसे अच्छा स्रोत हैं
"{दिए गए persona} से संबंधित logical reasoning problem बनाओ" जैसे रूप में persona-विशिष्ट विविध सिंथेटिक training data बनाया जा सकता है

वास्तविक उपयोग के उदाहरण

सामान्य tool-use performance में सुधार: user-LLM को tool set और persona साथ देकर डेटा synthesis और training कराई जाती है। Nemotron-Nano-9B-v2-Japanese ने यही methodology अपनाकर Nejumi leaderboard में पहला स्थान हासिल किया। इसी तरह के तरीक़े Nemotron Nano v3 और Super v3 में भी लागू किए गए
मॉडल safety में सुधार: Sensitive-safety-category-refusals (SSCR) डेटासेट के seed data के रूप में उपयोग। SSCR डेटासेट nemotron-safety-blend में शामिल है

उपयोग का तरीका और लाइसेंस

Python datasets लाइब्रेरी में load_dataset("nvidia/Nemotron-Personas-Korea") कॉल करके लोड किया जा सकता है
CC BY 4.0 लाइसेंस के तहत व्यावसायिक और गैर-व्यावसायिक दोनों उपयोगों के लिए स्वतंत्र रूप से उपलब्ध
NeMo Data Designer में सीधे इस्तेमाल की जा सकने वाली एक expanded version भी अलग से उपलब्ध है

10 टिप्पणियां

calmlake79 2026-04-27

मैं भी इसे GeekNews पर एक बार पोस्ट करने वाला था..

https://manyperson.com/

मैं इससे संबंधित persona service बना रहा हूँ.
इसी तरह MDIS data का इस्तेमाल करके मैंने Gemini का उपयोग किया.

calmlake79 2026-04-27

Show GN: ManyPerson - Statistics Korea MDIS आधारित कोरियाई AI persona जनमत सिम्युलेटर

recast7838 2026-04-27

सामग्री के लिए धन्यवाद।

rlaaudgjs5638 2026-04-27

अच्छी सामग्री के लिए धन्यवाद। इस तरह personas तैयार किए जाते हैं।

dongho42 2026-04-27

उपयोगी है!

civilian 2026-04-27

https://github.com/civilian7/korean-people-persona

व्यक्तिगत आवश्यकता के कारण,
सार्वजनिक रूप से उपलब्ध डेटा को sqlite3 में बदलने वाला एक Python प्रोग्राम और
एक mcp server sample बनाकर अपलोड किया है.

nvkzrx 2026-04-27

लगता है कि 20s आयु वर्ग में 4-वर्षीय विश्वविद्यालय में प्रवेश दर 50% से कम होना अभी कुछ समय पहले तक की बात थी, लेकिन अब शायद वह इसे पार कर चुकी है।

nvkzrx 2026-04-27

दिलचस्प आँकड़े काफ़ी हैं।

xguru 2026-04-27

मैंने इस dataset की प्रस्तुति सामग्री का संदर्भ लेकर विवरण को और समृद्ध किया है.

Nemotron-Personas-Korea, हमारे देश का पहला persona dataset प्रस्तुत है! - LinkedIn

Nemotron-Personas-Korea : हमारे देश का पहला persona dataset - PDF लिंक

xguru 2026-04-27

विदेशी LLMs जो बनाते हैं, उनकी तुलना में ये personas काफ़ी ज़्यादा वास्तविक लगते हैं。

"श्री Park Ho-cheol हेडसेट पहनकर दिन भर दर्जनों तीखे शिकायत कॉल शांतिपूर्वक संभालते हैं, और जटिल insurance terms को ऐसे आसान ढंग से समझाते हैं जैसे पड़ोस के कोई अंकल समझा रहे हों — वे Wonju insurance center के एक अनुभवी सलाहकार हैं।

"उन्होंने Paju के Imjin River किनारे के शांत नज़ारों के बीच दशकों बिताए हैं, और हाई स्कूल से स्नातक होते ही सीधे plumbing field में उतरकर शरीर से सीखी जीवन की गहरी समझ हासिल की है। हाल के दिनों में वे स्मार्टफोन पर नए home appliance reviews और दुनिया-जहान की वीडियो देखते हुए नई जानकारी पर भी ध्यान दे रहे हैं."

NVIDIA Nemotron-Personas-Korea - दक्षिण कोरिया के वास्तविक जनसंख्या वितरण पर आधारित 10 लाख सिंथेटिक persona डेटासेट

मौजूदा LLM द्वारा बनाए गए कोरियन persona की समस्याएँ

डेटासेट का अवलोकन और उद्देश्य

डेटा स्रोत और निर्माण विधि

डेटासेट का आकार और संरचना

नाम वितरण

आयु वितरण

वैवाहिक स्थिति वितरण

परिवार प्रकार वितरण

शिक्षा स्तर वितरण

पेशागत वितरण

तकनीकी सीमाएँ और प्रतिबंध

केवल LLM-आधारित तरीके की तुलना में सुधार

सांस्कृतिक परावर्तन के उदाहरण

persona डेटासेट LLM के लिए क्यों उपयोगी है

वास्तविक उपयोग के उदाहरण

उपयोग का तरीका और लाइसेंस

संबंधित पढ़ाई

10 टिप्पणियां