NVIDIA Nemotron-Personas-Korea - दक्षिण कोरिया के वास्तविक जनसंख्या वितरण पर आधारित 10 लाख सिंथेटिक persona डेटासेट
(huggingface.co)- दक्षिण कोरिया के Statistics Korea, Supreme Court, National Health Insurance Service आदि के सार्वजनिक डेटा पर आधारित, वास्तविक जनसांख्यिकीय, भौगोलिक और व्यक्तित्व वितरण को दर्शाने वाला पहला बड़े पैमाने का Korean persona डेटासेट
- 10 लाख रिकॉर्ड में 70 लाख persona शामिल हैं, और यह नाम, लिंग, आयु, वैवाहिक स्थिति, शिक्षा स्तर, पेशा, निवास क्षेत्र आदि 26 फ़ील्ड से बना है
- एंटरप्राइज़-ग्रेड सिंथेटिक डेटा जनरेशन सिस्टम NeMo Data Designer और
google/gemma-4-31B-itमॉडल का उपयोग करके बनाया गया - मौजूदा persona डेटासेट की तुलना में वृद्ध आबादी, ग्रामीण क्षेत्र, और विविध शिक्षा व पेशागत वितरण को अधिक निष्ठा से दर्शाकर sovereign AI मॉडल के bias को कम करने में योगदान
- CC BY 4.0 लाइसेंस के तहत व्यावसायिक और गैर-व्यावसायिक दोनों उपयोगों के लिए स्वतंत्र रूप से उपलब्ध
मौजूदा LLM द्वारा बनाए गए Korean persona की समस्याएँ
- persona किसी व्यक्ति की विशिष्ट विशेषताओं, रुचियों, व्यक्तित्व और पेशे आदि का विवरण होता है, और persona से बने डेटासेट को उस समूह की सांस्कृतिक और वितरणगत विशेषताओं को सही तरह से दिखाना चाहिए
- विदेशी LLM को "कोरियाई समाज के यथार्थवादी और विविध व्यक्ति-प्रोफ़ाइल बनाओ" जैसा प्रॉम्प्ट देने पर भी परिणाम गंभीर रूप से विकृत होते हैं
- बनाए गए persona में 40% ने सलाद को अपनी पसंदीदा डिश चुना, या "मैं Gyeongsangbuk-do के Andong शहर में सेब का बाग चलाता हूँ" जैसे अवास्तविक परिणाम मिले
- Claude Opus 4.7 से देश के 2,000 persona का रैंडम सैंपल लेने पर, पेशागत वितरण में 77.6% को "yuzu उगाने वाला किसान" बनाया गया — यह अत्यधिक bias दिखाता है
- GPT-5.4 के मामले में 90.1% को "care worker" बनाया गया
- शहर वितरण, परिवार संरचना, आवास स्वामित्व, भोजन पसंद आदि हर पहलू में दक्षिण कोरिया की वास्तविक स्थिति से मेल न खाने वाले bias मौजूद हैं
डेटासेट का अवलोकन और उद्देश्य
- दक्षिण कोरिया की जनसंख्या की विविधता और विशेषताओं को व्यापक रूप से दर्शाने के लिए डिज़ाइन किया गया एक open source सिंथेटिक persona डेटासेट
- कोरियाई भाषा में लिखा गया ताकि कोई भी आसानी से पढ़ सके
- sovereign AI सिस्टम बनाते समय ट्रेनिंग डेटा में मौजूद missing data और संभावित bias को कम करना इसका मुख्य लक्ष्य है
- सिंथेटिक डेटा जनरेशन में उपयोग होने वाले मौजूदा persona डेटासेट के bias, खासकर आयु, क्षेत्र, शिक्षा स्तर और पेशे के आयामों में bias को कम करने पर फोकस
डेटा स्रोत और निर्माण पद्धति
- KOSIS (Statistics Korea National Statistical Portal) के लिंग, क्षेत्र, उद्योग, पेशा, यात्रा और अवकाश जीवन से जुड़े जनगणना डेटा का उपयोग
- Supreme Court के जन्म वर्ष, लिंग और नाम डेटा; National Health Insurance Service की स्वास्थ्य जांच जानकारी; और Korea Rural Economic Institute के खाद्य उपभोग व्यवहार सर्वेक्षण के परिणामों का उपयोग
- NAVER Cloud ने डिज़ाइन चरण में प्रारंभिक डेटा और डोमेन विशेषज्ञता प्रदान की
- स्वदेशी Probabilistic Graphical Model (PGM), Apache-2.0 लाइसेंस वाला
google/gemma-4-31B-itमॉडल, और NeMo Data Designer की validation व evaluation विधियों का उपयोग - नाम, आयु, लिंग, क्षेत्र, विवाह, परिवार, आवास, शिक्षा, विशेषज्ञता क्षेत्र, आर्थिक गतिविधि, आय, उद्योग, पेशा, रक्तचाप, ब्लड शुगर, कमर घेराव, BMI, यात्रा, अवकाश जीवन, पसंदीदा रेस्तरां प्रकार, डिलीवरी और बाहर खाने की आवृत्ति आदि को शामिल करता है
- सभी डेटा वास्तविक वितरण को दर्शाते हैं, लेकिन पूरी तरह कृत्रिम रूप से सिंथेटिक हैं; किसी वास्तविक व्यक्ति से समानता मात्र संयोग है
डेटासेट का आकार और संरचना
- कुल 1.7 अरब tokens (persona के 1 अरब tokens) से बना 10 लाख रिकॉर्ड का डेटासेट
- 26 फ़ील्ड: 7 persona फ़ील्ड, 6 persona attribute फ़ील्ड, 12 demographic और geographic context फ़ील्ड, और 1 unique identifier
- 17 प्रांत/महानगर और 252 शहर/काउंटी/जिले की व्यापक प्रशासनिक कवरेज
- 2.09 लाख से अधिक unique full-name combinations (118 surnames, 21,400 given names)
- 7 persona प्रकार: पेशा, खेल, कला, यात्रा, भोजन, परिवार, सारांश
- अतिरिक्त persona attributes: सांस्कृतिक पृष्ठभूमि, तकनीकी कौशल और विशेषज्ञता, करियर लक्ष्य व आकांक्षाएँ, शौक और रुचियाँ
नाम वितरण
- वर्तमान में दक्षिण कोरिया में सार्वजनिक रूप से उपलब्ध नाम डेटा केवल 2008 के बाद तक सीमित है
- Nemotron-Personas-Korea 1940 से दक्षिण कोरिया के संपूर्ण नाम डेटा पर आधारित पहला सार्वजनिक डेटासेट है
- "82 वर्षीय Kim Hayul?" और "21 वर्षीय Kim Soon-ja?" जैसे समय-संदर्भ से मेल न खाने वाले नाम आवंटन की समस्या को हल करता है
- surname वितरण में Kim (21.5%), Lee (14.7%), Park (8.5%), Jeong (4.8%), Choi (4.7%) जैसे शीर्ष 5 surnames कुल का लगभग 54% हैं
- नामों में लिंग और जन्म वर्ष के अनुसार पीढ़ीगत naming trends को दर्शाया गया है
- महिलाएँ: Yeong-suk, Jeong-suk, Soon-ja जैसे बुज़ुर्ग पीढ़ी के नाम और Ji-young, Yu-jin, Ji-hyeon जैसे युवा पीढ़ी के नाम साथ मौजूद
- पुरुष: Ji-hoon, Hyeon-woo, Jun-ho जैसे आधुनिक नाम शीर्ष पर
- सबसे अधिक बार आने वाला पूरा नाम Kim Yeong-suk है, जो वास्तविक सर्वेक्षण परिणामों से मेल खाता है
आयु वितरण
- बीच में उभरी हुई मटके जैसी संरचना दिखती है, जो कम जन्मदर और बढ़ती वृद्धावस्था वाली मौजूदा जनसंख्या संरचना को ठीक से दर्शाती है
- सबसे मोटा खंड 50–64 वर्ष (लगभग 0.09 अनुपात) है, जो 1960–70 के baby boom generation से मेल खाता है
- 70 वर्ष से ऊपर की वृद्ध आबादी में महिलाओं का अनुपात पुरुषों से स्पष्ट रूप से अधिक है
- 80–89 वर्ष आयु वर्ग में महिलाओं का अनुपात पुरुषों का लगभग 1.52 गुना है
वैवाहिक स्थिति वितरण
- अविवाहित अनुपात 19–24 वर्ष में 95% से अधिक है, और 30s में 55%→31% तक घटता है, जो औसत प्रथम विवाह आयु 31–33 वर्ष और देर से विवाह की प्रवृत्ति से मेल खाता है
- विवाहित अनुपात 35 वर्ष से 64% तक बढ़ता है, और 50s के उत्तरार्ध में 78% पर शिखर पर पहुँचता है
- विधवा/विधुर अनुपात 60s से तेज़ी से बढ़ता है और late 80s में 66%, 90s में 74–81% तक पहुँचता है
- तलाक का अनुपात 50s से early 60s में लगभग 12% के साथ सबसे अधिक है, जो late-life divorce trend से मेल खाता है
परिवार प्रकार वितरण
- सभी आयु वर्गों में दंपति + अविवाहित संतान परिवार सबसे बड़ा हिस्सा है, जो 19 वर्ष की आयु पर 63.6% के साथ उच्चतम है
- 50s के बाद दंपति परिवार तेज़ी से बढ़ते हैं और 65–69 वर्ष में 45.7% पर शिखर पर पहुँचते हैं
- single-person household में early 20s (15–22%) और 75 वर्ष के बाद (21–32%) पर दो-शिखरी पैटर्न है
- माँ + अविवाहित संतान परिवार (5–14%) का अनुपात पिता + अविवाहित संतान (2–5%) से अधिक है, जो single-parent households में gender asymmetry दिखाता है
शिक्षा स्तर वितरण
- 20–34 वर्ष के युवा वर्ग में 4-वर्षीय विश्वविद्यालय स्नातक अनुपात 50% से अधिक है, और junior college को शामिल करने पर लगभग 75% के पास कॉलेज या उससे ऊपर की शिक्षा है
- 80 वर्ष से अधिक आयु वर्ग में निरक्षर (36%) और प्राथमिक विद्यालय (37%) मिलकर कुल का 73% हैं
- क्षेत्रीय रूप से bachelor या उससे ऊपर की डिग्री का अनुपात Sejong (49.0%), Seoul (45.1%), और Daejeon (39.7%) में सबसे अधिक है
- Sejong में इसका कारण Government Complex Sejong के स्थानांतरण के बाद उच्च-शिक्षित सरकारी व शोध कर्मियों का आगमन है
पेशागत वितरण
- professionals और office workers का हिस्सा सबसे बड़ा है, जो service और knowledge-based economy संरचना को दर्शाता है
- sales jobs में online shopping sales worker 19.8% के साथ पहले स्थान पर है, जो e-commerce के ऊँचे हिस्से को दिखाता है
- elementary labor jobs में building guard (21.3%) और building cleaner (16.0%) की अधिकता है
- सैनिक कुल नियोजित लोगों का लगभग 1% हैं, जिनमें Army का हिस्सा दो-तिहाई से अधिक है
तकनीकी सीमाएँ और प्रतिबंध
- सार्वजनिक डेटा की उपलब्धता, समयबद्धता और PGM मॉडल की व्यावहारिक सीमाओं के कारण कुछ चर के बीच independence assumptions लागू किए गए
- उदाहरण: विस्तृत पेशा आवंटित करते समय यह माना गया कि लिंग, आय, शिक्षा और विशेषज्ञता क्षेत्र स्वतंत्र रूप से प्रभाव डालते हैं, और interactions को शामिल नहीं किया गया
- gender पर व्यापक सांख्यिकी घरेलू सार्वजनिक डेटा में उपलब्ध नहीं है, इसलिए इसे शामिल नहीं किया गया
- केवल 19 वर्ष या उससे अधिक आयु के वयस्क persona शामिल हैं
- finance, healthcare आदि एंटरप्राइज़ ग्राहकों से संबंधित persona शामिल नहीं हैं
केवल LLM-आधारित विधि की तुलना में सुधार
- केवल LLM पर निर्भर रहने पर शहर वितरण Suncheon और Changwon जैसे शहरों में झुका हुआ था, जबकि Nemotron-Personas-Korea में Hwaseong (Gyeonggi), Namyangju, और Seoul Songpa-gu जैसे क्षेत्रों का वास्तविक जनसंख्या-आधारित वितरण दिखता है
- परिवार संरचना केवल single-person household तक सीमित रहने के बजाय spouse के साथ रहना, spouse + children, parents के साथ रहना जैसी विविध संरचनाओं तक विस्तृत हुई
- आवास स्वामित्व भी 100% owner-occupied होने के बजाय स्वामित्व और किराये के वास्तविक अनुपात को दर्शाता है
- भोजन वितरण भी केवल सलाद तक सीमित रहने के बजाय bibimbap, Japanese food, chicken, galbi, samgyeopsal, tteokbokki, bunsik, bread, doenjang-jjigae, jajangmyeon जैसी वास्तविक खाद्य संस्कृति को दर्शाता है
सांस्कृतिक प्रतिबिंब के उदाहरण
- "33 वर्षीय kangaroo generation के Jeong Jun, जो काम से लौटते समय सहकर्मियों के साथ samgyeopsal और soju के साथ दिन की थकान उतारते हैं" — Seoul Songpa-gu में निवास, 4-वर्षीय विश्वविद्यालय, अविवाहित, माता-पिता के साथ रहना आदि के माध्यम से कोरियाई समाज की kangaroo generation phenomenon को दर्शाता है
- "73 वर्षीय Kim Chun-hui, जिन्हें Sim Soo-bong के गीत और परिवार के group chat में तस्वीरें अपलोड करना पसंद है" — Ulsan की महिला, निरक्षर, विवाहित, बेरोज़गार — यह वृद्ध महिला आबादी को दर्शाता है
persona डेटासेट LLM के लिए उपयोगी क्यों है
- हर व्यक्ति के पास अद्वितीय ज्ञान होता है, और persona इस ज्ञान को समेटने वाला एक phenotype है
- उदाहरण: electrician persona, LLM से बिजली से संबंधित ज्ञान बाहर निकालने का माध्यम बन सकता है
- सिंथेटिक डेटा में diversity एक बहुत महत्वपूर्ण मापदंड है, और मनुष्य स्वयं diversity का सबसे अच्छा स्रोत हैं
- "{दिए गए persona} से संबंधित logical reasoning problems बनाओ" जैसे रूप में persona-आधारित विविध सिंथेटिक training data बनाया जा सकता है
वास्तविक उपयोग के उदाहरण
- सामान्य tool-use प्रदर्शन में सुधार: user-LLM को tool set और persona साथ देकर डेटा सिंथेसिस और training की गई। Nemotron-Nano-9B-v2-Japanese ने इसी methodology को अपनाकर Nejumi leaderboard में पहला स्थान हासिल किया। इसी तरह का तरीका Nemotron Nano v3 और Super v3 में भी जोड़ा गया
- मॉडल सुरक्षा में सुधार: Sensitive-safety-category-refusals (SSCR) डेटासेट के seed data के रूप में उपयोग। SSCR डेटासेट
nemotron-safety-blendमें शामिल है
उपयोग विधि और लाइसेंस
- Python
datasetsलाइब्रेरी मेंload_dataset("nvidia/Nemotron-Personas-Korea")कॉल करके लोड किया जा सकता है - CC BY 4.0 लाइसेंस के तहत व्यावसायिक और गैर-व्यावसायिक दोनों उपयोग के लिए स्वतंत्र रूप से उपलब्ध
- NeMo Data Designer में सीधे उपयोग की जा सकने वाली विस्तारित version भी अलग से उपलब्ध है
10 टिप्पणियां
मैं भी इसे GeekNews पर एक बार पोस्ट करने वाला था..
https://manyperson.com/
मैं इससे संबंधित persona service बना रहा हूँ.
इसी तरह MDIS data का इस्तेमाल करके मैंने Gemini का उपयोग किया.
Show GN: ManyPerson - Statistics Korea MDIS आधारित कोरियाई AI persona जनमत सिम्युलेटर
सामग्री के लिए धन्यवाद।
अच्छी सामग्री के लिए धन्यवाद। इस तरह personas तैयार किए जाते हैं।
उपयोगी है!
https://github.com/civilian7/korean-people-persona
व्यक्तिगत आवश्यकता के कारण,
सार्वजनिक रूप से उपलब्ध डेटा को sqlite3 में बदलने वाला एक Python प्रोग्राम और
एक mcp server sample बनाकर अपलोड किया है.
लगता है कि 20s आयु वर्ग में 4-वर्षीय विश्वविद्यालय में प्रवेश दर 50% से कम होना अभी कुछ समय पहले तक की बात थी, लेकिन अब शायद वह इसे पार कर चुकी है।
दिलचस्प आँकड़े काफ़ी हैं।
मैंने इस dataset की प्रस्तुति सामग्री का संदर्भ लेकर विवरण को और समृद्ध किया है.
Nemotron-Personas-Korea, हमारे देश का पहला persona dataset प्रस्तुत है! - LinkedIn
Nemotron-Personas-Korea : हमारे देश का पहला persona dataset - PDF लिंक
विदेशी LLMs जो बनाते हैं, उनकी तुलना में ये personas काफ़ी ज़्यादा वास्तविक लगते हैं。
"श्री Park Ho-cheol हेडसेट पहनकर दिन भर दर्जनों तीखे शिकायत कॉल शांतिपूर्वक संभालते हैं, और जटिल insurance terms को ऐसे आसान ढंग से समझाते हैं जैसे पड़ोस के कोई अंकल समझा रहे हों — वे Wonju insurance center के एक अनुभवी सलाहकार हैं।
"उन्होंने Paju के Imjin River किनारे के शांत नज़ारों के बीच दशकों बिताए हैं, और हाई स्कूल से स्नातक होते ही सीधे plumbing field में उतरकर शरीर से सीखी जीवन की गहरी समझ हासिल की है। हाल के दिनों में वे स्मार्टफोन पर नए home appliance reviews और दुनिया-जहान की वीडियो देखते हुए नई जानकारी पर भी ध्यान दे रहे हैं."