- LLM के रिज़्यूमे जनरेशन और मूल्यांकन, दोनों में इस्तेमाल होने से, मूल्यांकन मॉडल द्वारा अपने ही बनाए आउटपुट को अधिक चुनने की self-preference भर्ती स्क्रीनिंग में एक नए bias के रूप में उभर रही है
- अध्ययन ने generative AI के व्यापक प्रसार से पहले एकत्र किए गए मानव-लिखित 2,245 रिज़्यूमे के आधार पर GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 जैसे कई LLM द्वारा बनाए गए counterfactual रिज़्यूमे का तुलनात्मक मूल्यांकन किया
- अधिकांश मॉडलों में LLM-vs-Human self-preference स्पष्ट और मजबूत रूप से दिखी, और प्रमुख commercial व open source मॉडलों में मानव-लिखित रिज़्यूमे की तुलना में self-preference bias 67%~82% के दायरे में था
- 24 नौकरी-श्रेणियों के भर्ती pipeline simulation में, जो उम्मीदवार मूल्यांकन LLM के समान LLM का उपयोग करते थे, उनके समान योग्यता वाले मानव-लिखित रिज़्यूमे जमा करने वाले उम्मीदवारों की तुलना में final shortlist तक पहुँचने की संभावना लगभग 23%~60% अधिक थी
- स्रोत को नज़रअंदाज़ कर केवल सामग्री पर ध्यान देने के लिए system prompting और majority-vote ensemble ने सभी परीक्षण किए गए LLM में LLM-vs-Human self-preference को सापेक्ष रूप से 17%~63% तक घटाया
AI self-preference से भर्ती मूल्यांकन में पैदा होने वाला नया bias
- जब बड़े language model (LLM) का उपयोग content generation और evaluation, दोनों में होता है, तो उसी मॉडल द्वारा बनाए गए आउटपुट को अधिक अंक देने वाली self-preference भर्ती जैसे decision-making process में एक नए bias के रूप में उभरती है
- भर्ती में, उम्मीदवार LLM से रिज़्यूमे लिखवा या निखार सकते हैं, और नियोक्ता समान tools से रिज़्यूमे screen या rank कर सकते हैं, इसलिए AI-AI interaction वास्तविक मूल्यांकन परिणामों को प्रभावित कर सकती है
- जहाँ मौजूदा fairness चर्चा मुख्यतः demographic विशेषताओं पर आधारित भेदभाव पर केंद्रित रही है, वहीं self-preference इस मायने में अलग है कि यह evaluation model और generation model के संबंध से भीतर ही भीतर पैदा होने वाला bias है
- यह bias समान क्षमता वाले उम्मीदवारों में भी उस उम्मीदवार को लाभ पहुँचा सकता है जिसने मूल्यांकन में इस्तेमाल हो रहे LLM जैसा ही मॉडल इस्तेमाल किया हो, जबकि अन्य tools या बिना AI का उपयोग करने वाले उम्मीदवारों के लिए यह नुकसानदेह हो सकता है
- रिज़्यूमे screening बड़े applicant pool को सीमित interview व evaluation चरणों तक घटाने वाला प्रारंभिक bottleneck चरण है, इसलिए इस ऊपरी स्तर की गलतियाँ आगे के candidate pool और hiring अवसरों के वितरण पर लंबे समय तक असर डाल सकती हैं
प्रयोग की रूपरेखा और मापन पद्धति
- प्रयोग professional रिज़्यूमे लेखन platform से एकत्र किए गए मानव-लिखित 2,245 रिज़्यूमे पर आधारित है, और इसमें generative AI के व्यापक उपयोग से पहले का डेटा इस्तेमाल किया गया
- प्रत्येक रिज़्यूमे के लिए कई आधुनिक LLM की मदद से counterfactual versions बनाए गए, ताकि उसी उम्मीदवार की योग्यता, अनुभव और पृष्ठभूमि समान रहे और केवल अभिव्यक्ति का तरीका बदले
- इस्तेमाल किए गए मॉडल हैं: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
- evaluation LLM उसी उम्मीदवार का प्रतिनिधित्व करने वाले दो रिज़्यूमे में से अधिक मजबूत रिज़्यूमे चुनने वाली pairwise comparison करता है, जहाँ मूल्यांकन किए जा रहे रिज़्यूमे में केवल स्रोत अलग होता है
- self-preference को दो रूपों में बाँटा गया है
-
LLM-vs-Human self-preference
- इसका अर्थ है कि evaluation LLM अपने द्वारा बनाए गए रिज़्यूमे को मानव द्वारा लिखे गए समान स्तर के रिज़्यूमे से अधिक पसंद करे
-
LLM-vs-LLM self-preference
- इसका अर्थ है कि evaluation LLM किसी दूसरे LLM द्वारा बनाए गए रिज़्यूमे की तुलना में अपने ही बनाए गए रिज़्यूमे को अधिक पसंद करे
- इस संदर्भ में evaluation LLM एक binary classifier की तरह काम करता है, और bias को मापने के लिए fairness literature के statistical parity और equal opportunity मानदंडों का उपयोग किया जाता है
- statistical parity आधारित self-preference bias को evaluation LLM द्वारा बनाए गए रिज़्यूमे के चुने जाने की संभावना और मानव या दूसरे LLM द्वारा बनाए गए रिज़्यूमे के चुने जाने की संभावना के अंतर के रूप में परिभाषित किया गया है
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
- यहाँ
S = 1 का अर्थ evaluation LLM f द्वारा बनाया गया रिज़्यूमे है, और S = 0 का अर्थ मानव या दूसरे LLM द्वारा बनाया गया रिज़्यूमे है
Y'_f = 1 का अर्थ है कि evaluation LLM f ने उस रिज़्यूमे को अधिक मजबूत रिज़्यूमे के रूप में चुना
- statistical parity के अंतर को सीधे bias मानने में सावधानी ज़रूरी है
- यह अंतर self-preference के कारण हो सकता है, लेकिन यह उसी उम्मीदवार की जानकारी को अधिक स्पष्ट, सुसंगत और प्रवाहपूर्ण ढंग से व्यक्त करने वाली content quality के अंतर के कारण भी हो सकता है
- यहाँ content quality से आशय उम्मीदवार की योग्यता या पृष्ठभूमि के अंतर से नहीं, बल्कि वही जानकारी देने की स्पष्टता, सुसंगति, प्रवाह और संरचना से है
प्रमुख अनुभवजन्य निष्कर्ष
- अधिकांश मॉडलों में LLM-vs-Human self-preference मजबूत और लगातार दिखाई दी
- GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, LLaMA 3.3-70B जैसे बड़े मॉडल content quality को नियंत्रित करने के बाद भी 65% से अधिक का मजबूत bias दिखाते हैं
- GPT-4o के मामले में LLM-vs-Human self-preference 80% से अधिक थी, और प्रमुख commercial तथा open source मॉडलों में मानव-लिखित रिज़्यूमे के विरुद्ध self-preference bias 67%~82% के दायरे में दिखाई दिया
- LLM-vs-LLM self-preference में मॉडल-दर-मॉडल अंतर अधिक बड़ा था
- DeepSeek-V3 ने इस सेटिंग में सबसे मजबूत bias दिखाया, और LLaMA 3.3-70B की तुलना में अपने आउटपुट को 69% अधिक पसंद किया
- DeepSeek-V3 ने GPT-4o की तुलना में भी अपने आउटपुट को 28% अधिक पसंद किया
- GPT-4o और LLaMA 3.3-70B ने दूसरे मॉडलों द्वारा उत्पन्न content का मूल्यांकन करते समय लगातार self-preference नहीं दिखाई
- मूल्यांकन उम्मीदवार की वास्तविक योग्यता से अधिक इस बात से प्रभावित हो सकता है कि वह evaluation LLM की generation style से कितना मेल खाता है
- यह bias उन उम्मीदवारों को अनुचित लाभ दे सकता है जिनके पास किसी खास generation तकनीक या मॉडल तक पहुँच है, और दूसरों के लिए यह नुकसानदेह हो सकता है
भर्ती pipeline पर प्रभाव
- 24 नौकरी-श्रेणियों पर यथार्थवादी भर्ती pipeline का simulation कर self-preference के candidate selection परिणामों पर operational प्रभाव को मापा गया
- जो उम्मीदवार मूल्यांकन में उपयोग किए गए LLM जैसा ही LLM इस्तेमाल करते थे, उनके समान योग्यता वाले मानव-लिखित रिज़्यूमे जमा करने वाले उम्मीदवारों की तुलना में final shortlist पर आने की संभावना लगभग 23%~60% अधिक थी
- नुकसान सबसे अधिक लेखा, sales, finance जैसे business-संबंधित क्षेत्रों में देखा गया
- कृषि, कला और automotive-संबंधित क्षेत्रों में यह नुकसान अपेक्षाकृत कम स्पष्ट था
- यदि यही लाभ भर्ती चक्रों में बार-बार दोहराया जाए, तो प्रभावशाली LLM द्वारा पसंद की जाने वाली रिज़्यूमे शैली applicant pool में धीरे-धीरे स्थिर हो सकती है, जिससे lock-in effect पैदा हो सकता है
- ऐसा lock-in effect candidate selection की विविधता घटा सकता है और मूल्यांकन अवसरों के वितरण में असमानता बढ़ा सकता है
- भर्ती pipeline में interview और evaluation जैसे आगे के चरणों की क्षमता सीमित होती है, इसलिए शुरुआती रिज़्यूमे screening में false negative योग्य उम्मीदवारों को अपरिवर्तनीय रूप से बाहर कर सकते हैं, जबकि false positive सीमित मूल्यांकन संसाधनों को खर्च कराते हैं
mitigation strategy और fairness के निहितार्थ
- self-preference की मुख्य mechanism के रूप में self-recognition प्रस्तावित किया गया है
- self-recognition का अर्थ है मॉडल की यह क्षमता कि वह अपने द्वारा बनाए गए content को अप्रत्यक्ष रूप से पहचान सके
- पूर्व शोध में GPT-4 और LLaMA 2 जैसे LLM ने उल्लेखनीय self-recognition क्षमता दिखाई, और self-recognition क्षमता तथा self-preference bias के आकार के बीच मजबूत positive correlation पाया गया
- दो सरल mitigation strategies प्रस्तावित की गईं
-
system prompting
- मॉडल को स्पष्ट रूप से निर्देश दिया जाता है कि वह रिज़्यूमे के स्रोत को नज़रअंदाज़ करे और केवल वास्तविक सामग्री पर ध्यान दे
-
majority-vote ensemble
- evaluation model के साथ self-recognition में अपेक्षाकृत कमजोर छोटे मॉडलों को जोड़कर, एकल LLM के bias को dilute किया जाता है
- सभी परीक्षण किए गए LLM में इन interventions ने LLM-vs-Human self-preference को सापेक्ष रूप से 17%~63% तक घटाया
- कई मामलों में केवल self-recognition को लक्ष्य बनाने वाले सरल interventions से bias को 50% से अधिक घटाया जा सकता है
- self-preference bias व्यापक है और भर्ती परिणामों पर वास्तविक असर डालता है, लेकिन यह स्थिर गुण नहीं है और design interventions से इसे काफी हद तक कम किया जा सकता है
- AI-आधारित भर्ती के fairness framework को केवल protected attributes पर आधारित भेदभाव ही नहीं, बल्कि generation और evaluation में उपयोग किए गए AI systems के बीच पैदा होने वाले interaction bias को भी संबोधित करना होगा
- कंपनियों की AI governance और responsible operational design में केवल input data और protected attributes ही नहीं, बल्कि यह भी शामिल होना चाहिए कि उम्मीदवार सामग्री किस मॉडल से बनाई गई और उसका मूल्यांकन किस मॉडल से किया गया
1 टिप्पणियां
Hacker News की राय
अगर LinkedIn पर लिखी बात को ज्यों का त्यों दोहराएँ, तो पेपर सही से पढ़ा हो तो यह वास्तव में यह नहीं दिखाता कि LLM अपने ही बनाए हुए resume को पसंद करता है
असली तरीका शायद यह था कि इंसान द्वारा लिखे गए resume से executive summary हटा दी गई, फिर बाकी resume के आधार पर LLM ने executive summary दोबारा लिखी, और उसके बाद किसी दूसरे LLM ने बाकी resume देखे बिना सिर्फ उस summary का मूल्यांकन किया
मान भी लें कि यह design वास्तविक प्रभाव को पकड़ता है, तब भी यह असर को काफी बढ़ा-चढ़ाकर दिखा सकता है। लेखकों ने design की वजह बताई है, लेकिन वह पर्याप्त justification नहीं लगती: https://news.ycombinator.com/item?id=47987256#47987727
HR अगर LLM इस्तेमाल करता है तो job seekers को भी करना पड़ेगा, और बाद में अच्छे applicants LLM इस्तेमाल करते हैं इसलिए HR को भी करना पड़ेगा—ऐसा एक circular loop बन जाता है
यह सिर्फ एक sample size वाली anecdote है, लेकिन layoff के बाद अगली role तलाशते समय मेरे खुद लिखे resume पर career के हिसाब से खास response नहीं मिल रहा था
मज़े के लिए मैंने ChatGPT से resume analyze करवाकर score देने को कहा, और फिर score को जितना हो सके उतना बढ़ाने के लिए उसे edit करवाया। बाद में fact-check और corrections करके भेजा, तो पहले की तुलना में response rate काफी बढ़ गया
यह market condition या timing की वजह से भी हो सकता है, लेकिन interviews clear करके skill साबित करनी तो फिर भी पड़ी, और कम से कम शुरुआती barrier पार करने में यह मददगार लगा
बाद में उसने ChatGPT 5.x की मदद ली, और सुझाए गए बदलावों की एक जैसी AI writing style देखकर वह skeptical थी, लेकिन कुछ ही दिनों में recruiters के messages और application progress शुरू हो गए
hiring process के हर हिस्से में LLM घुसते जा रहे हैं, इसलिए अगर LLM resume नहीं लिखता तो अब मुश्किल बढ़ जाती लगती है। Resume review करने वाला LLM शायद उसी भाषा में न लिखे गए profile को, जो उसके “सही neurons” trigger करे, कम score देता है
सहज रूप से यह स्वाभाविक लगता है। Model द्वारा बनाया गया content training data से प्रभावित होता है, इसलिए दोबारा पढ़ते समय वही training distribution उससे मेल खा सकती है और वह उसे सकारात्मक रूप से evaluate कर सकता है
जैसे कोई इंसान कहे “resume को और professional बना दो”, और कुछ दिनों बाद LLM HR report में कहे, “यह resume सचमुच बहुत professional है”
इसी वजह से code generation के लिए इस्तेमाल होने वाली LLM family और code review के लिए इस्तेमाल होने वाली LLM family को अलग रखने की मेरी व्यक्तिगत policy सही ठहरती है। मतलब अपना ही homework खुद grade करने से बचना
link याद नहीं, लेकिन बहुत दिलचस्प था
लोगों की सहमति के बिना उनके बीच एक और entity डाल दी जा रही है। Model यह तय करने वाला मध्यस्थ बन जाता है कि किसे नौकरी मिले और किसे नहीं, इसलिए यह समस्या लगती है
अगर HR department ChatGPT से resumes filter करता है, तो आखिरकार वे ChatGPT से बनाए गए resumes वाले लोगों को चुनेंगे। मैं slippery slope argument नहीं देना चाहता, लेकिन intuition कहती है कि इससे संगठन की quality तेज़ी से गिर सकती है
दूसरी ओर मैं plumber और subcontractor हूँ, और मुझे ज़्यादातर काम phone, text, एक-दो emails, और भरोसेमंद referrals से मिलता है। 8 साल से ज़्यादा हो गए, मैंने traditional resume practically देखा ही नहीं
अगर किसी से communication शुरू होते ही वह कंप्यूटर जैसा लगे, तो वह तुरंत दूसरे client की तरफ बढ़ जाने का संकेत होता है। अगर वह मेरे साथ सीधे बात करने का समय भी नहीं निकाल सकता, तो उसके लिए मैं सैकड़ों घंटे की physical labor कैसे करूँगा?
अंत में गरीब लोगों के resume अमीरों से खराब हो सकते हैं, और अगर बीच का model अंतिम निर्णय की ताकत रखता है, तो इससे बचने का रास्ता भी लगभग नहीं बचेगा
Tech field में resume आखिरकार, या शायद अभी से ही, पुराना पड़ने वाला है। Signal-to-noise ratio इतना कम है कि filtering की value बहुत सीमित रह जाती है
GPA, certifications, और previous roles जैसे अपेक्षाकृत मजबूत signals भी शुरुआती screening interview performance से अच्छी तरह नहीं जुड़ते
इसलिए मुझे लगता है कि industry को सबसे ज़्यादा ज़रूरत एक testing consortium की है। University name से क्षमता का अनुमान लगाने के बजाय, बड़ी tech companies domain-wise standard tests बनाएँ, और वही scores resume बन जाएँ, ताकि developers resume writing और बार-बार screening के बेकार काम के बजाय score improve करने पर ध्यान दे सकें
वैसे भी “enterprise” certifications क्या पहले से कुछ ऐसा ही काम नहीं कर रहे?
यह मूल रूप से LeetCode को effective hiring tool बताने जैसा है, और इस पर काफ़ी आलोचना होनी चाहिए
यह काफ़ी दिलचस्प mind game बन सकता है। अगर आप किसी company में apply कर रहे हैं और जानते हैं कि वह कौन-सा applicant tracking system इस्तेमाल करती है, और वह system किसी खास model provider का filter इस्तेमाल करता है, तो company को भेजने वाला resume version उसी model से लिखवाना सही होगा
लगता है पूरी industry automatic evaluators इस्तेमाल कर रही है। यानी agent instances से agents के outputs को score कराया जा रहा है
इरादा कुछ वैसा है जैसा human labelers को हटाकर adversarial neural net image generation training में होता है। तब teams automatic evaluator score बढ़ाने को optimization metric बना लेंगी, और आखिरकार यह होना हैरानी की बात नहीं होगी कि agents अपने ही generated content को सबसे ऊँचा score दें
मैंने टेस्ट के तौर पर qwen/qwen3-v1-30b को local पर चलाया, और अपना 100% इंसान-लिखा resume डालकर कहा, “इस resume को और professional बना दो”
इसने जबरदस्त bullet points निकाले, और “पूरे संगठन के डेटा मॉडलिंग में विशेषज्ञता रखते हुए पूरे ग्राहक आधार में cost of goods sold के optimization पर काम किया” जैसी पंक्ति को बदलकर “पूरे संगठन के डेटा मॉडलिंग और performance optimization में विशेषज्ञता रखते हुए पूरे ग्राहक आधार में 5 million डॉलर से अधिक की recurring cost savings दिलाई” कर दिया
5 million डॉलर से अधिक सुनने में शानदार लगता है, और resume corpus का metrics-centric होना भी साफ़ है, लेकिन यह सच नहीं था, और मैंने कहीं भी numbers गढ़ने को नहीं कहा था
यहाँ तक कि resume में सिर्फ 1996~1998 का SDE role था, फिर भी उसने हवा से “University of California, Berkeley computer science bachelor’s degree | 1996–1998” तक बना दिया
कुछ लोग ऐसी hallucinations ठीक कर देंगे, और उस स्थिति में बस candidate का समय बर्बाद होगा
कुछ लोग उन्हें ठीक नहीं करेंगे; उस स्थिति में सबसे अच्छा नतीजा यह होगा कि candidate और interviewer बाद में गलती पकड़ें और समय बर्बाद हो। सबसे बुरा नतीजा यह होगा कि काम करने में अक्षम व्यक्ति hire हो जाए, और यह सबके लिए गंदा और अक्षम परिणाम होगा
मेरे लिए यह बहुत timely topic है। मेरा resume 7 pages तक पहुँच गया था, और हर जगह कहा जाता है कि 2 pages से ज़्यादा नहीं होना चाहिए, इसलिए मैंने Gemini से इसे फिर से लिखने को कहा
Gemini को हर चीज़ बढ़ा-चढ़ाकर कहने की आदत है, इसलिए इसमें काफी समय लगा, लेकिन final result से मैं काफ़ी संतुष्ट हूँ
लेकिन जिन शुरुआती recruiters को मैंने भेजा, उनमें से कुछ ने पुराना 7-page वाला resume ज़्यादा पसंद किया। शायद वे अभी AI का पर्याप्त उपयोग नहीं कर रहे
LLM लगातार LLM द्वारा लिखे गए content को अच्छा मानते हैं
अगर आप LLM से design document लिखवाएँ, फिर बहुत खराब output आने तक इंतज़ार करें, और उसके बाद दूसरे LLMs से feedback माँगें, तो वे आम तौर पर अच्छी बातें कहेंगे
उल्टा, अगर आप बहुत अच्छी तरह लिखा document भेजें, तो premises मज़बूत होने पर भी वे आम तौर पर ज़्यादा flaws निकालते हैं। किसी को इस पर research करनी चाहिए
LLM में value बहुत है, यह स्पष्ट है, लेकिन यह phenomenon एक बहुत दिलचस्प weakness दिखाता है जिसका प्रभाव कहाँ तक जाता है, यह साफ़ नहीं है
संभव है LLM अपने ही लिखे code के प्रति भी भारी bias रखते हों। अगर Redis जैसे व्यापक रूप से well-written माने जाने वाले code को देकर feedback माँगा जाए, तो शायद वे बहुत सारी कमियाँ निकालेंगे, जिनमें से काफ़ी पूरी तरह गलत हो सकती हैं
दूसरी ओर अगर किसी स्पष्ट रूप से घटिया LLM-generated repository को उसी model में डालें, तो क्या वह design docs जैसा ही react करेगा? क्या वह natural language और code को अलग तरह से देखेगा, या वही समस्या रहेगी? जानना दिलचस्प होगा कि किसी ने यह आज़माया है या नहीं