एल्गोरिदमिक भर्ती में AI की self-preference: अनुभवजन्य साक्ष्य और निहितार्थ

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 1 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

LLM के रिज़्यूमे जनरेशन और मूल्यांकन, दोनों में इस्तेमाल होने से, मूल्यांकन मॉडल द्वारा अपने ही बनाए आउटपुट को अधिक चुनने की self-preference भर्ती स्क्रीनिंग में एक नए bias के रूप में उभर रही है
अध्ययन ने generative AI के व्यापक प्रसार से पहले एकत्र किए गए मानव-लिखित 2,245 रिज़्यूमे के आधार पर GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 जैसे कई LLM द्वारा बनाए गए counterfactual रिज़्यूमे का तुलनात्मक मूल्यांकन किया
अधिकांश मॉडलों में LLM-vs-Human self-preference स्पष्ट और मजबूत रूप से दिखी, और प्रमुख commercial व open source मॉडलों में मानव-लिखित रिज़्यूमे की तुलना में self-preference bias 67%~82% के दायरे में था
24 नौकरी-श्रेणियों के भर्ती pipeline simulation में, जो उम्मीदवार मूल्यांकन LLM के समान LLM का उपयोग करते थे, उनके समान योग्यता वाले मानव-लिखित रिज़्यूमे जमा करने वाले उम्मीदवारों की तुलना में final shortlist तक पहुँचने की संभावना लगभग 23%~60% अधिक थी
स्रोत को नज़रअंदाज़ कर केवल सामग्री पर ध्यान देने के लिए system prompting और majority-vote ensemble ने सभी परीक्षण किए गए LLM में LLM-vs-Human self-preference को सापेक्ष रूप से 17%~63% तक घटाया

AI self-preference से भर्ती मूल्यांकन में पैदा होने वाला नया bias

जब बड़े language model (LLM) का उपयोग content generation और evaluation, दोनों में होता है, तो उसी मॉडल द्वारा बनाए गए आउटपुट को अधिक अंक देने वाली self-preference भर्ती जैसे decision-making process में एक नए bias के रूप में उभरती है
भर्ती में, उम्मीदवार LLM से रिज़्यूमे लिखवा या निखार सकते हैं, और नियोक्ता समान tools से रिज़्यूमे screen या rank कर सकते हैं, इसलिए AI-AI interaction वास्तविक मूल्यांकन परिणामों को प्रभावित कर सकती है
जहाँ मौजूदा fairness चर्चा मुख्यतः demographic विशेषताओं पर आधारित भेदभाव पर केंद्रित रही है, वहीं self-preference इस मायने में अलग है कि यह evaluation model और generation model के संबंध से भीतर ही भीतर पैदा होने वाला bias है
यह bias समान क्षमता वाले उम्मीदवारों में भी उस उम्मीदवार को लाभ पहुँचा सकता है जिसने मूल्यांकन में इस्तेमाल हो रहे LLM जैसा ही मॉडल इस्तेमाल किया हो, जबकि अन्य tools या बिना AI का उपयोग करने वाले उम्मीदवारों के लिए यह नुकसानदेह हो सकता है
रिज़्यूमे screening बड़े applicant pool को सीमित interview व evaluation चरणों तक घटाने वाला प्रारंभिक bottleneck चरण है, इसलिए इस ऊपरी स्तर की गलतियाँ आगे के candidate pool और hiring अवसरों के वितरण पर लंबे समय तक असर डाल सकती हैं

प्रयोग की रूपरेखा और मापन पद्धति

प्रयोग professional रिज़्यूमे लेखन platform से एकत्र किए गए मानव-लिखित 2,245 रिज़्यूमे पर आधारित है, और इसमें generative AI के व्यापक उपयोग से पहले का डेटा इस्तेमाल किया गया
प्रत्येक रिज़्यूमे के लिए कई आधुनिक LLM की मदद से counterfactual versions बनाए गए, ताकि उसी उम्मीदवार की योग्यता, अनुभव और पृष्ठभूमि समान रहे और केवल अभिव्यक्ति का तरीका बदले
इस्तेमाल किए गए मॉडल हैं: GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
evaluation LLM उसी उम्मीदवार का प्रतिनिधित्व करने वाले दो रिज़्यूमे में से अधिक मजबूत रिज़्यूमे चुनने वाली pairwise comparison करता है, जहाँ मूल्यांकन किए जा रहे रिज़्यूमे में केवल स्रोत अलग होता है
self-preference को दो रूपों में बाँटा गया है
- LLM-vs-Human self-preference
  - इसका अर्थ है कि evaluation LLM अपने द्वारा बनाए गए रिज़्यूमे को मानव द्वारा लिखे गए समान स्तर के रिज़्यूमे से अधिक पसंद करे
- LLM-vs-LLM self-preference
  - इसका अर्थ है कि evaluation LLM किसी दूसरे LLM द्वारा बनाए गए रिज़्यूमे की तुलना में अपने ही बनाए गए रिज़्यूमे को अधिक पसंद करे
  - इस संदर्भ में evaluation LLM एक binary classifier की तरह काम करता है, और bias को मापने के लिए fairness literature के statistical parity और equal opportunity मानदंडों का उपयोग किया जाता है
  - statistical parity आधारित self-preference bias को evaluation LLM द्वारा बनाए गए रिज़्यूमे के चुने जाने की संभावना और मानव या दूसरे LLM द्वारा बनाए गए रिज़्यूमे के चुने जाने की संभावना के अंतर के रूप में परिभाषित किया गया है
  - Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
  - यहाँ S = 1 का अर्थ evaluation LLM f द्वारा बनाया गया रिज़्यूमे है, और S = 0 का अर्थ मानव या दूसरे LLM द्वारा बनाया गया रिज़्यूमे है
  - Y'_f = 1 का अर्थ है कि evaluation LLM f ने उस रिज़्यूमे को अधिक मजबूत रिज़्यूमे के रूप में चुना
  - statistical parity के अंतर को सीधे bias मानने में सावधानी ज़रूरी है
  - यह अंतर self-preference के कारण हो सकता है, लेकिन यह उसी उम्मीदवार की जानकारी को अधिक स्पष्ट, सुसंगत और प्रवाहपूर्ण ढंग से व्यक्त करने वाली content quality के अंतर के कारण भी हो सकता है
  - यहाँ content quality से आशय उम्मीदवार की योग्यता या पृष्ठभूमि के अंतर से नहीं, बल्कि वही जानकारी देने की स्पष्टता, सुसंगति, प्रवाह और संरचना से है

प्रमुख अनुभवजन्य निष्कर्ष

अधिकांश मॉडलों में LLM-vs-Human self-preference मजबूत और लगातार दिखाई दी
GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B, LLaMA 3.3-70B जैसे बड़े मॉडल content quality को नियंत्रित करने के बाद भी 65% से अधिक का मजबूत bias दिखाते हैं
GPT-4o के मामले में LLM-vs-Human self-preference 80% से अधिक थी, और प्रमुख commercial तथा open source मॉडलों में मानव-लिखित रिज़्यूमे के विरुद्ध self-preference bias 67%~82% के दायरे में दिखाई दिया
LLM-vs-LLM self-preference में मॉडल-दर-मॉडल अंतर अधिक बड़ा था
- DeepSeek-V3 ने इस सेटिंग में सबसे मजबूत bias दिखाया, और LLaMA 3.3-70B की तुलना में अपने आउटपुट को 69% अधिक पसंद किया
- DeepSeek-V3 ने GPT-4o की तुलना में भी अपने आउटपुट को 28% अधिक पसंद किया
- GPT-4o और LLaMA 3.3-70B ने दूसरे मॉडलों द्वारा उत्पन्न content का मूल्यांकन करते समय लगातार self-preference नहीं दिखाई
मूल्यांकन उम्मीदवार की वास्तविक योग्यता से अधिक इस बात से प्रभावित हो सकता है कि वह evaluation LLM की generation style से कितना मेल खाता है
यह bias उन उम्मीदवारों को अनुचित लाभ दे सकता है जिनके पास किसी खास generation तकनीक या मॉडल तक पहुँच है, और दूसरों के लिए यह नुकसानदेह हो सकता है

भर्ती pipeline पर प्रभाव

24 नौकरी-श्रेणियों पर यथार्थवादी भर्ती pipeline का simulation कर self-preference के candidate selection परिणामों पर operational प्रभाव को मापा गया
जो उम्मीदवार मूल्यांकन में उपयोग किए गए LLM जैसा ही LLM इस्तेमाल करते थे, उनके समान योग्यता वाले मानव-लिखित रिज़्यूमे जमा करने वाले उम्मीदवारों की तुलना में final shortlist पर आने की संभावना लगभग 23%~60% अधिक थी
नुकसान सबसे अधिक लेखा, sales, finance जैसे business-संबंधित क्षेत्रों में देखा गया
कृषि, कला और automotive-संबंधित क्षेत्रों में यह नुकसान अपेक्षाकृत कम स्पष्ट था
यदि यही लाभ भर्ती चक्रों में बार-बार दोहराया जाए, तो प्रभावशाली LLM द्वारा पसंद की जाने वाली रिज़्यूमे शैली applicant pool में धीरे-धीरे स्थिर हो सकती है, जिससे lock-in effect पैदा हो सकता है
ऐसा lock-in effect candidate selection की विविधता घटा सकता है और मूल्यांकन अवसरों के वितरण में असमानता बढ़ा सकता है
भर्ती pipeline में interview और evaluation जैसे आगे के चरणों की क्षमता सीमित होती है, इसलिए शुरुआती रिज़्यूमे screening में false negative योग्य उम्मीदवारों को अपरिवर्तनीय रूप से बाहर कर सकते हैं, जबकि false positive सीमित मूल्यांकन संसाधनों को खर्च कराते हैं

mitigation strategy और fairness के निहितार्थ

self-preference की मुख्य mechanism के रूप में self-recognition प्रस्तावित किया गया है
- self-recognition का अर्थ है मॉडल की यह क्षमता कि वह अपने द्वारा बनाए गए content को अप्रत्यक्ष रूप से पहचान सके
- पूर्व शोध में GPT-4 और LLaMA 2 जैसे LLM ने उल्लेखनीय self-recognition क्षमता दिखाई, और self-recognition क्षमता तथा self-preference bias के आकार के बीच मजबूत positive correlation पाया गया
दो सरल mitigation strategies प्रस्तावित की गईं
- system prompting
  - मॉडल को स्पष्ट रूप से निर्देश दिया जाता है कि वह रिज़्यूमे के स्रोत को नज़रअंदाज़ करे और केवल वास्तविक सामग्री पर ध्यान दे
- majority-vote ensemble
  - evaluation model के साथ self-recognition में अपेक्षाकृत कमजोर छोटे मॉडलों को जोड़कर, एकल LLM के bias को dilute किया जाता है
  - सभी परीक्षण किए गए LLM में इन interventions ने LLM-vs-Human self-preference को सापेक्ष रूप से 17%~63% तक घटाया
  - कई मामलों में केवल self-recognition को लक्ष्य बनाने वाले सरल interventions से bias को 50% से अधिक घटाया जा सकता है
  - self-preference bias व्यापक है और भर्ती परिणामों पर वास्तविक असर डालता है, लेकिन यह स्थिर गुण नहीं है और design interventions से इसे काफी हद तक कम किया जा सकता है
  - AI-आधारित भर्ती के fairness framework को केवल protected attributes पर आधारित भेदभाव ही नहीं, बल्कि generation और evaluation में उपयोग किए गए AI systems के बीच पैदा होने वाले interaction bias को भी संबोधित करना होगा
  - कंपनियों की AI governance और responsible operational design में केवल input data और protected attributes ही नहीं, बल्कि यह भी शामिल होना चाहिए कि उम्मीदवार सामग्री किस मॉडल से बनाई गई और उसका मूल्यांकन किस मॉडल से किया गया

1 टिप्पणियां

GN⁺ 1 시간 전

Hacker News की राय

अगर LinkedIn पर लिखी बात को ज्यों का त्यों दोहराएँ, तो पेपर सही से पढ़ा हो तो यह वास्तव में यह नहीं दिखाता कि LLM अपने ही बनाए हुए resume को पसंद करता है
असली तरीका शायद यह था कि इंसान द्वारा लिखे गए resume से executive summary हटा दी गई, फिर बाकी resume के आधार पर LLM ने executive summary दोबारा लिखी, और उसके बाद किसी दूसरे LLM ने बाकी resume देखे बिना सिर्फ उस summary का मूल्यांकन किया
मान भी लें कि यह design वास्तविक प्रभाव को पकड़ता है, तब भी यह असर को काफी बढ़ा-चढ़ाकर दिखा सकता है। लेखकों ने design की वजह बताई है, लेकिन वह पर्याप्त justification नहीं लगती: https://news.ycombinator.com/item?id=47987256#47987727
- यह LLM और ज़्यादा इस्तेमाल करो वाली विज्ञापनबाज़ी भी हो सकती है। जैसे cheese, oil, और nutmeg industries के promotional groups होते हैं, वैसे ही LLM के लिए भी consortium जैसे संगठन हैं, और वे FOMO बढ़ाने के लिए ऐसे शोध को support कर सकते हैं
  HR अगर LLM इस्तेमाल करता है तो job seekers को भी करना पड़ेगा, और बाद में अच्छे applicants LLM इस्तेमाल करते हैं इसलिए HR को भी करना पड़ेगा—ऐसा एक circular loop बन जाता है
यह सिर्फ एक sample size वाली anecdote है, लेकिन layoff के बाद अगली role तलाशते समय मेरे खुद लिखे resume पर career के हिसाब से खास response नहीं मिल रहा था
मज़े के लिए मैंने ChatGPT से resume analyze करवाकर score देने को कहा, और फिर score को जितना हो सके उतना बढ़ाने के लिए उसे edit करवाया। बाद में fact-check और corrections करके भेजा, तो पहले की तुलना में response rate काफी बढ़ गया
यह market condition या timing की वजह से भी हो सकता है, लेकिन interviews clear करके skill साबित करनी तो फिर भी पड़ी, और कम से कम शुरुआती barrier पार करने में यह मददगार लगा
- मेरी पत्नी के साथ भी कुछ ऐसा ही हुआ। उसने LinkedIn profile और resume में metrics, keywords, और outcomes बहुत ध्यान से डालकर polish किया था, लेकिन कई महीनों से लेकर लगभग एक साल तक recruiters का संपर्क या applications का response लगभग नहीं मिला
  बाद में उसने ChatGPT 5.x की मदद ली, और सुझाए गए बदलावों की एक जैसी AI writing style देखकर वह skeptical थी, लेकिन कुछ ही दिनों में recruiters के messages और application progress शुरू हो गए
  hiring process के हर हिस्से में LLM घुसते जा रहे हैं, इसलिए अगर LLM resume नहीं लिखता तो अब मुश्किल बढ़ जाती लगती है। Resume review करने वाला LLM शायद उसी भाषा में न लिखे गए profile को, जो उसके “सही neurons” trigger करे, कम score देता है
- हाल की नौकरी खोज में मैंने भी ऐसा ही किया, और उससे points की readability check करवाई तो उसने बहुत सारे edits सुझाए। कुछ लागू किए, लेकिन applications के result में कितना फर्क पड़ा यह पक्का नहीं कह सकता
- LinkedIn और resume पर ऐसा काम करने वाली services भी हैं, और उनसे मुझे काफ़ी decent results मिले हैं
- ऐसा करने के बाद मैंने उसे काट-छाँटकर फिर से इंसान द्वारा लिखा हुआ जैसा सुनाई देने लायक बनाया
- हो सकता है HR ने इस बात पर +1 दिया हो कि AI इस्तेमाल करना आता है
सहज रूप से यह स्वाभाविक लगता है। Model द्वारा बनाया गया content training data से प्रभावित होता है, इसलिए दोबारा पढ़ते समय वही training distribution उससे मेल खा सकती है और वह उसे सकारात्मक रूप से evaluate कर सकता है
जैसे कोई इंसान कहे “resume को और professional बना दो”, और कुछ दिनों बाद LLM HR report में कहे, “यह resume सचमुच बहुत professional है”
इसी वजह से code generation के लिए इस्तेमाल होने वाली LLM family और code review के लिए इस्तेमाल होने वाली LLM family को अलग रखने की मेरी व्यक्तिगत policy सही ठहरती है। मतलब अपना ही homework खुद grade करने से बचना
- ऊपर से यह इंसानों के समझने लायक तरीके से भी नहीं होता। एक research थी जिसमें एक LLM को किसी खास तरह behave करने को कहा गया, फिर उससे random number output करवाया गया, और वही number दूसरे LLM instance में paste करने पर उसने भी उसी तरह behave किया
  link याद नहीं, लेकिन बहुत दिलचस्प था
लोगों की सहमति के बिना उनके बीच एक और entity डाल दी जा रही है। Model यह तय करने वाला मध्यस्थ बन जाता है कि किसे नौकरी मिले और किसे नहीं, इसलिए यह समस्या लगती है
- जो लोग LLM इस्तेमाल नहीं करते, उनके लिए शायद बड़ा arbitrage opportunity बन सकता है
  अगर HR department ChatGPT से resumes filter करता है, तो आखिरकार वे ChatGPT से बनाए गए resumes वाले लोगों को चुनेंगे। मैं slippery slope argument नहीं देना चाहता, लेकिन intuition कहती है कि इससे संगठन की quality तेज़ी से गिर सकती है
  दूसरी ओर मैं plumber और subcontractor हूँ, और मुझे ज़्यादातर काम phone, text, एक-दो emails, और भरोसेमंद referrals से मिलता है। 8 साल से ज़्यादा हो गए, मैंने traditional resume practically देखा ही नहीं
  अगर किसी से communication शुरू होते ही वह कंप्यूटर जैसा लगे, तो वह तुरंत दूसरे client की तरफ बढ़ जाने का संकेत होता है। अगर वह मेरे साथ सीधे बात करने का समय भी नहीं निकाल सकता, तो उसके लिए मैं सैकड़ों घंटे की physical labor कैसे करूँगा?
- आम जवाब होता है, “बस जो model afford कर सकते हो वही इस्तेमाल करो,” लेकिन AI में resource constraints और profit motive बने रहने की संभावना है
  अंत में गरीब लोगों के resume अमीरों से खराब हो सकते हैं, और अगर बीच का model अंतिम निर्णय की ताकत रखता है, तो इससे बचने का रास्ता भी लगभग नहीं बचेगा
- जिस पल hiring manager खुद resume पढ़ने के बजाय recruiter नाम की भूमिका बीच में आ गई, उसी पल जहाज़ निकल चुका था
- पहले HR यह भूमिका निभाता था, इसलिए असल लोगों के बीच हमेशा से कोई middleman रहा है। HR को आम तौर पर resume में दिलचस्पी नहीं होती थी, वह बस checklist match देखता था
- जब सबने LinkedIn account बनाना शुरू किया, तभी यह सब हो चुका था
Tech field में resume आखिरकार, या शायद अभी से ही, पुराना पड़ने वाला है। Signal-to-noise ratio इतना कम है कि filtering की value बहुत सीमित रह जाती है
GPA, certifications, और previous roles जैसे अपेक्षाकृत मजबूत signals भी शुरुआती screening interview performance से अच्छी तरह नहीं जुड़ते
इसलिए मुझे लगता है कि industry को सबसे ज़्यादा ज़रूरत एक testing consortium की है। University name से क्षमता का अनुमान लगाने के बजाय, बड़ी tech companies domain-wise standard tests बनाएँ, और वही scores resume बन जाएँ, ताकि developers resume writing और बार-बार screening के बेकार काम के बजाय score improve करने पर ध्यान दे सकें
- ऐसा system भी अंततः game किया जा सकता है। जैसे Silicon Valley style interview questions के जवाब में LeetCode optimization पैदा हुआ, वैसे ही काम के लिए पढ़ाई test की पढ़ाई बन जाएगी, और फिर pre-test की पढ़ाई बन जाएगी
- शायद lottery इससे बेहतर हो। Utility लगभग उतनी ही रहेगी, लेकिन system कहीं ज़्यादा simple होगा
  वैसे भी “enterprise” certifications क्या पहले से कुछ ऐसा ही काम नहीं कर रहे?
- domain-wise standard tests बनाना खुद एक बहुत कठिन समस्या है। खुली cheating incentives को छोड़ भी दें, तो standardized tests अक्सर subject understanding को अच्छी तरह नहीं दिखाते
  यह मूल रूप से LeetCode को effective hiring tool बताने जैसा है, और इस पर काफ़ी आलोचना होनी चाहिए
- computer science exams design करना मुश्किल है। LeetCode बहुत simplistic है, और आम software development के लिए लगभग बेकार basic algorithm knowledge ही test करता है
यह काफ़ी दिलचस्प mind game बन सकता है। अगर आप किसी company में apply कर रहे हैं और जानते हैं कि वह कौन-सा applicant tracking system इस्तेमाल करती है, और वह system किसी खास model provider का filter इस्तेमाल करता है, तो company को भेजने वाला resume version उसी model से लिखवाना सही होगा
- बढ़िया observation। भविष्य के कई versions आखिरकार LLM arms race बन जाएँगे
लगता है पूरी industry automatic evaluators इस्तेमाल कर रही है। यानी agent instances से agents के outputs को score कराया जा रहा है
इरादा कुछ वैसा है जैसा human labelers को हटाकर adversarial neural net image generation training में होता है। तब teams automatic evaluator score बढ़ाने को optimization metric बना लेंगी, और आखिरकार यह होना हैरानी की बात नहीं होगी कि agents अपने ही generated content को सबसे ऊँचा score दें
मैंने टेस्ट के तौर पर qwen/qwen3-v1-30b को local पर चलाया, और अपना 100% इंसान-लिखा resume डालकर कहा, “इस resume को और professional बना दो”
इसने जबरदस्त bullet points निकाले, और “पूरे संगठन के डेटा मॉडलिंग में विशेषज्ञता रखते हुए पूरे ग्राहक आधार में cost of goods sold के optimization पर काम किया” जैसी पंक्ति को बदलकर “पूरे संगठन के डेटा मॉडलिंग और performance optimization में विशेषज्ञता रखते हुए पूरे ग्राहक आधार में 5 million डॉलर से अधिक की recurring cost savings दिलाई” कर दिया
5 million डॉलर से अधिक सुनने में शानदार लगता है, और resume corpus का metrics-centric होना भी साफ़ है, लेकिन यह सच नहीं था, और मैंने कहीं भी numbers गढ़ने को नहीं कहा था
यहाँ तक कि resume में सिर्फ 1996~1998 का SDE role था, फिर भी उसने हवा से “University of California, Berkeley computer science bachelor’s degree | 1996–1998” तक बना दिया
- हाँ, गढ़ लेने की समस्या इस मुद्दे को और बिगाड़ेगी
  कुछ लोग ऐसी hallucinations ठीक कर देंगे, और उस स्थिति में बस candidate का समय बर्बाद होगा
  कुछ लोग उन्हें ठीक नहीं करेंगे; उस स्थिति में सबसे अच्छा नतीजा यह होगा कि candidate और interviewer बाद में गलती पकड़ें और समय बर्बाद हो। सबसे बुरा नतीजा यह होगा कि काम करने में अक्षम व्यक्ति hire हो जाए, और यह सबके लिए गंदा और अक्षम परिणाम होगा
मेरे लिए यह बहुत timely topic है। मेरा resume 7 pages तक पहुँच गया था, और हर जगह कहा जाता है कि 2 pages से ज़्यादा नहीं होना चाहिए, इसलिए मैंने Gemini से इसे फिर से लिखने को कहा
Gemini को हर चीज़ बढ़ा-चढ़ाकर कहने की आदत है, इसलिए इसमें काफी समय लगा, लेकिन final result से मैं काफ़ी संतुष्ट हूँ
लेकिन जिन शुरुआती recruiters को मैंने भेजा, उनमें से कुछ ने पुराना 7-page वाला resume ज़्यादा पसंद किया। शायद वे अभी AI का पर्याप्त उपयोग नहीं कर रहे
LLM लगातार LLM द्वारा लिखे गए content को अच्छा मानते हैं
अगर आप LLM से design document लिखवाएँ, फिर बहुत खराब output आने तक इंतज़ार करें, और उसके बाद दूसरे LLMs से feedback माँगें, तो वे आम तौर पर अच्छी बातें कहेंगे
उल्टा, अगर आप बहुत अच्छी तरह लिखा document भेजें, तो premises मज़बूत होने पर भी वे आम तौर पर ज़्यादा flaws निकालते हैं। किसी को इस पर research करनी चाहिए
LLM में value बहुत है, यह स्पष्ट है, लेकिन यह phenomenon एक बहुत दिलचस्प weakness दिखाता है जिसका प्रभाव कहाँ तक जाता है, यह साफ़ नहीं है
संभव है LLM अपने ही लिखे code के प्रति भी भारी bias रखते हों। अगर Redis जैसे व्यापक रूप से well-written माने जाने वाले code को देकर feedback माँगा जाए, तो शायद वे बहुत सारी कमियाँ निकालेंगे, जिनमें से काफ़ी पूरी तरह गलत हो सकती हैं
दूसरी ओर अगर किसी स्पष्ट रूप से घटिया LLM-generated repository को उसी model में डालें, तो क्या वह design docs जैसा ही react करेगा? क्या वह natural language और code को अलग तरह से देखेगा, या वही समस्या रहेगी? जानना दिलचस्प होगा कि किसी ने यह आज़माया है या नहीं

एल्गोरिदमिक भर्ती में AI की self-preference: अनुभवजन्य साक्ष्य और निहितार्थ

AI self-preference से भर्ती मूल्यांकन में पैदा होने वाला नया bias

प्रयोग की रूपरेखा और मापन पद्धति

LLM-vs-Human self-preference

LLM-vs-LLM self-preference

प्रमुख अनुभवजन्य निष्कर्ष

भर्ती pipeline पर प्रभाव

mitigation strategy और fairness के निहितार्थ

system prompting

majority-vote ensemble

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय