- SimpleQA भाषा मॉडलों की factuality मापने के लिए एक नया benchmark है
- AI में fact-based responses उत्पन्न करने वाले मॉडल्स को train करना अभी भी एक अनसुलझी समस्या है
- मौजूदा भाषा मॉडल कभी-कभी झूठे output या बिना सबूत वाले उत्तर उत्पन्न करते हैं। इसे "hallucinations" कहा जाता है
- अधिक सटीक और कम hallucination वाले भाषा मॉडल अधिक भरोसेमंद हो सकते हैं और कई तरह के application क्षेत्रों में उपयोग किए जा सकते हैं
- Open source SimpleQA के माध्यम से भाषा मॉडलों की factuality को मापने का लक्ष्य है
SimpleQA benchmark की विशेषताएँ
- factuality को मापना कठिन है, इसलिए SimpleQA छोटे और तथ्य-उन्मुख queries पर फोकस करता है
- SimpleQA के लक्ष्य:
- उच्च accuracy: स्वतंत्र दो AI trainers द्वारा दिए गए sources से सही उत्तर को support किया जाता है, और प्रश्न इस तरह बनाए जाते हैं कि predicted answer का आसानी से मूल्यांकन किया जा सके
- विविधता: science और technology से लेकर TV shows और video games तक, व्यापक विषय शामिल हैं
- नवीनतम मॉडल्स के लिए चुनौतीपूर्ण: TriviaQA या NQ जैसे पुराने benchmarks के विपरीत, SimpleQA को इस तरह बनाया गया है कि यह latest models के लिए अधिक चुनौतीपूर्ण हो (उदाहरण: GPT-4 ने 40% से कम score दर्ज किया)
- researcher-friendly UX: संक्षिप्त प्रश्नों और उत्तरों की वजह से SimpleQA तेज़ी से चलाया जा सकता है और सरल है। OpenAI API या अन्य latest model APIs के जरिए evaluation भी efficient है। 4,326 प्रश्नों के साथ, evaluation benchmark के रूप में इसका variance भी अपेक्षाकृत कम रहने की उम्मीद है
SimpleQA dataset बनाने की प्रक्रिया
- AI trainers ने web पर खोज करते हुए छोटे, तथ्य-उन्मुख प्रश्न और उनके उत्तर तैयार किए
- dataset में शामिल होने के लिए हर प्रश्न को सख्त मानदंड पूरे करने थे:
- एक ही, स्पष्ट और मूल्यांकन में आसान उत्तर होना चाहिए
- प्रश्न का उत्तर समय के साथ बदलना नहीं चाहिए
- अधिकांश प्रश्नों को GPT-4 या GPT-3.5 में hallucination उत्पन्न करना चाहिए
- dataset की quality को और बेहतर बनाने के लिए एक स्वतंत्र दूसरे AI trainer ने मूल उत्तर देखे बिना हर प्रश्न का उत्तर दिया
- केवल वही प्रश्न शामिल किए गए जिन पर दोनों AI trainers के उत्तर मेल खाते थे
SimpleQA dataset की quality validation
- अंतिम validation के लिए dataset से 1,000 प्रश्न यादृच्छिक रूप से चुने गए और एक तीसरे AI trainer से उनके उत्तर दिलवाए गए
- तीसरे AI trainer के उत्तर मूल सहमत उत्तरों से 94.4% मामलों में मेल खाते थे। 5.6% में असंगति थी
- असंगत मामलों की manual जाँच में पाया गया:
- 5.6% में से 2.8% evaluator के false negatives या तीसरे trainer की मानवीय गलतियों (जैसे अधूरा उत्तर, source की गलत समझ) के कारण थे
- बाकी 2.8% प्रश्नों की वास्तविक समस्याओं (जैसे अस्पष्ट प्रश्न, websites के बीच विरोधाभासी उत्तर) के कारण थे
- इसके आधार पर इस dataset की intrinsic error rate लगभग 3% आंकी गई
SimpleQA के प्रश्नों की विविधता
- नीचे दिया गया pie chart SimpleQA benchmark की विषय-विविधता दिखाता है
- pie chart में हर हिस्से पर mouse ले जाने से प्रत्येक प्रश्न का उदाहरण दिखता है
SimpleQA का उपयोग करके भाषा मॉडलों की तुलना
- प्रश्नों का मूल्यांकन करने के लिए एक ChatGPT classifier का उपयोग किया गया, जो मॉडल के predicted answer और actual answer दोनों को देखता है
- classifier predicted answer को "correct", "incorrect", या "not attempted" के रूप में classify करता है
- नीचे दी गई तालिका हर grade की परिभाषा और उसके उदाहरण दिखाती है
- "Correct": predicted answer actual answer को पूरी तरह शामिल करता है और उससे विरोधाभास नहीं रखता
- "Incorrect": predicted answer किसी भी तरह से actual answer का विरोध करता है (भले ही उसमें hedging हो)
- "Not attempted": actual target उत्तर में पूरी तरह प्रस्तुत नहीं है, और actual answer से विरोधाभास भी नहीं है
- आदर्श रूप से, मॉडल को जितने संभव हो उतने प्रश्नों के उत्तर देने चाहिए (यानी correct की संख्या सबसे अधिक हो) और साथ ही incorrect उत्तरों की संख्या न्यूनतम रखनी चाहिए
SimpleQA का उपयोग करके भाषा मॉडल calibration मापना
- SimpleQA जैसे factuality benchmarks का उपयोग करके यह मापा जा सकता है कि मॉडल "क्या वह जानता है कि वह क्या जानता है"
- इसे calibration कहा जाता है, और इसे इस तरह मापा जा सकता है कि भाषा मॉडल से सीधे अपने उत्तर पर confidence level प्रतिशत में बताने को कहा जाए
- फिर मॉडल द्वारा बताए गए confidence level और वास्तविक accuracy के बीच संबंध को chart में दिखाया जा सकता है
- पूरी तरह calibrated model में घोषित confidence level और वास्तविक accuracy समान होंगे
- नीचे दिया गया चित्र ऐसे परिणाम दिखाता है:
- घोषित confidence level और accuracy के बीच positive correlation इस बात का सकारात्मक संकेत है कि मॉडल को अपनी certainty का कुछ अनुमान है
- o1-preview, o1-mini की तुलना में, और gpt4, gpt4-mini की तुलना में बेहतर calibrated है
- लेकिन y=x रेखा से प्रदर्शन का काफी नीचे होना यह दर्शाता है कि मॉडल लगातार अपने confidence level को अधिक आँकते हैं
- इसलिए घोषित confidence level के संदर्भ में large language models के calibration को बेहतर करने की काफी गुंजाइश है
निष्कर्ष
- SimpleQA नवीनतम मॉडल्स की factuality का मूल्यांकन करने के लिए एक सरल लेकिन चुनौतीपूर्ण benchmark है
- SimpleQA की मुख्य सीमा इसका scope है। यह factuality को केवल उस सीमित स्थिति में मापता है जहाँ छोटे, तथ्य-उन्मुख प्रश्नों के एकल और सत्यापित किए जा सकने वाले उत्तर होते हैं
- यह अभी भी एक खुला शोध प्रश्न है कि छोटे fact-based answers देने की क्षमता का लंबे, अनेक तथ्यों से भरे responses लिखने की क्षमता से कितना संबंध है
- उम्मीद है कि Open source SimpleQA अधिक भरोसेमंद और स्थिर AI research को बढ़ावा देगा, और researchers इससे भाषा मॉडलों की factuality का मूल्यांकन कर feedback देंगे
GN⁺ की राय
- SimpleQA छोटे fact-based questions के जरिए भाषा मॉडलों की factuality मापने के लिए एक रोचक और आवश्यक benchmark है। आखिरकार, AI की reliability बढ़ाने के लिए fact-grounded responses उत्पन्न करने की क्षमता में सुधार ज़रूरी है
- हालांकि, SimpleQA केवल सीमित परिस्थितियों में factuality मापता है, इसलिए यह वास्तविक उपयोग परिदृश्यों में भाषा मॉडलों की factuality को पूरी तरह प्रतिबिंबित नहीं करता। आगे के शोध के जरिए अधिक विविध परिस्थितियों में factuality evaluation की जरूरत दिखती है
- साथ ही, SimpleQA dataset की अपनी accuracy लगभग 97% है, इसलिए भाषा मॉडल्स के लिए इससे ऊपर प्रदर्शन करना कठिन हो सकता है। dataset की quality में सुधार भी लगातार किया जाना चाहिए
- SimpleQA जैसे उद्देश्य वाले अन्य benchmarks में TruthfulQA और HonestQA शामिल हैं। इनके साथ comparative analysis से SimpleQA की strengths और weaknesses को अधिक स्पष्ट रूप से समझा जा सकेगा
- भाषा मॉडलों की factuality बढ़ाने के लिए बड़े पैमाने पर high-quality data से pretraining महत्वपूर्ण है, लेकिन inference के समय बाहरी ज्ञान का उपयोग या self-correction की क्षमता भी जरूरी लगती है। उम्मीद है कि इस पर संबंधित शोध सक्रिय रूप से आगे बढ़ेगा
अभी कोई टिप्पणी नहीं है.