- हाल ही में OpenAI ने नया मॉडल o3 पेश करते हुए घोषणा की कि उसने गणित के क्षेत्र में उल्लेखनीय प्रदर्शन हासिल किया है
- खास तौर पर FrontierMath benchmark में, जहाँ पिछला मॉडल 2% हासिल कर पाता था, वहाँ 25% हासिल करने से इस पर काफी ध्यान गया
- घोषणा के बाद इस benchmark के निर्माण से जुड़ी प्रक्रिया में पारदर्शिता की कमी को लेकर सवाल उठे
- इससे भविष्य के AI benchmark, evaluation और safety पर होने वाली चर्चा के लिए सीख मिल सकती है
घटना का सार
- नवंबर 2024 से पहले Epoch AI ने गणित मूल्यांकन के लिए FrontierMath benchmark बनाना शुरू किया
- बाहरी गणितज्ञों को प्रश्न तैयार करने के लिए नियुक्त किया गया और उन्हें लगभग 300~1000 डॉलर का भुगतान किया गया
- उस समय यह स्पष्ट नहीं था कि फंडिंग कौन दे रहा है और प्रश्नों व उत्तरों को कौन देख सकता है
- 7 नवंबर 2024 को Epoch AI ने arxiv पर पेपर का पहला वर्ज़न जारी किया, जिसमें फंडिंग स्रोत का कोई उल्लेख नहीं था
- 20 दिसंबर 2024 को OpenAI ने o3 मॉडल पेश किया और घोषणा की कि उसने FrontierMath में 25% हासिल किया
- उसी दिन Epoch AI पेपर का v5 arxiv पर अपडेट हुआ, जिसमें बताया गया कि OpenAI ने पूरा वित्तपोषण किया था और उसे अधिकांश कठिन प्रश्नों व उनके उत्तरों तक पहुंच थी
अतिरिक्त विवरण
- दिसंबर अपडेट के तुरंत बाद भी इस मुद्दे को लेकर चिंताएँ थीं, और हाल में इससे जुड़ी और जानकारी सामने आई
- FrontierMath ने कठिनाई को इस तरह बाँटा: (a) ओलंपियाड स्तर (25%), (b) मध्यम कठिनाई (50%), (c) ऐसा स्तर जिसके लिए विशेषज्ञों को कई हफ्ते लगें (25%)
- o3 के 25% हासिल करने की घोषणा में यह सार्वजनिक नहीं किया गया कि उसने मुख्यतः किस कठिनाई स्तर के प्रश्न हल किए, जिससे गलतफहमी पैदा हो सकती है
- माना जाता है कि OpenAI को सभी प्रश्नों और उत्तरों तक पहुंच थी, लेकिन मौखिक सहमति के अनुसार इस dataset का सीधे training में उपयोग नहीं किया गया होगा
- हालांकि यह भी कहा गया कि अंदरूनी तौर पर मॉडल किस तरह train हो रहे हैं, इसे ठीक-ठीक जान पाना किसी के लिए आसान नहीं है
यह और क्यों समस्या है
- अगर FrontierMath के प्रश्नों का स्वामित्व या उन तक पहुंच हो, तो उससे मॉडल प्रदर्शन सुधारने में अप्रत्यक्ष मदद मिल सकती है
- खास तौर पर गैर-सार्वजनिक उच्च-कठिनाई वाले प्रश्न model validation या search techniques को और परिष्कृत करने में उपयोगी हो सकते हैं, ऐसी चिंता जताई गई
- 25% हासिल करने की घोषणा सचमुच कठिन प्रश्न हल करने की क्षमता दिखाती है या मुख्यतः आसान प्रश्न हल किए गए थे, यह स्पष्ट नहीं है
बिना स्पष्ट training के भी क्षमता बढ़ाने वाले dataset
- o3 की आंतरिक संरचना के बारे में बहुत कम जानकारी सार्वजनिक है, लेकिन कुछ अन्य शोध “inference चरण में scale बढ़ाने” वाला तरीका अपनाते हैं
- MCMC आधारित chain-of-thought evaluation को अपने-आप सीखने या मध्यवर्ती चरणों में reward model (PRM) जोड़कर search को मजबूत करने वाले शोधों का उल्लेख किया गया
- FrontierMath जैसे कठिन benchmark ऐसे reward model की validation के लिए उपयोगी हो सकते हैं
- दूसरे शब्दों में, सीधे training में इस्तेमाल न होने पर भी इन्हें model search strategy या validation techniques को tune करने में उपयोग किया जा सकता है
- यदि लक्ष्य स्वतंत्र और निष्पक्ष मूल्यांकन हो, तो बेहतर माना जाता है कि benchmark को केवल एक बार evaluation के लिए इस्तेमाल किया जाए और किसी अन्य उद्देश्य में न लाया जाए
AI safety को लेकर चिंता
- Epoch AI को AI की प्रगति की दिशा ट्रैक करने और safety पर विचार करने वाले संगठन के रूप में जाना जाता है
- FrontierMath को प्रश्न देने वाले कुछ गणितज्ञों में ऐसे लोग भी हो सकते हैं, जो यदि उन्हें पता होता कि यह AI क्षमता बढ़ाने में इस्तेमाल हो सकता है, तो वे योगदान नहीं करते
- अंततः यह आलोचना उठी कि OpenAI ने अनिच्छुक लोगों से अप्रत्यक्ष रूप से प्रश्न तैयार करवाकर मॉडल validation और development में उनका उपयोग किया
- ऐसी अपारदर्शिता AI safety और research ethics, दोनों दृष्टियों से चिंता पैदा करती है
AI Safety Researcher meemi की टिप्पणी
- FrontierMath को OpenAI से फंडिंग मिली थी
- यह बात 20 दिसंबर से पहले बाहरी दुनिया के सामने पारदर्शी ढंग से सार्वजनिक नहीं की गई थी, ऐसी आलोचना है
- पृष्ठभूमि यह है कि arXiv पर डाले गए शुरुआती वर्ज़न (v1–v4) में OpenAI समर्थन का कोई उल्लेख नहीं था, और इसका उल्लेख पहली बार 20 दिसंबर के बाद जारी वर्ज़न में आया
- Epoch AI ने OpenAI के साथ क्या समझौता किया था, यह स्पष्ट रूप से ज्ञात नहीं है, लेकिन यह संभावना जताई गई कि o3 घोषणा (20 दिसंबर) तक फंडिंग की बात गोपनीय रखी गई
- गणित प्रश्न निर्माण में शामिल गणितज्ञों को OpenAI फंडिंग के बारे में (सक्रिय रूप से) नहीं बताया गया था, ऐसा कहा गया
- कॉन्ट्रैक्ट पर काम करने वाले प्रतिभागियों ने NDA पर हस्ताक्षर किए थे और उन्हें प्रश्नों व उत्तरों को मेल या Overleaf आदि के जरिए साझा करने से रोका गया था, यानी सुरक्षा कड़ी रखी गई थी
- लेकिन यह आलोचना भी है कि उन्हें OpenAI फंडिंग या डेटा के संभावित उपयोग के बारे में स्पष्ट रूप से नहीं बताया गया
- यह दावा भी सामने आया कि कुछ लेखक भी शायद नहीं जानते थे कि फंडिंग OpenAI कर रहा है
- ऐसा लगता है कि अधिकांश लोगों और कॉन्ट्रैक्ट प्रतिभागियों की समझ यह थी कि “इस benchmark के प्रश्न और उत्तर पूरी तरह गोपनीय रहेंगे और केवल Epoch ही उनका उपयोग करेगा”
- फिलहाल Epoch AI या OpenAI सार्वजनिक रूप से यह नहीं कह रहे कि “OpenAI को प्रश्नों या उत्तरों तक पहुंच है”, लेकिन ऐसी अफवाहें हैं कि OpenAI वास्तव में इनका उपयोग करता है
- यह भी कहा गया कि इस dataset को training में उपयोग से रोकने वाला कोई स्पष्ट समझौता है या नहीं, यह अपारदर्शी है
- नतीजतन, यह आलोचनात्मक दृष्टिकोण मौजूद है कि फंडिंग और डेटा उपयोग की संभावना के बारे में स्पष्ट खुलासा होना चाहिए था, और प्रश्न तैयार करने वाले कॉन्ट्रैक्ट योगदानकर्ताओं को पर्याप्त जानकारी दी जानी चाहिए थी
Epoch AI के Tamay की टिप्पणी
- Epoch AI के Tamay ने स्वयं पारदर्शिता की समस्या स्वीकार की
- OpenAI की भागीदारी को o3 लॉन्च से पहले सार्वजनिक न कर पाने वाली संविदात्मक शर्तें मौजूद थीं
- बाद में उन्होंने माना कि पारदर्शिता अपर्याप्त थी और योगदानकर्ताओं को यह जानकारी पहले देनी चाहिए थी
- फंडिंग स्रोत और डेटा access अधिकारों के बारे में स्पष्ट रूप से न बता पाने को उन्होंने अपनी गलती माना
- भविष्य के सहयोग में पारदर्शिता सुधारने का वादा
- आगे से कोशिश की जाएगी कि योगदानकर्ता शुरू से ही फंडिंग स्रोत, डेटा access और उपयोग के इरादे को स्पष्ट रूप से जान सकें
- कुछ गणितज्ञों को यह बताया गया था कि फंडिंग किसी lab से आ रही है, लेकिन यह जानकारी व्यवस्थित रूप से नहीं दी गई
- किसी विशेष lab का नाम, यानी OpenAI, न बताकर आगे बढ़ना ही समस्या था
- उन्होंने कहा कि शुरू से इस सहयोग संबंध को सार्वजनिक करने के लिए उन्हें अधिक दृढ़ता से बातचीत करनी चाहिए थी
- o3 लॉन्च तक खुलासा सीमित रहने की समस्या
- संविदात्मक दायित्वों के कारण OpenAI के साथ साझेदारी को o3 लॉन्च के आसपास तक सार्वजनिक नहीं किया जा सका
- प्रश्न तैयार करने वाले गणितज्ञों को यह जानने का अधिकार था कि उनका काम किन तक पहुँच सकता है
- अनुबंध के कारण योगदानकर्ताओं को ठीक से न समझा पाने पर उन्होंने खेद जताया
- डेटा access और training में उपयोग की संभावना
- OpenAI को FrontierMath के प्रश्नों और उत्तरों के बड़े हिस्से तक पहुंच मिल सकती है
- लेकिन उनका कहना है कि training के लिए उपयोग न करने की मौखिक सहमति थी
- OpenAI कर्मचारियों ने सार्वजनिक रूप से FrontierMath को “strongly held out set” कहा है
- वास्तव में स्वतंत्र validation के लिए एक अलग holdout set मौजूद है, जिस तक OpenAI की पहुंच नहीं है
- इसका उद्देश्य अत्यधिक model training या overfitting को रोकना और objective performance measurement बनाए रखना है
- FrontierMath का मूल उद्देश्य
- FrontierMath शुरुआत से ही evaluation के लिए योजनाबद्ध और घोषित प्रोजेक्ट था
- कहा गया कि OpenAI ने भी एक वास्तविक test set बनाए रखने के फैसले का समर्थन किया
- इस पर जोर दिया गया कि अकादमिक जगत और labs, दोनों के लिए सचमुच unpolluted यानी training में उपयोग न किए गए test set का होना महत्वपूर्ण है
- [सुधार] OpenAI के डेटा access की सीमा
- गलतफहमी कम करने के लिए यह स्पष्ट किया गया कि OpenAI के पास अंततः स्वतंत्र validation के लिए रखे गए अलग holdout set तक पहुंच नहीं है
1 टिप्पणियां
Hacker News प्रतिक्रिया
यह इंगित किया गया कि भले ही मौखिक सहमति थी कि इसका उपयोग model training में नहीं किया जाएगा, ऐसी सहमतियाँ अक्सर तोड़ी जा सकती हैं
Epoch के सह-संस्थापक ने माना कि OpenAI को FrontierMath के प्रश्नों और समाधानों तक पहुँच मिल सकती थी, लेकिन यह कहा कि मौखिक सहमति के तहत उनका training में उपयोग नहीं किया जाना था
OpenAI की marketing पर जस का तस भरोसा करने वाले लोगों की आलोचना
Epoch AI के Tamay ने माना कि OpenAI की भागीदारी को लेकर वे अधिक पारदर्शी नहीं रह सके
यह उल्लेख किया गया कि OpenAI के benchmark results ने भरोसा खो दिया है, और अन्य AI कंपनियों के पास FrontierMath पर महत्वपूर्ण नतीजे हासिल करने का अवसर था
यह तर्क दिया गया कि यह जाँचने के लिए कि LLMs या AI वास्तव में स्मार्ट हैं या नहीं, यह साबित करना होगा कि प्रश्न training set में शामिल नहीं थे
यह इंगित किया गया कि भले ही benchmark को जानबूझकर धोखा न दिया जाए, बार-बार एक ही test देने पर overfitting या p-hacking हो सकती है
OpenAI द्वारा जनता को गुमराह किए जाने पर असंतोष व्यक्त किया गया
यह जोर दिया गया कि AI कंपनियाँ अपने स्वयं के evaluations बनाने की ओर अधिक बढ़ेंगी, public benchmarks समाप्त हो चुके हैं, और अधिक frontier benchmarks में निवेश की आवश्यकता है
यह दावा किया गया कि AI कंपनियों द्वारा प्रस्तुत evaluation results पर भरोसा नहीं किया जा सकता