2 पॉइंट द्वारा GN⁺ 2025-01-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • हाल ही में OpenAI ने नया मॉडल o3 पेश करते हुए घोषणा की कि उसने गणित के क्षेत्र में उल्लेखनीय प्रदर्शन हासिल किया है
  • खास तौर पर FrontierMath benchmark में, जहाँ पिछला मॉडल 2% हासिल कर पाता था, वहाँ 25% हासिल करने से इस पर काफी ध्यान गया
  • घोषणा के बाद इस benchmark के निर्माण से जुड़ी प्रक्रिया में पारदर्शिता की कमी को लेकर सवाल उठे
  • इससे भविष्य के AI benchmark, evaluation और safety पर होने वाली चर्चा के लिए सीख मिल सकती है

घटना का सार

  • नवंबर 2024 से पहले Epoch AI ने गणित मूल्यांकन के लिए FrontierMath benchmark बनाना शुरू किया
  • बाहरी गणितज्ञों को प्रश्न तैयार करने के लिए नियुक्त किया गया और उन्हें लगभग 300~1000 डॉलर का भुगतान किया गया
  • उस समय यह स्पष्ट नहीं था कि फंडिंग कौन दे रहा है और प्रश्नों व उत्तरों को कौन देख सकता है
  • 7 नवंबर 2024 को Epoch AI ने arxiv पर पेपर का पहला वर्ज़न जारी किया, जिसमें फंडिंग स्रोत का कोई उल्लेख नहीं था
  • 20 दिसंबर 2024 को OpenAI ने o3 मॉडल पेश किया और घोषणा की कि उसने FrontierMath में 25% हासिल किया
  • उसी दिन Epoch AI पेपर का v5 arxiv पर अपडेट हुआ, जिसमें बताया गया कि OpenAI ने पूरा वित्तपोषण किया था और उसे अधिकांश कठिन प्रश्नों व उनके उत्तरों तक पहुंच थी

अतिरिक्त विवरण

  • दिसंबर अपडेट के तुरंत बाद भी इस मुद्दे को लेकर चिंताएँ थीं, और हाल में इससे जुड़ी और जानकारी सामने आई
  • FrontierMath ने कठिनाई को इस तरह बाँटा: (a) ओलंपियाड स्तर (25%), (b) मध्यम कठिनाई (50%), (c) ऐसा स्तर जिसके लिए विशेषज्ञों को कई हफ्ते लगें (25%)
  • o3 के 25% हासिल करने की घोषणा में यह सार्वजनिक नहीं किया गया कि उसने मुख्यतः किस कठिनाई स्तर के प्रश्न हल किए, जिससे गलतफहमी पैदा हो सकती है
  • माना जाता है कि OpenAI को सभी प्रश्नों और उत्तरों तक पहुंच थी, लेकिन मौखिक सहमति के अनुसार इस dataset का सीधे training में उपयोग नहीं किया गया होगा
  • हालांकि यह भी कहा गया कि अंदरूनी तौर पर मॉडल किस तरह train हो रहे हैं, इसे ठीक-ठीक जान पाना किसी के लिए आसान नहीं है

यह और क्यों समस्या है

  • अगर FrontierMath के प्रश्नों का स्वामित्व या उन तक पहुंच हो, तो उससे मॉडल प्रदर्शन सुधारने में अप्रत्यक्ष मदद मिल सकती है
  • खास तौर पर गैर-सार्वजनिक उच्च-कठिनाई वाले प्रश्न model validation या search techniques को और परिष्कृत करने में उपयोगी हो सकते हैं, ऐसी चिंता जताई गई
  • 25% हासिल करने की घोषणा सचमुच कठिन प्रश्न हल करने की क्षमता दिखाती है या मुख्यतः आसान प्रश्न हल किए गए थे, यह स्पष्ट नहीं है

बिना स्पष्ट training के भी क्षमता बढ़ाने वाले dataset

  • o3 की आंतरिक संरचना के बारे में बहुत कम जानकारी सार्वजनिक है, लेकिन कुछ अन्य शोध “inference चरण में scale बढ़ाने” वाला तरीका अपनाते हैं
  • MCMC आधारित chain-of-thought evaluation को अपने-आप सीखने या मध्यवर्ती चरणों में reward model (PRM) जोड़कर search को मजबूत करने वाले शोधों का उल्लेख किया गया
  • FrontierMath जैसे कठिन benchmark ऐसे reward model की validation के लिए उपयोगी हो सकते हैं
  • दूसरे शब्दों में, सीधे training में इस्तेमाल न होने पर भी इन्हें model search strategy या validation techniques को tune करने में उपयोग किया जा सकता है
  • यदि लक्ष्य स्वतंत्र और निष्पक्ष मूल्यांकन हो, तो बेहतर माना जाता है कि benchmark को केवल एक बार evaluation के लिए इस्तेमाल किया जाए और किसी अन्य उद्देश्य में न लाया जाए

AI safety को लेकर चिंता

  • Epoch AI को AI की प्रगति की दिशा ट्रैक करने और safety पर विचार करने वाले संगठन के रूप में जाना जाता है
  • FrontierMath को प्रश्न देने वाले कुछ गणितज्ञों में ऐसे लोग भी हो सकते हैं, जो यदि उन्हें पता होता कि यह AI क्षमता बढ़ाने में इस्तेमाल हो सकता है, तो वे योगदान नहीं करते
  • अंततः यह आलोचना उठी कि OpenAI ने अनिच्छुक लोगों से अप्रत्यक्ष रूप से प्रश्न तैयार करवाकर मॉडल validation और development में उनका उपयोग किया
  • ऐसी अपारदर्शिता AI safety और research ethics, दोनों दृष्टियों से चिंता पैदा करती है

AI Safety Researcher meemi की टिप्पणी

  • FrontierMath को OpenAI से फंडिंग मिली थी
  • यह बात 20 दिसंबर से पहले बाहरी दुनिया के सामने पारदर्शी ढंग से सार्वजनिक नहीं की गई थी, ऐसी आलोचना है
  • पृष्ठभूमि यह है कि arXiv पर डाले गए शुरुआती वर्ज़न (v1–v4) में OpenAI समर्थन का कोई उल्लेख नहीं था, और इसका उल्लेख पहली बार 20 दिसंबर के बाद जारी वर्ज़न में आया
  • Epoch AI ने OpenAI के साथ क्या समझौता किया था, यह स्पष्ट रूप से ज्ञात नहीं है, लेकिन यह संभावना जताई गई कि o3 घोषणा (20 दिसंबर) तक फंडिंग की बात गोपनीय रखी गई
  • गणित प्रश्न निर्माण में शामिल गणितज्ञों को OpenAI फंडिंग के बारे में (सक्रिय रूप से) नहीं बताया गया था, ऐसा कहा गया
  • कॉन्ट्रैक्ट पर काम करने वाले प्रतिभागियों ने NDA पर हस्ताक्षर किए थे और उन्हें प्रश्नों व उत्तरों को मेल या Overleaf आदि के जरिए साझा करने से रोका गया था, यानी सुरक्षा कड़ी रखी गई थी
  • लेकिन यह आलोचना भी है कि उन्हें OpenAI फंडिंग या डेटा के संभावित उपयोग के बारे में स्पष्ट रूप से नहीं बताया गया
  • यह दावा भी सामने आया कि कुछ लेखक भी शायद नहीं जानते थे कि फंडिंग OpenAI कर रहा है
  • ऐसा लगता है कि अधिकांश लोगों और कॉन्ट्रैक्ट प्रतिभागियों की समझ यह थी कि “इस benchmark के प्रश्न और उत्तर पूरी तरह गोपनीय रहेंगे और केवल Epoch ही उनका उपयोग करेगा”
  • फिलहाल Epoch AI या OpenAI सार्वजनिक रूप से यह नहीं कह रहे कि “OpenAI को प्रश्नों या उत्तरों तक पहुंच है”, लेकिन ऐसी अफवाहें हैं कि OpenAI वास्तव में इनका उपयोग करता है
  • यह भी कहा गया कि इस dataset को training में उपयोग से रोकने वाला कोई स्पष्ट समझौता है या नहीं, यह अपारदर्शी है
  • नतीजतन, यह आलोचनात्मक दृष्टिकोण मौजूद है कि फंडिंग और डेटा उपयोग की संभावना के बारे में स्पष्ट खुलासा होना चाहिए था, और प्रश्न तैयार करने वाले कॉन्ट्रैक्ट योगदानकर्ताओं को पर्याप्त जानकारी दी जानी चाहिए थी

Epoch AI के Tamay की टिप्पणी

  • Epoch AI के Tamay ने स्वयं पारदर्शिता की समस्या स्वीकार की
    • OpenAI की भागीदारी को o3 लॉन्च से पहले सार्वजनिक न कर पाने वाली संविदात्मक शर्तें मौजूद थीं
    • बाद में उन्होंने माना कि पारदर्शिता अपर्याप्त थी और योगदानकर्ताओं को यह जानकारी पहले देनी चाहिए थी
    • फंडिंग स्रोत और डेटा access अधिकारों के बारे में स्पष्ट रूप से न बता पाने को उन्होंने अपनी गलती माना
  • भविष्य के सहयोग में पारदर्शिता सुधारने का वादा
    • आगे से कोशिश की जाएगी कि योगदानकर्ता शुरू से ही फंडिंग स्रोत, डेटा access और उपयोग के इरादे को स्पष्ट रूप से जान सकें
    • कुछ गणितज्ञों को यह बताया गया था कि फंडिंग किसी lab से आ रही है, लेकिन यह जानकारी व्यवस्थित रूप से नहीं दी गई
    • किसी विशेष lab का नाम, यानी OpenAI, न बताकर आगे बढ़ना ही समस्या था
    • उन्होंने कहा कि शुरू से इस सहयोग संबंध को सार्वजनिक करने के लिए उन्हें अधिक दृढ़ता से बातचीत करनी चाहिए थी
  • o3 लॉन्च तक खुलासा सीमित रहने की समस्या
    • संविदात्मक दायित्वों के कारण OpenAI के साथ साझेदारी को o3 लॉन्च के आसपास तक सार्वजनिक नहीं किया जा सका
    • प्रश्न तैयार करने वाले गणितज्ञों को यह जानने का अधिकार था कि उनका काम किन तक पहुँच सकता है
    • अनुबंध के कारण योगदानकर्ताओं को ठीक से न समझा पाने पर उन्होंने खेद जताया
  • डेटा access और training में उपयोग की संभावना
    • OpenAI को FrontierMath के प्रश्नों और उत्तरों के बड़े हिस्से तक पहुंच मिल सकती है
    • लेकिन उनका कहना है कि training के लिए उपयोग न करने की मौखिक सहमति थी
    • OpenAI कर्मचारियों ने सार्वजनिक रूप से FrontierMath को “strongly held out set” कहा है
    • वास्तव में स्वतंत्र validation के लिए एक अलग holdout set मौजूद है, जिस तक OpenAI की पहुंच नहीं है
    • इसका उद्देश्य अत्यधिक model training या overfitting को रोकना और objective performance measurement बनाए रखना है
  • FrontierMath का मूल उद्देश्य
    • FrontierMath शुरुआत से ही evaluation के लिए योजनाबद्ध और घोषित प्रोजेक्ट था
    • कहा गया कि OpenAI ने भी एक वास्तविक test set बनाए रखने के फैसले का समर्थन किया
    • इस पर जोर दिया गया कि अकादमिक जगत और labs, दोनों के लिए सचमुच unpolluted यानी training में उपयोग न किए गए test set का होना महत्वपूर्ण है
  • [सुधार] OpenAI के डेटा access की सीमा
    • गलतफहमी कम करने के लिए यह स्पष्ट किया गया कि OpenAI के पास अंततः स्वतंत्र validation के लिए रखे गए अलग holdout set तक पहुंच नहीं है

1 टिप्पणियां

 
GN⁺ 2025-01-20
Hacker News प्रतिक्रिया
  • यह इंगित किया गया कि भले ही मौखिक सहमति थी कि इसका उपयोग model training में नहीं किया जाएगा, ऐसी सहमतियाँ अक्सर तोड़ी जा सकती हैं

    • इस बात पर संदेह जताया गया कि OpenAI benchmark data तक पहुँच सकता था, जबकि केवल मौखिक रूप से यह सहमति हुई थी कि इसका training में उपयोग नहीं होगा
  • Epoch के सह-संस्थापक ने माना कि OpenAI को FrontierMath के प्रश्नों और समाधानों तक पहुँच मिल सकती थी, लेकिन यह कहा कि मौखिक सहमति के तहत उनका training में उपयोग नहीं किया जाना था

    • मौखिक सहमति की विश्वसनीयता पर सवाल उठाया गया और यह इंगित किया गया कि OpenAI तकनीकी रूप से सहमति का पालन करते हुए भी benchmark में अनुचित लाभ पाने के कई तरीके रखता है
  • OpenAI की marketing पर जस का तस भरोसा करने वाले लोगों की आलोचना

    • Sora demo में manual editing शामिल होने के बावजूद इसका उल्लेख न करने के मामले को उदाहरण के रूप में दिया गया
  • Epoch AI के Tamay ने माना कि OpenAI की भागीदारी को लेकर वे अधिक पारदर्शी नहीं रह सके

    • अनुबंध के कारण जानकारी के खुलासे पर सीमाएँ थीं, और benchmark contributors को जल्दी पारदर्शिता देने के लिए उन्हें अधिक सख्ती से बातचीत करनी चाहिए थी, इस पर उन्होंने अफसोस जताया
  • यह उल्लेख किया गया कि OpenAI के benchmark results ने भरोसा खो दिया है, और अन्य AI कंपनियों के पास FrontierMath पर महत्वपूर्ण नतीजे हासिल करने का अवसर था

  • यह तर्क दिया गया कि यह जाँचने के लिए कि LLMs या AI वास्तव में स्मार्ट हैं या नहीं, यह साबित करना होगा कि प्रश्न training set में शामिल नहीं थे

    • अगर यह नहीं पता कि प्रश्न या उत्तर training set में थे या नहीं, तो यह दावा नहीं करना चाहिए कि AI स्मार्ट है
  • यह इंगित किया गया कि भले ही benchmark को जानबूझकर धोखा न दिया जाए, बार-बार एक ही test देने पर overfitting या p-hacking हो सकती है

    • यह समझाना गया कि छोटे बदलाव वास्तविक सुधार हैं या noise, यह तय करना कठिन हो सकता है, और शोधकर्ता यह मान सकते हैं कि उन्होंने noise के आधार पर optimization खोज लिया है
  • OpenAI द्वारा जनता को गुमराह किए जाने पर असंतोष व्यक्त किया गया

    • यह उल्लेख किया गया कि CEO का व्यवहार FrontierMath और Epoch AI की प्रतिष्ठा को नुकसान पहुँचाएगा
  • यह जोर दिया गया कि AI कंपनियाँ अपने स्वयं के evaluations बनाने की ओर अधिक बढ़ेंगी, public benchmarks समाप्त हो चुके हैं, और अधिक frontier benchmarks में निवेश की आवश्यकता है

  • यह दावा किया गया कि AI कंपनियों द्वारा प्रस्तुत evaluation results पर भरोसा नहीं किया जा सकता