1 पॉइंट द्वारा GN⁺ 2024-12-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • o3 और FrontierMath का परिचय

    • o3 OpenAI का नया language model है, जिसने FrontierMath नामक एक गोपनीय dataset में 25% score दर्ज किया।
    • FrontierMath, Epoch AI द्वारा जारी कठिन गणितीय प्रश्नों से बना एक निजी dataset है।
    • इसमें ऐसे प्रश्न हैं जैसे "इस संख्या को खोजो!", और इनका स्पष्ट उत्तर चाहिए जो स्वचालित रूप से verify किया जा सके।
  • FrontierMath dataset की कठिनाई

    • FrontierMath के प्रश्न शोध गणितज्ञों के लिए भी गैर-रूटीन हैं, और कुछ प्रश्नों के लिए डॉक्टरेट स्तर का ज्ञान चाहिए।
    • dataset के प्रश्न गणितीय proof खोजने की तुलना में संख्या खोजने पर ज़्यादा केंद्रित हैं।
    • गणित शोधकर्ता आमतौर पर proof या idea खोजने में समय लगाते हैं, इसलिए FrontierMath AI गणित शोध के लिए एक महत्वपूर्ण dataset है।
  • AI की गणितीय क्षमता

    • AI अभी स्कूल/हाई स्कूल स्तर के गणितीय प्रश्न अच्छे से हल कर लेती है, और अनुमान है कि वह जल्द ही कॉलेज गणित की परीक्षा भी पास कर लेगी।
    • लेकिन उन्नत स्नातक स्तर से ऊपर नए, नवोन्मेषी idea पैदा करना अभी भी चुनौतीपूर्ण है।
    • o3 का 25% score करना उल्लेखनीय है, हालाँकि यह तर्क है कि कुछ प्रश्न college level के हैं।
  • गणित शोध में AI की भूमिका

    • गणित शोध में मूल उद्देश्य यह होता है कि "इस theorem को prove करो!" जैसा प्रश्न हल किया जाए।
    • DeepMind का AlphaProof, 2024 अंतरराष्ट्रीय गणित ओलंपियाड के प्रश्नों में से 4 हल करने में सफल रहा, और उनमें से कुछ का पूर्ण Lean proof से सत्यापन भी हुआ।
    • यदि AI को गणित शोध में बड़ा रोल निभाना है, तो उसे proof को ऐसी भाषा में explain करना होगा जो इंसानों के लिए समझने योग्य हो।
  • भविष्य की दिशा

    • AI को गणित शोध में ज्यादा असरदार बनने के लिए proof को इंसान की समझ के अनुरूप explain करना होगा।
    • AI का विकास तेज़ी से हो रहा है, लेकिन अभी रास्ता लंबा है।
    • AI कब स्नातक स्तर की बाधा पार करेगा, यह अभी स्पष्ट नहीं है।

1 टिप्पणियां

 
GN⁺ 2024-12-24
Hacker News टिप्पणी
  • Reddit थ्रेड में तीन कठिनाई स्तरों में से 25% प्रश्न T1 (सबसे आसान) और 50% प्रश्न T2 हैं। लेखक ने जो पाँच सार्वजनिक प्रश्न देखे उनमें दो T1 और दो T2 थे। Glazer ने T1 को "IMO/स्नातक-स्तर" कहा था, लेकिन लेखक को यह स्नातक स्तर जैसा नहीं लगा। लेखक के हिसाब से LLM पहले से ही वही काम कर रहा है जिससे हैरानी हो सकती थी

    • Glazer को यह खेद है कि उन्होंने T1 को "IMO/स्नातक" कहा; यह सिर्फ IMO और सामान्य स्नातक स्तर के अंतर के कारण नहीं था। उनका कहना है कि जब प्रमुख परिणाम को black box की तरह लागू किया जाता है, तो समस्या की कठिनाई अनावश्यक रूप से बढ़ जाती है, इसलिए वे प्रश्न को एक स्तर नीचे कर देते हैं
  • ChatGPT की मदद से linear algebra समझने की कोशिश की, लेकिन वास्तविक गणित में यह बार-बार मूर्खतापूर्ण गलतियाँ करता है। उदाहरण के लिए, वेक्टर की dimension से आगे index करना, scalar पर matrix decomposition की कोशिश करना, या mismatch होती dimensions वाली matrices को multiply करने की कोशिश करना

  • O1, 4o की तुलना में त्रुटियाँ बेहतर तरीके से पकड़ता है, फिर भी कई बेसिक गलतियाँ करता रहता है। यदि कोई कुछ जानकार व्यक्ति मदद न करे, तो इसे लगातार सही परिणाम generate करना कठिन लगता है

  • Akshay Venkatesh के व्याख्यान में स्वचालित theorem proving के ज़्यादा सामान्य होने पर "math job" के भविष्य पर चर्चा हुई। इसमें यह भी बताया गया कि automated reasoning की प्रगति से शोध गणित के conceptualization और practice में कैसे बदलाव आ सकते हैं

  • 18 वर्षीय बेटे के पिता के नाते, जो गणित पढ़ना चाहता है, automation के कारण jobs के खत्म होने की चिंता हुई। फिर भी सवाल यह है कि क्या LLM वास्तव में पूरी तरह replace कर सकता है। मुझे लगता है कि क्योंकि LLM के पास सब कुछ हल करने के लिए अनंत समय/संसाधन नहीं हैं, इसलिए मानवीय भूमिका अभी भी रहेगी

  • संभव नहीं लगता कि LLM लगभग सभी प्रश्न हल करने वाला एक सामान्य problem-solver बन जाएगा। जब तक AI मानव जैसी स्वतंत्र सामाजिक rationality नहीं विकसित करता, मैं नहीं मानता कि वास्तविक reasoning संभव है

  • ChatGPT द्वारा की गई बेसिक गलतियों के उदाहरण दिए गए। जैसे Stop-and-Wait ARQ की efficiency formula derive करते समय गलत चरण दिखाना। दूसरा उदाहरण, अभ्यास के लिए syllogism मांगने पर इसने असंगत syllogism दे दिया

  • FrontierMath dataset के corrupt होने की संभावना उठाई गई। यदि OpenAI को प्रश्न पहले से पता हों, तो अगले version में FrontierMath test में 80% से ऊपर स्कोर करना संभव होगा

  • Quantum शोध में भी ऐसी ही समस्या आती है। यह दिखाने के लिए कि वास्तविक प्रगति हुई है, ऐसे गणना-प्रयोग करने होंगे जो classical कंप्यूटर पर संभव नहीं। जब ChatGPT ने 25% स्कोर किया, तो सवाल उठा कि वह 25% training set के प्रश्नों के कितने करीब था

  • भाषा मॉडल द्वारा Riemann hypothesis का "proof" देने की संभावना पर चिंता व्यक्त की गई। गणितज्ञ शायद ऐसे proofs की verification की कोशिश करेंगे, लेकिन इसमें बहुत समय लग सकता है

  • IMO 2025 में किसी machine के भाग लेने की संभावना नहीं है। IMO में कोई "grader" नहीं होता; स्कोर टीम लीडर और प्रत्येक देश के judges के बीच बातचीत से तय होता है। AI कामों को score करने के लिए सैकड़ों लोग लंबे समय तक नहीं ठहरेंगे