2 पॉइंट द्वारा GN⁺ 2024-09-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

mathstodon.xyz परिचय

  • mathstodon.xyz Mastodon-आधारित विकेंद्रीकृत social network का हिस्सा है और गणित से जुड़े उपयोगकर्ताओं के लिए एक instance है.
  • यह web interface में LaTeX rendering को support करता है.
  • एडमिन: Christian Lawson-Perfect (@christianp)
  • सर्वर आँकड़े: 3K सक्रिय उपयोगकर्ता

Terence Tao का GPT-o1 प्रयोग

  • GPT-o1: OpenAI का नया GPT version, जो LLM चलने से पहले एक प्रारंभिक reasoning चरण करता है.
  • प्रयोग 1: अस्पष्ट गणितीय प्रश्न के उत्तर में इसने Cramer's theorem को सही ढंग से पहचाना और संतोषजनक उत्तर दिया.
    • पिछले version में संबंधित concepts का उल्लेख था, लेकिन विवरण गलत थे.
  • प्रयोग 2: एक जटिल analysis समस्या की चुनौती में इसने बहुत-से hints और मार्गदर्शन के साथ सही समाधान निकाला, लेकिन मुख्य conceptual idea खुद से उत्पन्न नहीं कर पाया और कुछ गलतियाँ भी कीं.
    • यह पिछले model से बेहतर था, लेकिन अभी भी अपर्याप्त है.
    • आने वाले कुछ improvements के बाद यह research-level काम में उपयोगी हो सकता है.
  • प्रयोग 3: Lean में परिणाम को formalize करने के काम में इसने समस्या को अच्छी तरह समझा और शुरुआती decomposition भी अच्छी की, लेकिन नवीनतम Lean जानकारी की कमी के कारण code में कई गलतियाँ थीं.
    • Lean और Mathlib पर विशेषीकृत model के साथ एकीकृत IDE में यह बहुत उपयोगी हो सकता है.

अतिरिक्त चर्चा

  • AI tools का विकास: ऐसे AI tool ecosystem के उभरने की उम्मीद है जो विभिन्न research tasks को संभाल सके.
    • अभी बड़े, general-purpose LLM पर ध्यान है, लेकिन यह उम्मीद है कि खास applications के लिए बनाए गए lightweight open source models भी महत्वपूर्ण भूमिका निभाएँगे.
  • AI और graduate students की तुलना: इस पर चर्चा कि क्या AI tools graduate student स्तर का योगदान दे सकते हैं.
    • अभी AI को graduate students से अधिक effort चाहिए, लेकिन आने वाले कुछ वर्षों में यह अनुपात 1 या उससे कम हो सकता है.

# GN⁺ की संक्षिप्त प्रस्तुति

  • Terence Tao ने OpenAI के नए GPT-o1 model का परीक्षण कर उसकी गणितीय problem-solving क्षमता का मूल्यांकन किया.
  • GPT-o1 पिछले version की तुलना में बेहतर है, लेकिन इसमें अभी भी कुछ सीमाएँ हैं.
  • आने वाले कुछ improvements के बाद यह research-level काम में उपयोगी हो सकता है.
  • ऐसे ecosystem के उभरने की उम्मीद है जिसमें विभिन्न AI tools research tasks को support कर सकें.
  • अभी बड़े, general-purpose LLM पर ध्यान है, लेकिन खास applications के लिए बने lightweight open source models भी महत्वपूर्ण भूमिका निभा सकते हैं.

1 टिप्पणियां

 
GN⁺ 2024-09-15
Hacker News राय
  • यह उम्मीद है कि अगर GPT को Lean (proof assistant tool) में Python की तरह fine-tune किया जाए, तो वह research-level गणित में अधिक उपयोगी हो सकता है

    • Operations Research (OR) से जुड़े क्षेत्रों में ChatGPT 4o ने OR literature को पर्याप्त रूप से सीखा है और उपयोगी mixed integer programming (MIP) formulations देता है
    • जब उसे logic problems दिए जाते हैं, तो वह उपयोगी mathematical formulas बनाता है और केवल हल्के संशोधन की ज़रूरत होती है
    • वह उन कमजोर formulations के बारे में चेतावनी देता है जहाँ logic विफल हो सकती है, जिससे समस्याओं से बचने में मदद मिलती है
    • जिन समस्याओं पर पहले पूरा weekend लग जाता था, उन्हें GPT हल कर देता है और बहुत समय बचाता है
    • जो लोग MIP optimization को समझते हैं और समस्या को छोटे हिस्सों में बाँट सकते हैं, उनके लिए ChatGPT का $20 प्रति माह subscription पूरी तरह क़ीमती है
    • बहुत से लोग या तो LLM का सही उपयोग नहीं कर पाते या उससे अत्यधिक उम्मीद रखते हैं, इसलिए वे असंतुष्ट रहते हैं
    • जो लोग LLM की strengths जानते हैं और उसकी गलतियों को check कर सकते हैं, उन्हें काम में बहुत मदद मिलती है
  • कल्पना कीजिए कि आप 2019 में लौट जाएँ और यह पढ़ें कि Alexa के साथ इंटरैक्ट करना "एक औसत लेकिन पूरी तरह अयोग्य नहीं graduate student को सलाह देने जैसा है"

    • केवल 5 साल में बहुत बड़ा अंतर आ गया है
  • o1 model बहुत चौंकाने वाला है

    • Rust code optimization project में बड़ी speedup मिली और correctness भी verify हुई
    • Jensen-Shannon divergence पर आधारित statistical dependence का एक नया measure सोचा और implement किया गया
    • normalized mutual information का तेज implementation बनाया गया, जिसे बड़े vectors (जैसे 15,000 dimensions से अधिक) के लिए ढूँढना कठिन था
    • शुरुआत में यह perfect Rust code नहीं दे पाया, लेकिन एक ही कोशिश में सभी bugs ठीक कर दिए
    • GPT-4o को Rust type errors ठीक करने के लिए कई attempts चाहिए थे
    • Claude3.5 sonnet, Rust के मामले में बहुत अक्षम है
    • यह बहुत challenging tasks में बड़ी मदद देता है
    • performance optimization और अपेक्षाकृत bug-free code के अलावा, यह creative problem solving और व्यापक mathematical तथा algorithmic knowledge को जोड़कर लक्ष्य को समझता और पूरा करता है
  • O1 model के साथ अनुभव बहुत अलग-अलग हैं

    • यह साधारण सवालों पर भी उलझ जाता है
  • यह नई बात है कि LLM कई विषयों में "एक औसत लेकिन पूरी तरह अयोग्य नहीं graduate student को सलाह देने जैसा" लगता है

    • जिन क्षेत्रों में अनुभव अधिक है, वहाँ छोटे tasks सँभालने में यह बहुत मददगार है
    • यदि समस्या को छोटे हिस्सों में बाँट दिया जाए, तो यह solid काम करता है
    • conceptual understanding ज़रूरी है, और prompt skill महत्वपूर्ण है
    • लोग जटिल विषयों को समझने के लिए LLM का उपयोग करते हैं और expert validation के ज़रिए concepts की पुष्टि करते हैं
  • इंसानों को भी "chain of thought" प्रकार की reasoning से लाभ मिल सकता है

    • अगर गणित पढ़ने वाले सभी छात्र संबंधित definitions और जानकारी याद रख पाते, तो उनकी क्षमता बहुत बढ़ जाती
    • AI के पास भावनात्मक अवरोध नहीं होते, इसलिए वह बेहतर reasoning कर सकता है
  • Terence Tao की राय से सहमति है

    • LLM pattern matching के जरिए performance सुधार सकते हैं, लेकिन सच्चा generalization बनाने में शायद प्रभावी न हों
    • नए या जटिल problems में अब भी hallucinations और गलत reasoning हो सकती है
  • गणित को एक स्वतंत्र hobby के रूप में फिर से पढ़ना उत्साहजनक लग रहा है

    • LLM की मदद से जटिल analysis questions हल करने में बहुत सहायता मिलती है
    • concepts के बीच संबंध जल्दी ढूँढ लेने की LLM की क्षमता चौंकाती है
    • जब यह पूछा गया कि कुछ definitions को ढीला करने पर non-orientable manifolds पर complex analysis संभव है या नहीं, तो LLM ने तुरंत पहचान लिया कि Cauchy-Riemann equations globally consistent नहीं हैं
    • LLM के बिना इस सवाल का जवाब नहीं मिल पाता
  • Terence Tao की राय चौंकाने वाली है

  • Daniel Litt, o1-preview से प्रभावित थे, लेकिन दिलचस्प mathematical problems हल करने में अभी तक ज़्यादा सफलता नहीं मिली

    • यह simple tasks में अधिक reliable है, और non-mathematical tasks में समय बचा सकता है