2 पॉइंट द्वारा GN⁺ 2024-03-24 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Chain-of-thought reasoning neural network की गणना में कैसे मदद करता है

  • जब बड़े language models किसी समस्या को हल करते समय अपने intermediate steps दिखाते हैं, तो उनकी performance बेहतर हो जाती है.
  • शोधकर्ता अब समझना शुरू कर रहे हैं कि यह तकनीक प्रभावी क्यों है.

Transformer training

  • बड़े language models, artificial neural networks नाम की गणितीय संरचना पर आधारित होते हैं.
  • neural network के अंदर के 'neurons' अलग-अलग शब्दों को दर्शाने वाली संख्याओं की लंबी strings पर सरल गणितीय operations करते हैं.
  • Transformers, attention heads नाम की एक विशेष गणितीय संरचना का उपयोग करके text को तेज़ी से scan करते हैं और शब्दों के बीच संबंधित connections की पहचान करते हैं.

Transformers की complexity

  • Transformers पर सैद्धांतिक शोध, training के दौरान होने वाली प्रक्रियाओं को शामिल किए बिना, उन्हें एक विशेष प्रकार के computer की तरह मानकर अध्ययन करता है.
  • शोधकर्ताओं ने सिद्ध किया है कि Transformers, Turing machine जितने शक्तिशाली हो सकते हैं.

Thought experiment

  • शोधकर्ताओं ने यह सवाल उठाया कि जब Transformers अपने outputs को recycle करते हैं, तो वे कितने अधिक शक्तिशाली बन जाते हैं.
  • Chain-of-thought reasoning, Transformers की सीमाओं को bypass करने का एक तरीका दे सकता है.

वापस वास्तविकता में

  • सैद्धांतिक analysis वास्तविक language models के बारे में बहुत कुछ उजागर करता है, लेकिन इससे पूरी तरह सटीक नतीजों की उम्मीद नहीं की जा सकती.
  • complexity theory analysis, Transformers की सीमाओं को पहचानने के लिए महत्वपूर्ण है.

GN⁺ की राय

  • यह शोध, artificial intelligence के क्षेत्र में Transformer models की सीमाओं और संभावनाओं को समझने में महत्वपूर्ण योगदान देता है. खास तौर पर, यह इस बात पर insight देता है कि Chain-of-thought reasoning जटिल समस्याओं को हल करने में कैसे मदद कर सकता है.
  • हालांकि, सैद्धांतिक शोध के नतीजे हमेशा वास्तविक models की performance से मेल नहीं खाते, इसलिए इन्हें वास्तविक applications में लागू करते समय सावधानी ज़रूरी है. वास्तविक environment में performance, training data, model architecture, hyperparameter tuning और अन्य कई factors से प्रभावित होती है.
  • यह लेख language processing models की सीमाओं को पहचानने और बेहतर models विकसित करने के लिए शोध की दिशा सुझाकर AI researchers को उपयोगी जानकारी देता है.
  • मिलती-जुलती क्षमताओं वाले अन्य projects में OpenAI की GPT series शामिल है, जो बड़े language models की performance को वास्तविक रूप में देखने का एक अच्छा उदाहरण है.
  • किसी नए technology या model को अपनाते समय हमेशा existing systems के साथ compatibility, cost, performance और maintenance पर विचार करना चाहिए, और इस लेख में शामिल शोध ऐसे निर्णय लेने के लिए उपयोगी background knowledge प्रदान कर सकता है.

1 टिप्पणियां

 
GN⁺ 2024-03-24
Hacker News की राय
  • chain-of-thought के साथ इंटरैक्ट करने के अनुभव पर राय:

    • chain-of-thought गणित या तर्क की सख्त chain जैसी नहीं है.
    • मॉडल step-by-step reasoning के ज़रिए जो आउटपुट देता है, वह संबंधित context की मज़बूती पर निर्भर करता है, और यह इंसानों द्वारा किए जाने वाले गणित/तर्क की तुलना में काफ़ी कमज़ोर है.
    • मॉडल इंसानों की तरह तार्किक रूप से reasoning नहीं करते, बल्कि संबंधित context के ज़रिए छलांग लगाते हैं.
    • transformer model केवल token generate करते समय computation करते हैं, इसलिए chain-of-thought का उपयोग करके अधिक token generate करने से मॉडल को "सोचने" के लिए अधिक समय मिलता है.
  • computation के औपचारिक अध्ययन से जुड़े केंद्रीय प्रश्न:

    • computation का औपचारिक अध्ययन 1936 में Turing machine की कल्पना करने वाले Alan Turing तक जाता है.
    • इससे भी पहले 1920 के दशक में Moses Schönfinkel ने combinatory logic, और 1930 के शुरुआती दशक में Alonzo Church ने lambda calculus विकसित किया.
    • ये मॉडल computation complexity theory की नींव के लिए उपयुक्त नहीं हैं.
  • large language model (LLM) पर दो दृष्टिकोण:

    • LLM के बारे में "इसमें consciousness है" या "यह बस एक impressive dataset वाला next-token predictor है" कहना अक्सर इस बात पर बँट जाता है कि किसी ने पहले ML fundamentals सीखे और फिर LLM देखे, या इसका उल्टा किया.
    • बुनियादी concepts बड़ी तस्वीर देखने में सीमा भी लगा सकते हैं, इसलिए बहस का स्वागत है.
    • chain-of-thought पर मूल paper के नतीजे बाद की कोशिशों में अक्सर reproduce नहीं हो पाते.
  • मॉडल सोच नहीं सकते:

    • मॉडल input context का उपयोग करके output predict करते हैं.
    • जिन समस्याओं को iterative तरीके से हल करना होता है, उनमें intermediate steps को context में बनाए रखना पड़ता है.
  • computation complexity का एक सरल कारण:

    • अगर LLM को ऐसे computer की तरह सोचें जो input पर एक constant-time forward pass करता है, तो उसे अधिक cycles देने पर वह अधिक computation कर सकता है.
    • यह उस समस्या का विस्तार है कि single-layer perceptron XOR की computation नहीं कर सकता.
  • chain-of-thought के चमत्कार की एक सरल व्याख्या:

    • एक tweet का हवाला दिया गया है कि data और prompt हैरान करने वाले तरीक़े से काम करते हैं.
    • ऐसी कई websites मौजूद हैं जो गणित की समस्याओं के step-by-step solutions देती हैं.
  • chain-of-thought से संबंधित राय:

    • chain-of-thought "smooshing" जैसा है, और इसे intelligence के approximation के लिए सही approach के रूप में सहज रूप से समझा जाता है.
  • chain-of-thought को लागू करने और artificial consciousness का प्रयोग करने का मामला:

    • जब सवाल के जवाब से आगे बढ़कर chain-of-thought को जारी रखा जाता है, तो artificial consciousness का एक रूप उभरता है.
  • chain-of-thought को उल्टा लागू करने का मामला:

    • मॉडल को इस तरह train किया जाता है कि वह पहले जवाब दे और उसके बाद अपने steps का reasoning करे.
    • Mistral AI के शोधकर्ताओं ने इस method का उपयोग किया, और जटिल सवालों पर मॉडल पहले जवाब देकर बाद में reasoning करता दिखा.