22 पॉइंट द्वारा xguru 2025-05-13 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • उनका तर्क है कि LLMs को पारंपरिक pretraining और fine-tuning से आगे बढ़कर एक तीसरे learning paradigm, यानी "System Prompt Learning" की आवश्यकता है
  • Pretraining ज्ञान सीखता है, और fine-tuning आदतन व्यवहार सीखता है, और दोनों में model parameters में बदलाव शामिल होता है
  • इसके विपरीत, इंसानों की सीखने की प्रक्रिया system prompt में बदलाव के ज़्यादा समान है, और इसका रूप होता है "समस्या की स्थिति का सामना → समझना और रणनीति निकालना → अगली बार के लिए उसे स्पष्ट रूप से याद रखना"
    • उदाहरण: यह उस तरह के self-note जैसा है कि "अगर इस तरह की समस्या सामने आए, तो यह approach/solution आज़माना चाहिए"
  • यह सामान्य user context memory से अलग है, और इसके बजाय समग्र problem-solving strategies और reasoning procedures को स्पष्ट रूप से संग्रहीत करने के अधिक करीब है
  • इंसान ऐसी रणनीतियों को सचेत रूप से याद रखते हैं या लिखकर रखते हैं, लेकिन LLM अभी भी बिना ऐसे scratchpad वाले Memento के नायक जैसा है
  • इस तरह की strategy-based learning, reward signal-आधारित reinforcement learning (RL) की तुलना में कहीं अधिक high-level और data-efficient feedback path हो सकती है
  • हाल ही में लीक हुए Claude के system prompt की लंबाई लगभग 17,000 शब्द है, और उसमें केवल साधारण behavior preferences ही नहीं, बल्कि सामान्य problem-solving strategies भी विस्तार से लिखी गई हैं

    उदाहरण: यदि Claude से शब्दों की संख्या गिनने को कहा जाए, तो वह तुरंत उत्तर नहीं देता, बल्कि चरणबद्ध तरीके से सोचता है,
    हर शब्द/अक्षर/चरित्र को नंबर देता है और स्पष्ट counting procedure से गुजरने के बाद उत्तर देता है

  • इस तरह का ज्ञान ऐसा नहीं है जिसे तुरंत या केवल weights में ही अंतर्निहित कर देना चाहिए, और इसे इंसानों द्वारा system prompt हाथ से लिखकर एक-एक करके भी नहीं देना चाहिए
  • इसके बजाय, यह तरीका learning के एक नए रूप, System Prompt Learning, के माध्यम से संभव है। इसकी सेटिंग RL जैसी दिख सकती है,
    लेकिन learning method gradient descent नहीं, बल्कि text-based editing के अधिक करीब है
  • LLM system prompt का बड़ा हिस्सा system prompt learning के माध्यम से लिखा जा सकता है, और यह उस स्थिति जैसा होगा जहाँ LLM खुद problem-solving methods पर एक किताब लिखे
  • इस तरह prompt को LLM द्वारा स्वयं edit/update करना एक शक्तिशाली नया learning paradigm बन सकता है
    • हालांकि, कुछ चुनौतियाँ भी हैं:
      • text editing कैसे काम करेगी?
      • क्या model इस editing system को खुद सीख सकता है, या उसे सीखना चाहिए?
      • इंसानों की तरह स्पष्ट रणनीतिक ज्ञान को धीरे-धीरे अंतर्निहित आदतों/weights में transfer करने के लिए किस तरह के mechanism की ज़रूरत होगी?

1 टिप्पणियां

 
parkindani 2025-05-13

अगर LLM खुद system prompt बदल सकता है, तो उसकी policy के rules भी इंसानों को ही तय करने होंगे, और आखिर में शायद सिर्फ़ रोबोट के 3 नियम जैसी चीज़ें ही बचेंगी।