1 पॉइंट द्वारा GN⁺ 2025-04-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • CoRT एक ऐसा algorithm है जो AI model को अपनी ही प्रतिक्रिया की बार-बार समीक्षा करने, विकल्प बनाने और सबसे बेहतर उत्तर चुनने में सक्षम बनाता है
  • इसे Mistral 3.1 24B model पर लागू करने पर, खासकर programming tasks में, प्रदर्शन में बड़ा सुधार हुआ
  • AI शुरुआती प्रतिक्रिया बनाता है और कई 'thinking rounds' के ज़रिए विकल्पों का मूल्यांकन करके अंतिम प्रतिक्रिया चुनता है
  • इस प्रक्रिया में self-evaluation, competitive alternative generation, iterative improvement, dynamic thinking depth शामिल हैं
  • CoRT MIT license के तहत उपलब्ध है, और सुधार के लिए योगदान का स्वागत है

CoRT (Chain of Recursive Thoughts) 🧠🔄

सारांश

  • CoRT का परिचय, जो एक ऐसा algorithm है जिसमें AI खुद से बहस करके बेहतर उत्तर खोजता है
  • AI model प्रतिक्रियाओं की बार-बार समीक्षा करता है, विकल्प बनाता है और सबसे उपयुक्त उत्तर चुनता है
  • इसे Mistral 3.1 24B model पर लागू करने पर, खासकर programming tasks में, प्रदर्शन में उल्लेखनीय सुधार हुआ

CoRT कैसे काम करता है

  • AI शुरुआती प्रतिक्रिया बनाता है
  • AI तय करता है कि कितने 'thinking rounds' की ज़रूरत है
  • हर राउंड में:
    • 3 वैकल्पिक प्रतिक्रियाएँ बनाता है
    • सभी प्रतिक्रियाओं का मूल्यांकन करता है
    • सबसे बेहतर प्रतिक्रिया चुनता है
  • अंतिम प्रतिक्रिया इस AI battle royale की विजेता बनती है

सीक्रेट सॉस

  • self-evaluation
  • competitive alternative generation
  • iterative improvement
  • dynamic thinking depth

योगदान

  • अगर आपने सुधार का कोई तरीका ढूंढ लिया है, तो PR का स्वागत है

लाइसेंस

  • MIT license के तहत स्वतंत्र रूप से उपयोग किया जा सकता है

1 टिप्पणियां

 
GN⁺ 2025-04-30
Hacker News राय
  • किसी समस्या पर AI चैट मॉडल से उत्तर दिलवाना और फिर उससे एक रिपोर्ट लिखवाना कि उसका उत्तर सही क्यों है

    • दूसरे AI मॉडल से इस रिपोर्ट का मूल्यांकन करवाना, और उससे ऐसी रिपोर्ट लिखवाना जो मूल मॉडल द्वारा न दी गई जानकारी या तार्किक असंगतियों की ओर इशारा करे
    • इस प्रक्रिया को तब तक दोहराना, जब तक दूसरा AI मॉडल पहले AI मॉडल की व्याख्या से संतुष्ट न हो जाए, या पहला AI मॉडल सभी माँगे गए बदलाव लागू न कर दे
    • यह तरीका कुछ जटिल है, लेकिन जब इसे आज़माया गया तो काफ़ी अच्छे परिणाम मिले
  • बड़े पैमाने पर हमेशा चालू मोड में एक 'सीनेट' जैसी बहस आज़माना चाहता/चाहती हूँ

    • अलग-अलग समस्याओं का जवाब देने के बजाय, एक task list दी जाए और सीनेट उसे हल करे
    • लगता है कि अलग-अलग दृष्टिकोणों और आलोचनात्मक विश्लेषण के ज़रिए प्रभावशाली नतीजे मिल सकते हैं
    • बहुत सारे tokens की ज़रूरत होगी, लेकिन token प्रति लागत लगातार घट रही है, इसलिए संभावना है
    • AI-समर्पित IRC server बनाकर ऐसा साझा बहस-स्थल भी बनाया जा सकता है जहाँ कोई भी अपना मॉडल जोड़ सके
  • संदेश समाप्त करते समय एक सरल रणनीति के रूप में यह कहना: "think tag के साथ एक बार सोचें, critic tag के साथ एक बार आत्म-आलोचना करें, और अंत में think tag के साथ एक बार फिर सोचकर जवाब दें"

    • यह अच्छी तरह काम करता है
    • सुझाव की 5 सबसे बड़ी समस्याएँ ढूँढने के लिए कहना भी प्रभावी है
  • यह शीर्षक से जो उम्मीद थी, उससे अलग है

    • assistant, cross-checker, judge जैसी भूमिकाएँ सेट करके, हर भूमिका के अनुसार प्रश्न और उत्तर चलाए जाते हैं
    • ChatGPT से "अगर XYZ सच है तो समझाइए" और "अगर XYZ सच नहीं है तो समझाइए" पूछकर यह देखा जाता है कि कौन-सा पक्ष ज़्यादा विश्वसनीय है
  • Unreal Engine Blueprint-स्टाइल graph editor बनाने पर काम कर रहा/रही हूँ, जिसमें user input से शुरू होकर कई agents काम करें

    • Mistral small 3.1 और gemma 3 मॉडल ऐसे पहले स्थानीय रूप से चलने वाले semi-capable models जैसे लगते हैं
    • अगर loop में Python execution आज़माकर उसे दुनिया explore करने को कहा जाए, तो वह news वगैरह डाउनलोड करके पढ़ना शुरू कर देता है
  • सोच रहा/रही हूँ कि क्या AI agent टीम एक scrum team चला सकती है और हर कुछ घंटों में stand-up meetings कर सकती है

    • यह भी जिज्ञासा है कि क्या सरकारी bureaucracy की नकल ऐसे की जाएगी कि agents पूरे दिन किसी विषय पर बहस करें और सबसे अच्छा मत निकालें
  • ML model से नए ideas निकलवाने का एक तरीका यह है कि वह पहले आज़माए और छोड़े जा चुके ideas के आसपास तिरछे ढंग से पहुँचे, जबकि कुछ स्थिर consistency constraints बनाए रखे

  • अगर सभी GPU को जल्दी से green energy पर शिफ्ट नहीं किया गया, तो AI अपने आप सबसे अच्छा समाधान खोजने के लिए बहस करते-करते पृथ्वी को और गरम कर देगा

  • CoRT के साथ और बिना CoRT के examples हैं, और बिना CoRT वाला example कहीं बेहतर है

    • यह example चयन काफ़ी अजीब है
  • यह approach YT creators की याद दिलाती है

    • गेम को race course की तरह script करके लक्ष्य बिंदु तक पहुँचाना, और सबसे तेज़ समाधान मिलने तक उसे दोहराना
    • इसे machine learning या reinforcement learning कहा जाता है
    • AI के बारे में सतही समझ अक्सर इसी तरह की लगती है