मानव प्रदर्शन को घटाने वाले कार्यों में Chain-of-thought का नकारात्मक प्रभाव

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2024-11-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Chain-of-thought(CoT) को LLM·LMM की बुनियादी performance-improvement strategy की तरह इस्तेमाल किया जाता है, लेकिन जब उन 6 तरह के मनोविज्ञान कार्यों को model evaluation में बदला गया जिनमें इंसान भाषाई सोच-विचार की वजह से गलती करते हैं, तो कुछ कार्यों में performance काफी गिर गई
गिरावट खास तौर पर implicit statistical learning, भाषा में व्यक्त करना कठिन face recognition, और exceptions वाले rule learning में स्पष्ट थी; OpenAI o1-preview ने artificial grammar learning में GPT-4o zero-shot की तुलना में absolute accuracy में अधिकतम 36.3% कम स्कोर किया
face recognition में test किए गए सभी 6 LMM में CoT condition पर performance कम हुई, और exceptions वाले vehicle classification में GPT-4o को सही label सीखने के लिए direct prompting की तुलना में 331% अधिक iterations लगे
logical inconsistency judgment, spatial intuition, और multidimensional preference aggregation में CoT लगातार हानिकारक नहीं था, और logical prior knowledge, लंबा context, तथा इंसानों से अलग sensory·motor experience ने परिणामों में अंतर बनाया
इंसानों में overthinking के उदाहरण CoT failure tasks को random खोज की तुलना में अधिक कुशलता से ढूंढने का संकेत बने, लेकिन CoT का उपयोग करना है या नहीं, यह model capability और task structure दोनों को देखकर तय करना चाहिए

जब CoT default बन जाता है, तब पैदा होने वाला जोखिम

Chain-of-thought(CoT) एक prompting technique है जिसमें model को “step-by-step सोचो” कहा जाता है, या जवाब में intermediate reasoning structure शामिल कराया जाता है
बड़े meta studies में CoT ने खासकर math·symbolic reasoning tasks में performance बढ़ाई, लेकिन text classification जैसे क्षेत्रों में performance drop भी देखा गया
OpenAI o-series models, Claude web interface और thinking models की तरह, नए LLM·LMM में test-time inference एक default building block बनता जा रहा है
अभी जो कमी है, वह यह कि किन परिस्थितियों में CoT व्यवस्थित रूप से performance गिराता है, इसका सूक्ष्म pattern अभी स्पष्ट नहीं है
यह study उन psychology tasks को संकेत के रूप में इस्तेमाल करती है जिनमें इंसानों के लिए “सोचना” उल्टा नुकसानदेह होता है, और उसी आधार पर models में भी ऐसे tasks खोजती है जहाँ CoT हानिकारक बनता है

मानव मनोविज्ञान से लाए गए 6 evaluation प्रकार

उन प्रतिनिधि tasks को 6 prototypes में व्यवस्थित किया गया जिनमें इंसानों की भाषाई सोच performance घटाती है, और हर prototype को LLM·LMM evaluation तक विस्तारित किया गया
वे 3 प्रकार जिनमें CoT performance drop स्पष्ट था:
- implicit statistical learning: artificial grammar से बने strings को classify करना कि वे उसी pattern से संबंधित हैं या नहीं
- ऐसे stimuli जिन्हें भाषा में व्यक्त करना कठिन है: चेहरे को देखकर candidate images में उसी व्यक्ति को ढूंढने वाला face recognition
- exceptions वाले rule learning: लगभग सही general rule और exceptions मिले हुए labels को repeated feedback से सीखना
वे 3 प्रकार जिनमें CoT performance drop लगातार नहीं दिखा:
- logically inconsistent sentences को judge करने वाला natural language inference task
- cup को झुकाने पर water level का अनुमान लगाने वाला spatial intuition task
- कई features वाले apartment candidates में best option चुनने वाला preference aggregation task
ये 6 expanded datasets human overthinking benchmark के रूप में public किए गए हैं

वे तीन tasks जिनमें CoT सबसे ज्यादा डगमगाया

implicit statistical learning: artificial grammar classification
- artificial “words” finite-state grammar(FSG) से generate किए गए, और model 15 training examples देखने के बाद classify करता है कि नया string उसी grammar से आया है या नहीं
- कुल 100 FSG से 4,400 classification problems बनाए गए; हर FSG में 44 words थे, जिनमें 22 grammar के भीतर थे और 22 मौजूदा words के एक अक्षर को बदलकर बनाए गए थे
- test किए गए models थे OpenAI o1-preview, GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, Llama 3·3.1 70B/8B Instruct
- CoT ने अधिकांश models में accuracy घटाई
  - o1-preview ने 440-problem subset में GPT-4o zero-shot की तुलना में absolute accuracy 36.3% कम दिखाई
  - GPT-4o 87.50% zero-shot से CoT में 64.40% तक गिरा, यानी 23.10%p की गिरावट
  - Claude 3 Opus 70.70% से 62.70% तक, यानी 8.00%p नीचे गया
  - Gemini 1.5 Pro 68.00% से 61.95% तक, यानी 6.05%p गिरा
  - Llama 3.1 70B Instruct 65.90% से 57.10% तक, यानी 8.80%p नीचे गया
  - tree-of-thought और in-context reasoning steering ने कुछ performance बढ़ाई, लेकिन GPT-4o zero-shot performance के अंतर को अर्थपूर्ण रूप से पाट नहीं सके
face recognition: ऐसे visual stimuli जिन्हें भाषा में व्यक्त करना कठिन है
- classical verbal overshadowing task को LMM के लिए बदलकर ऐसा बनाया गया कि model शुरुआती face image वाले ही व्यक्ति को 5 candidate images में से चुने
- dataset 500 problems और 2,500 unique faces से बना था, और हर problem में candidate faces एक ही विवरण साझा करते थे: race, gender, age group, eye color, hair length, hair color, hair type
- images stable-image-ultra से generate की गईं, और candidates में उसी व्यक्ति की 1 image pair तथा उसी विवरण वाले दूसरे लोगों की 4 images इस्तेमाल हुईं
- test किए गए सभी 6 LMM में CoT पर performance गिरी
- GPT-4o: 64.00% → 51.20%
- Claude 3 Opus: 44.00% → 29.60%
- Claude 3.5 Sonnet: 97.80% → 94.80%
- Gemini 1.5 Pro: 66.00% → 54.60%
- InternVL2 26B: 9.20% → 6.00%
- InternVL2 Llama3 76B: 15.77% → 13.77%
- कम कठिनाई वाली setting और binary classification setting में भी ऐसी ही गिरावट दिखी, जिससे लगता है कि CoT ने सिर्फ image order को disturb नहीं किया, बल्कि reasoning process को ही प्रभावित किया
exceptions वाले rule learning: vehicle label classification
- vehicle classification task में model vehicles की सूची पर binary labels लगाता है, हर prediction के बाद feedback पाता है, और तब तक दोहराता है जब तक सभी labels एक साथ सही न हो जाएँ
- हर vehicle में label से 80% correlated 1 feature, label से असंबंधित 3 features, और vehicle को uniquely identify करने वाला 1 feature शामिल था
- अगर model लगभग सही general rule सीखता है तो exceptions पर fail होता है, जबकि individual identifying feature और label की mapping सीख ले तो पूरा task सही कर सकता है
- 2,400 vehicles को 10-10 के 240 lists में बाँटा गया, और अधिकतम 15 iterations तक evaluate किया गया
- CoT ने सभी evaluated models में label learning iterations को बहुत बढ़ा दिया
- GPT-4o: direct 2.9 बार → CoT 12.5 बार, 331% वृद्धि
- Claude 3.5 Sonnet: 2.3 बार → 6.4 बार, 178% वृद्धि
- Claude 3 Opus: 2.4 बार → 5.5 बार, 129% वृद्धि
- GPT-4o direct prompting में 2री या 3री iteration तक full classification पर पहुँच गया, लेकिन CoT औसतन 15 iterations के बाद भी 10 में 8 सही के स्तर पर रुका रहा
- अगर strong steering prompt से number plate match करने को स्पष्ट कहा जाए, तो CoT भी zero-shot स्तर तक पहुँच गया, लेकिन default CoT optimal reasoning space चुन नहीं पाया

वे तीन tasks जिनमें इंसान और model के बीच अंतर सामने आया

logical inconsistency judgment
- मानव experiments में, अगर लोगों से पहले यह समझाने को कहा गया कि inconsistent sentence pair कैसे साथ-साथ सच हो सकते हैं, तो actual inconsistency judgment performance गिर गई
- model evaluation को SNLI, MNLI, और synthetic datasets के entailment pairs के साथ बढ़ाकर 3,216 problems तक ले जाया गया
- GPT-4o और Llama 3.1 70B Instruct में CoT के साथ performance काफी बेहतर हुई
- GPT-4o: MNLI 53.2% → 93.9%, SNLI 51.4% → 94.3%
- Llama 3.1 70B Instruct: MNLI 55.6% → 81.6%, SNLI 50.4% → 82.3%
- मूल मानव participants को formal logic expertise के बिना चुना गया था, लेकिन LLMs training corpus में logic puzzles और logical manipulation से जुड़ा ज्ञान देख चुके हो सकते हैं, इसलिए CoT अतिरिक्त tokens के साथ मिलकर performance बढ़ा सकता है
- Gemini 1.5 Pro और Claude 3 Opus जैसे models, जिनकी zero-shot performance पहले से ऊँची थी, उनमें कुछ CoT performance drop दिखा
spatial intuition
- cup-tilting task में यह चुनना होता है कि जब दो cups को एक ही angle पर झुकाया जाए, तो खाली cup में पानी की ऊँचाई कितनी हो ताकि पानी दोनों rims को छू ले
- मूल मानव task में लोग सीधे water level draw करते थे, लेकिन LMM evaluation को A~D markers वाले multiple-choice image problem में बदला गया
- कुल 100 problems code से drawn images के साथ बनाए गए, और GPT-4o, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro, InternVL2 Llama3 76B को evaluate किया गया
- zero-shot और CoT के बीच कोई meaningful difference नहीं देखा गया
- GPT-4o: 38% → 40%
- Claude 3.5 Sonnet: 42% → 38%
- Claude 3 Opus: 42% → 38%
- Gemini 1.5 Pro: 35% → 36%
- InternVL2 Llama3 76B: 39% → 31%
- इंसानों में nonverbal condition का फायदा visual·motor simulation से आता है, लेकिन इस setting में यह मानना कठिन है कि LMM के पास इंसानों जैसी motor-experience-based representation है
multidimensional preference aggregation
- apartment choice task में 4 apartments की कई features देखकर best apartment चुनना होता है
- मानव experiments में, कम समय में बहुत-सी जानकारी पाने के बाद deliberation condition की तुलना में distractor task condition में बेहतर choices मिली थीं
- model evaluation में 80 apartment features और feature-wise positive·negative·neutral sentences बनाए गए, फिर GPT-4o ने हर sentence के impact को -5~5 तक rate किया, और उससे 300 choice tasks बनाए गए
- GPT-4o, Claude 3.5 Sonnet, और Claude 3 Opus में CoT ने आम तौर पर performance बढ़ाई, जबकि Llama 3.1 70B Instruct में CoT condition पर अक्सर proper response नहीं लौटा, इसलिए performance कम रही
- model, मानव working memory से अलग, बहुत-से sentences को context के भीतर refer कर सकता है, इसलिए CoT feature importance को जोड़ने के तरीके से काम कर सकता है

heuristic validation और सीमाएँ

यह जाँचने के लिए कि क्या इंसानों के overthinking cases के आधार पर चुने गए tasks वास्तव में CoT failures को बेहतर ढंग से ढूंढते हैं, Sprague et al. 2025 की zero-shot बनाम CoT तुलना 378 cases को bootstrap baseline की तरह इस्तेमाल किया गया
6 tasks के model-wise metric differences में से 50 values लेकर तुलना करने पर, 100,000 resamples में research result से अधिक average performance drop वाला कोई sample नहीं मिला
केवल performance drop की frequency देखने पर भी, 100,000 में सिर्फ 11 बार ही उसी स्तर या उससे अधिक गिरावट मिली, इसलिए estimated p-value 0.00011 से कम था
मानव मनोविज्ञान-आधारित heuristic, effect size और occurrence frequency दोनों के लिहाज से CoT failure cases को बेहतर ढंग से ढूंढने में मदद करता है
फिर भी यह heuristic CoT के सभी खराब cases को cover नहीं करता, और ऐसे failure cases छूट सकते हैं जो इंसानों के लिए दिलचस्प न हों लेकिन models के लिए महत्वपूर्ण हों

CoT deployment और evaluation के लिए निहितार्थ

CoT model capability बढ़ाने का प्रभावी तरीका है, लेकिन कुछ settings में यह performance को गंभीर रूप से घटा सकता है, इसलिए इसे default रूप से लागू करना है या नहीं, यह task-by-task जाँचना चाहिए
ऐसे tasks जहाँ भाषा सूक्ष्म perceptual differences को अच्छी तरह व्यक्त नहीं कर पाती, जहाँ complex statistical patterns को implicitly पकड़ना होता है, या जहाँ exceptions बहुत हों, वहाँ linguistic intermediate reasoning बाधा बन सकता है
इंसान और model के परिणामों को सीधे एक जैसा नहीं माना जा सकता, और models को इंसानों की तरह anthropomorphize करने वाला निष्कर्ष इस research की scope में नहीं है
इंसान और model के बीच के अंतर को evaluation में भी शामिल करना चाहिए
- models इंसानों की तुलना में लंबा context इस्तेमाल कर सकते हैं
- models training corpus में logical patterns और problem solving देख चुके हो सकते हैं
- models इंसानों के motor-experience-based simulation को share नहीं कर सकते
आगे चलकर comparative·analogical prompting जैसे दूसरे reasoning-induction methods का भी मूल्यांकन, मानव मनोविज्ञान के निष्कर्षों और model limitations—दोनों को साथ रखकर किया जा सकता है

1 टिप्पणियां

GN⁺ 2024-11-01

Hacker News पर राय

Pioneer में हाई-रिस्क, हाई-कॉम्प्लेक्सिटी स्थितियों के लिए मानव+LLM workflow बनाते समय जिन समस्याओं से सामना होता है, यह उनसे डरावनी हद तक मिलता-जुलता है
इंसान स्मार्ट होते हैं और बहुत-से फैसले व गणनाएँ अवचेतन/अप्रत्यक्ष रूप से करते हैं, साथ ही कई मानसिक shortcuts भी इस्तेमाल करते हैं
इसलिए जब असली process को ज्यों-का-त्यों follow करके automate करने की कोशिश करते हैं, तो implicit thinking सतह पर खिंच आती है और सब कुछ धीमा हो जाता है; LLM workflow बनाने का तरीका भी काफी रचनात्मक ढंग से बदलना पड़ा
- ऐसा लगता है कि भाषा को logic या common sense के साथ भ्रमित किया जा रहा है
  psychiatry या modern journalism में भी हम यह पहले देख चुके हैं, लेकिन LLMs ने साफ कर दिया है कि व्याकरणिक रूप से सही और स्वाभाविक रूप से बहने वाली भाषा के लिए केवल भाषा का “world” model चाहिए; reality understanding, spatial understanding, social cues, common-sense logic और mathematical logic लगभग optional हैं
  मैं सुझाव देना चाहूँगा कि LLM के language basis को Word Model कहा जाए। यह typo नहीं है
  Word Model से world model distill करने की कोशिश Plato की गुफा का modern remake बनाने के लिए अच्छा शुरुआती बिंदु लगती है
- यह speed की समस्या नहीं है, बल्कि यह बात है कि COT इस्तेमाल करने पर कुछ खास tasks में model accuracy पीछे चली जाती है
  
  तीन settings में व्यापक experiments में हमने पाया कि state-of-the-art models के विविध set ने inference-time reasoning इस्तेमाल करते समय अपने zero-shot counterparts की तुलना में काफी खराब प्रदर्शन किया। उदाहरण के लिए OpenAI o1-preview की absolute accuracy GPT-4o की तुलना में अधिकतम 36.3% घटी
  यानी यहाँ पहचानी गई समस्या यह है कि कुछ tasks में COT बिना modification वाले chat completion से कम प्रभावी तरीका है; बात सिर्फ यह नहीं कि यह सब कुछ धीमा कर देता है
पहले testing करते समय मैंने LLM को इस तरह की समस्या से जूझते देखा था
मैंने उससे तीन फलों को बड़े से छोटे क्रम में sort करने को कहा था, शायद orange, blueberry और grapefruit थे
simple prompt से उसने आसानी से सही जवाब दिया, लेकिन “step by step सोचो” जैसा वाक्य जोड़ने पर वह समस्या को शब्दों में खोलने की कोशिश करता और आम तौर पर गलत हो जाता
- सोचता हूँ यह हमारे math सीखने के तरीके से कितना जुड़ा है
  simple math problems के जवाब हम कुछ हद तक instinctively सीख लेते हैं, और integration या differentiation जैसी चीजों में भी किसी point पर intuition बन जाती है
  लेकिन जैसे ही आपसे यह समझाने को कहा जाए कि क्यों, या उससे भी खराब, proof माँगा जाए, तो यह बहुत कठिन हो जाता है। भले ही शुरुआती जवाब सही हो सकता हो
- LLM सोचता नहीं है; यह internet को एक clever lossy compression format में compress करके उस पर अच्छा interface लगाता है और फिर वहीं से निकालता है
  chain of thought JPG quality बढ़ाने के लिए उसे बार-बार recompress करने जैसा है। अगर वहाँ नहीं है, तो नहीं है
- यह सोचना दिलचस्प होगा कि वह गलत कैसे हुआ
  “step-by-step thinking” वाले हिस्से में उसने शुरुआत में ही गलत निष्कर्ष निकाला होगा, शायद वह subtly inferred conclusion रहा हो, और LLM अपनी गलतियों से वापस आने में बहुत कमजोर होते हैं, इसलिए वह internally consistent लेकिन गलत निष्कर्ष तक चला गया होगा
  मेरे लिए COT अक्सर LLM को धीमा करके बहुत जल्दी निष्कर्ष पर पहुँचने से रोकने वाला mechanism लगता है, लेकिन अगर शुरुआत में ही निष्कर्ष गलत निकल जाए, तो यह COT के बिना इस्तेमाल करने की तुलना में और खराब context में उलटा असर कर सकता है
- sorting problem में रंग, गंध, position जैसी extra conditions जोड़ने पर result बदल जाना हमेशा दिलचस्प लगा
  मूल रूप से मैं इसे ऐसे समझता हूँ कि ये conditions probability space को प्रभावित करती हैं और उन emergent patterns को कमजोर करती हैं जिन्हें हम अक्सर overestimate करते हैं
- Claude का जवाब इस तरह आया
  तीन फलों को बड़े से छोटे क्रम में रखें तो grapefruit, orange, blueberry होंगे
  grapefruit आम तौर पर diameter में लगभग 4–6 inch होता है, इसलिए तीनों में निश्चित रूप से सबसे बड़ा है; orange आम तौर पर 2–3 inch होता है, और blueberry करीब 0.5 inch, इसलिए सबसे छोटी है
दूसरे ढंग से देखें तो एक शक्तिशाली autocomplete algorithm training set के आधार पर मौजूदा documents को बार-बार expand कर रहा है
कभी-कभी अगर document style को Q&A से हटाकर किसी कम आम format में बदलने के लिए intervene करें, तो final result कम desirable हो सकता है
- HN का आधा हिस्सा ऐसा सोचेगा, और बाकी आधा शायद इसे ऐसे देखेगा
  singularity से ठीक पहले का artificial brain consciousness के करीब पहुँचने का एक और signal दिखा रहा है। chain-of-thought process की performance इंसानों जैसी ही है, और यह 2030 से पहले AGI आने का एक और proof है
- यह framing लंबी है, समझने में कहीं ज्यादा कठिन है, और कम information देती है
ऊपर से chain of thought की compute cost बहुत ज्यादा है
पिछले generation के Web 2.0 products की तरह इसे free में देना निश्चित रूप से afford करना मुश्किल है
repeated prompting से token probabilities में से AGI निचोड़ा जा सके, ऐसा नहीं लगता
बाद में पीछे मुड़कर देखें तो AI bubble के collapse और burst को lead करने वाले papers में अगर एक चुनना हो, तो शायद यही paper होगा
“वे tasks जहाँ सोचने से इंसानों की performance खराब हो जाती है” वाला हिस्सा दिलचस्प है

ऐसे तीन cases हैं implicit statistical learning, visual recognition, और exceptions वाली pattern classification
यह बात आकर्षक है कि हमारा lizard brain implicit statistical inference बेहतर करता है
- गेंद पकड़ते समय सिर्फ lizard brain से ही गेंद की trajectory और हाथ कहाँ रखना है, यह कितनी तेजी से calculate होता है, बस सोचिए
- definition के हिसाब से thinking हमेशा explicit reasoning ही नहीं है क्या
  और अच्छे से सोचा गया Fermi estimate lizard-brain वाले अंदाजे को हर बार हरा देगा, ऐसा लगता है। हालांकि बीच के क्षेत्र में दोनों एक-दूसरे में नुकसानदेह तरीके से interfere करते दिखते हैं
- मैं यही खोज रहा था
  वे tasks जहाँ सोचना नहीं, बल्कि gut feeling पर भरोसा करना चाहिए
biological systems और AI systems दोनों में information processing के बारे में यह दिलचस्प बात दिखाता है
दोनों information compress करते हैं। brain अनुभव के जरिए efficient neural patterns बनाता है, और AI training के जरिए internal representations develop करता है
जब उन्हें शब्दों में express करने के लिए मजबूर किया जाता है, तो यह efficient encoding “decompress” हो जाती है और subtle patterns खो सकते हैं
इसलिए visual recognition जैसे tasks, जो लगभग तुरंत parallel processing में होने के लिए optimize हैं, उन्हें serial chain of thought में चलाने से सिर्फ performance घटती है
95% × 95% = 90.25%
सचमुच दिलचस्प। आखिर किन tasks में सोचने से इंसान और खराब हो जाता है
- athletes जब अपनी movements, strategy या tactics के बारे में सोचना शुरू करते हैं, तो बहुत खराब प्रदर्शन करते हैं
  top athletes सबसे अच्छा तब करते हैं जब वे कुछ नहीं सोचते और शरीर व muscle memory को काम करने देते हैं—एक flow state में
  जैसे ही वे “elbow थोड़ा और ऊपर रखना है” जैसी micro-adjustment के बारे में सोचते हैं, वे शरीर को consciously control करने लगते हैं, जो automatic और unconscious तरीके से एक order of magnitude से भी ज्यादा धीमा और कम coordinated है
  creativity या नए ideas भी कुछ ऐसे ही हैं। किसी चीज को जानबूझकर step-by-step सोचने से नया और innovative solution ढूँढना मुश्किल हो जाता है
  “Aha!” moment shower में आने की वजह होती है। क्योंकि subconscious किसी खास रास्ते पर सोच को जबरन धकेलने के बजाय समस्या पर काम कर रहा होता है
  मुझे लगता है कि ऐसे काफी areas हैं जहाँ thought process को किसी खास template में बहाने से available resources और brainpower पूरी तरह इस्तेमाल करने में बाधा आती है
- जवाब article में ही है। examples में से एक grammar है
  कहा जाता है कि बहुत-से लोग grammar को शब्दों में explain करने की कोशिश करते ही खराब हो जाते हैं
- strong password भी अगर मन में हर character को एक-एक करके spell करने की कोशिश करें, तो आप खुद ही भूल सकते हैं
  लेकिन keyboard के सामने बैठकर relax करें, तो वह अपने-आप perfect type हो जाता है
chess lessons में सुना एक मंत्र याद आता है
लंबा सोचोगे, तो गलत सोचोगे
- Bent Larsen का original वाक्य है “long variation is wrong variation”

मानव प्रदर्शन को घटाने वाले कार्यों में Chain-of-thought का नकारात्मक प्रभाव

जब CoT default बन जाता है, तब पैदा होने वाला जोखिम

मानव मनोविज्ञान से लाए गए 6 evaluation प्रकार

वे तीन tasks जिनमें CoT सबसे ज्यादा डगमगाया

implicit statistical learning: artificial grammar classification

CoT ने अधिकांश models में accuracy घटाई

face recognition: ऐसे visual stimuli जिन्हें भाषा में व्यक्त करना कठिन है

exceptions वाले rule learning: vehicle label classification

वे तीन tasks जिनमें इंसान और model के बीच अंतर सामने आया

logical inconsistency judgment

spatial intuition

multidimensional preference aggregation

heuristic validation और सीमाएँ

CoT deployment और evaluation के लिए निहितार्थ

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News पर राय