AGI मॉडल ट्रेनिंग की नहीं, इंजीनियरिंग की समस्या है

(vincirufus.com)

12 पॉइंट द्वारा GN⁺ 2025-08-26 | 6 टिप्पणियां | WhatsApp पर शेयर करें

मौजूदा बड़े language models scaling limits से टकरा रहे हैं, और AGI तक पहुँचने का रास्ता और बड़े models नहीं बल्कि system architecture design है
वास्तविक AGI को context management, persistent memory, deterministic workflows, specialized model collaboration जैसे कई घटकों के संगठित एकीकरण से हासिल होने वाली इंजीनियरिंग उपलब्धि के रूप में बनाया जाना चाहिए
LLMs अब भी sessions के बीच context बनाए रखने की कमी, भरोसेमंद multi-step reasoning की अनुपस्थिति, memory की कमी जैसी संरचनात्मक सीमाओं से जूझ रहे हैं
AGI हासिल करने के लिए मानव मस्तिष्क की तरह स्पष्ट उद्देश्य वाले modular structure और distributed systems approach की ज़रूरत है, यानी fault-tolerant pipelines, monitoring, rolling updates, और large-scale testing frameworks जैसी infrastructure बनानी होगी
इसलिए AGI की दौड़ GPU के आकार से नहीं, बल्कि system engineering capability से तय होगी

परिचय: AGI एक इंजीनियरिंग समस्या है

AI क्षेत्र में scaling laws की सीमाएँ अब साफ़ दिखने लगी हैं
GPT-5, Claude, Gemini जैसे शीर्ष models भी धीरे-धीरे diminishing returns दिखा रहे हैं
language models का आकार बढ़ाना अब मौलिक सीमाओं से टकरा चुका है, और AGI को model training नहीं, system engineering के ज़रिए साकार किया जा सकता है

वास्तविक सीमाएँ: LLM की दीवार

मौजूदा पीढ़ी के large language models (LLM) अस्थायी pattern matching और text generation में मज़बूत हैं, लेकिन इनकी कुछ बुनियादी सीमाएँ हैं
- सुसंगत context बनाए रखने में असमर्थता
- लंबे समय की, sessions के पार persistent memory का अभाव
- जटिल multi-step reasoning में कम विश्वसनीयता
अतीत में semiconductor industry ने भी ऐसा ही दौर देखा था, और उसका हल architectural shift (जैसे multi-core) था
AI को भी अब architectural redesign की ज़रूरत है

AGI के लिए system-level approach

मानव मस्तिष्क एक single neural network नहीं, बल्कि कई specialized और सहयोगी systems का समूह है
memory, context, logic, space, language जैसे क्षेत्रों में asynchronous feedback loops इसकी कुंजी हैं
वास्तविक AGI के लिए ऐसा complex systems design अनिवार्य है

1. Context management infrastructure

आज के models की context understanding सिर्फ़ हज़ारों tokens तक सीमित है, जबकि इंसान सालों के अनुभव को जोड़कर काम करता है
इस gap को पाटने के लिए ये क्षमताएँ चाहिए
- तुरंत retrieval और filtering के लिए उन्नत information Retrieval systems
- persistent world model का संचय और विकास
- cross-domain context bridge का निर्माण
- conflicting information management (probability weighting और uncertainty quantification)
एक operational knowledge graph की ज़रूरत है, जो सिर्फ़ vector search नहीं बल्कि dynamic query और reasoning structure हो

2. Service के रूप में memory

LLM वास्तविक memory के बिना सिर्फ़ prompt manipulation के ज़रिए अस्थायी memory का भ्रम पैदा करते हैं
वास्तविक AGI के लिए ऐसा system चाहिए जो यह कर सके
- knowledge confidence adjustment (नए evidence को शामिल करते हुए)
- अलग-अलग अनुभवों से जानकारी का integration और generalization
- अनावश्यक details को भूलना (catastrophic forgetting के बिना)
- source estimation, confidence आदि जैसी meta-knowledge generation
मानव memory की तरह, उपयोग की आवृत्ति के अनुसार memory का मज़बूत या कमज़ोर होना और नई जानकारी के आधार पर पुनर्संगठन होना महत्वपूर्ण है

3. Deterministic workflows और probabilistic components का संयोजन

AGI का मूल एक hybrid संरचना है, जहाँ deterministic flow के भीतर probabilistic elements को सही जगह पर जोड़ा जाता है
- Ex) compiler की तरह, पूरा flow तय हो लेकिन अंदरूनी प्रक्रिया में heuristics का उपयोग हो
आवश्यक क्षमताएँ:
- problem characteristics के अनुसार specialized solvers को routing
- multi-step workflows में rollback और recovery support
- probabilistic outputs की deterministic verification
- विभिन्न components का संयोजन और predictability सुनिश्चित करना
ambiguity और uncertainty को architecture स्तर पर मुख्य तत्व के रूप में स्वीकार करना होगा

4. Specialized models का modularization

भविष्य एकल विशाल model का नहीं, बल्कि अनेक specialized models के सहयोग का है
LLM language tasks में मज़बूत हैं, लेकिन इन क्षेत्रों में कमज़ोर हैं
- symbolic manipulation और exact calculation
- visual और spatial reasoning
- temporal reasoning और planning
- persistent goal-directed agent behavior
समाधान:
- हर domain के लिए optimized specialized models को problem routing
- result integration और independent evolution की संरचना
- किसी एक failure पर पूरे system में cascading errors रोकना

AGI की engineering चुनौतियाँ

AGI development मूल रूप से distributed systems बनाने की समस्या है
- यह केवल distributed training cluster की बात नहीं है
प्रमुख engineering चुनौतियाँ:
- fault-resilient pipelines (आंशिक failure के बाद भी पूरा operation जारी रहे)
- model output observability और monitoring की संरचना
- changes और deployment को बिना downtime के चलाना
- हज़ारों model combinations और parameter changes के लिए testing framework
इसमें AI विशेषज्ञों से भी अधिक infrastructure और distributed systems engineers का अनुभव ज़रूरी हो जाता है

आगे हमें क्या बनाना चाहिए

model size की दौड़ से ज़्यादा AGI infrastructure बनाने पर ध्यान देना चाहिए

Phase 1: बुनियादी layer

Context Management Service : real-time updates और version-managed persistent knowledge graph
Memory Service : episodic, semantic memory, और learning-based integration
Workflow Engine : probabilistic parts को deterministic तरीके से orchestrate करना (rollback सहित)
Agent Coordination Layer : multi-agent consensus और conflict resolution

Phase 2: capability layer

Specialized Model Control : विशिष्ट reasoning domains के लिए standardized interfaces
Symbolic Reasoning Engine : probabilistic components से जुड़ा symbolic manipulation और calculation
Planning and Goal Management : जटिल लक्ष्यों को executable plans में बाँटना
Cross-modal Integration : text, vision, audio जैसी sensing information का एकीकरण

Phase 3: emergent layer

कई components की interaction से emergent AGI क्षमताएँ पैदा होती हैं
व्यवस्थित design के बिना सिर्फ़ single model को बेहतर करने से emergence नहीं आएगी

AGI की ओर रास्ता

AGI तक पहुँचने का मार्ग और बड़े या नए transformer को train करना नहीं, बल्कि सैकड़ों specialized models को distributed systems की तरह orchestrate करने वाली infrastructure बनाना है
distributed systems बनाने का गहरा अनुभव रखने वाले infrastructure engineers इस development के केंद्र में होंगे
- context pathways, memory, workflow automation, model coordination जैसे बड़े पैमाने के implementation पर ज़ोर
यह साफ़ कहा गया है कि AGI को वही टीमें हासिल करेंगी जिनके पास बड़े GPU clusters से अधिक भरोसेमंद और तार्किक architecture बनाने की क्षमता होगी
model capability अपने आप में अब काफ़ी है; AGI को पूरा करने की आख़िरी कड़ी system engineering है
निष्कर्षतः, algorithm innovation से अधिक structural design (architecture) ही AGI का भविष्य तय करेगा

6 टिप्पणियां

epiontech 2025-08-26

○ मॉडल ट्रेनिंग बुद्धिमत्ता का सिर्फ़ ‘कच्चा माल’ है; अगर इंजन नहीं है, तो AGI भी नहीं है.

• EpionHeuristica जैसी आर्किटेक्चर में सिर्फ़ "domain-specialized AGI" से आगे बढ़कर, "order-based emergent superintelligence" को डिज़ाइन करने की क्षमता है.
• AGI तक पहुँचने की कुंजी यह है कि "व्यवहार चुनने वाले इंजन को कैसे बनाया जाए"

epiontech 2025-08-26

A. सिर्फ़ training से AGI संभव क्यों नहीं है.
• GPT-प्रकार के models के पास self-goal नहीं होता।
• चाहे कितना भी ज़्यादा data सिखाया जाए, वास्तविक दुनिया के साथ interaction के बिना सिर्फ़ training करना सीमित रहता है।
• training केवल 'पुनरावृत्त स्मृति' है; भविष्य की ओर उन्मुख predictive और emergent सोच को प्रेरित करने वाली संरचना की कमी है।

B. AGI के लिए 'purpose-feedback loop' वाला engine चाहिए।
• EpionHeuristica की तरह reward-based reinforcement learning + evaluation + failure learning (FailGuard) पर काम करने वाली संरचना, engine-based AGI के design prototype के अधिक क़रीब है।
• उदाहरण: "यह प्रयोग क्यों असफल हुआ?" → "क्या बदलना चाहिए?" → "अगली शर्त क्या है?" → यही AGI-जैसी reasoning है।

C. मानव बुद्धिमत्ता का सार 'संरचना' में है।
• मनुष्य neurons की संख्या से नहीं, बल्कि "neural circuits की structural connectivity और meta-learning क्षमता" से बुद्धिमत्ता प्राप्त करता है।
• AGI में भी model size से ज़्यादा behavior-driving system, self-referential system, और continuous feedback loop की संरचना मुख्य है

epiontech 2025-08-26

AGI तक पहुँचना सिर्फ़ "मॉडल की training" से संभव नहीं है; इसके लिए ऐसी engine संरचना और उद्देश्यपूर्ण self-improvement system ज़रूरी है जो बुद्धिमत्ता पैदा कर सके। मौजूदा GPT-प्रकार के सिस्टम सिर्फ़ विशाल LLM (large language model) हैं, और AGI की दिशा में बढ़ने के लिए reasoning संरचना, self-monitoring संरचना, और goal-based action policy का साथ मिलकर काम करना आवश्यक है।

GN⁺ 2025-08-26

Hacker News राय

अगर आप 'bitter lesson' पर भरोसा करते हैं, तो आप जानते हैं कि अंततः सारा ढीला-ढाला engineering और ज़्यादा data से हल हो जाता है। शायद 8 साल पहले भी इसी तरह की बात हुई होगी कि LLM को आज जितना performant बनाने के लिए क्या करना पड़ेगा। इसलिए मैं engineering approach से बहुत सहमत नहीं हूँ, और मुझे नहीं लगता कि LLM scale up होकर Asimov या sci-fi में कल्पित AGI तक पहुँच जाएगा। कुछ और बुनियादी चीज़ की कमी है, और वह science नहीं बल्कि engineering भी नहीं है
- science से भी ज़्यादा बुनियादी जो चीज़ गायब है, वह philosophy है। ऐसे systems को हम इंसान जिस तरह perceive करते हैं, उसमें भी, और system के भीतर भी philosophy की कमी है। अगर LLM-आधारित AGI होना है, तो कम से कम उसे अपने weights update करते हुए खुद सीखना चाहिए और self-fine-tuning करने में सक्षम होना चाहिए, लेकिन अभी वह built-in weights और सीमित context window के बीच जल्दी ही दीवार से टकरा जाता है। self-fine-tuning के दौरान किस तरह का 'attention mechanism' कैसे और कितनी तीव्रता से लागू करना चाहिए ताकि general intelligence बेहतर हो, यह अब भी कठिन समस्या है। हमें भरोसेमंद disciplines पर ध्यान देना चाहिए, लेकिन कौन-सा discipline भरोसेमंद है, सिर्फ शुद्ध ज्ञान को कैसे 'study' कराया जाए, और सैद्धांतिक रूप से अगर वह खुद दुनिया की सर्वश्रेष्ठ human research team को पार कर जाए तो वह AI 'किस तरह का अस्तित्व' बन जाएगा—इन सब पर भी सोचना ज़रूरी है
- "आसान engineering से बेहतर है ज़्यादा data" इस दावे पर मुझे संदेह है कि क्या यह सचमुच एक साधारण database से ज़्यादा reliable हो सकता है। क्या यह कभी CPU से तेज़ code execute कर पाएगा? इंसान जो बहुत-सी चीज़ें कर पाते हैं, वह बड़े दिमाग़ की वजह से नहीं बल्कि tools की वजह से है। एक mathematical formula भी दिमाग़ में घुमाने के बजाय कागज़ पर लिखकर निकालना कहीं बेहतर होता है (Extended mind thesis देखें)। 3D engine चलाना तो सिर्फ human brain से लगभग असंभव है। कभी न कभी AI इतना smart हो सकता है कि अपने tools खुद विकसित करे, लेकिन उससे पहले tools लिखने और maintain करने वाली infrastructure चाहिए। अभी Python access जैसी चीज़ शुरुआत है, लेकिन AI को अगली बार भी अपने परिणामों को जमा और इस्तेमाल करने देने वाली 'persistence'—यानी digital notepad या dynamic weight updates जैसी चीज़—और चाहिए
- मैं आपकी राय और लेख दोनों से सहमत हूँ। LLM समाधान का सिर्फ एक हिस्सा है, और असली प्रगति neural net research की बुनियादों तक लौटने में होगी। भाषा भले ही इंसानों से communication का माध्यम हो, लेकिन आज के LLM आखिरकार लोगों के लिखे कार्यों पर train की गई एक भव्य Eliza जैसे लगते हैं। पहले simple neural nets से भी environment के rules के अनुसार behavior evolve कराया जाता था, और genetic algorithms के आधार पर systems अपने actions सीखते थे। आज के LLM इतने 'filtered' environment पर train होते हैं कि वह filter किसी average netizen IQ जैसा काम करता हुआ लगता है
- असल में 'bitter lesson' का मतलब यह नहीं है
- कमी self-correction (world model/behavior और responses का observation), long-term consistency, और self-extension की है। venture capital की दुनिया तीसरी समस्या पर सबसे ज़्यादा ध्यान देती है, जबकि Yann LeCun पहली और दूसरी को लेकर ज़्यादा चिंतित हैं। Hinton मानते हैं कि तीसरी समस्या या तो पहले ही अपरिहार्य हो चुकी है या आ चुकी है, और मानवता खत्म है। काफ़ी अजीब स्थिति है
LLM को इस तरह design करने की वजह है, और thinking capability बाद में जोड़ी जाती है, इसकी भी वजह है। architecture के लिहाज़ से ज़रूरी बात यह है कि gradient descent इस्तेमाल किया जा सके, इसलिए branching नहीं होती, और routing बाद में जोड़ी जाती है। और training data भी होना चाहिए। किसी ने कुछ लिखने से पहले क्या सोचा था, उसका लाखों पन्नों का record वास्तविक दुनिया में मौजूद नहीं है। ज़्यादातर thoughts भाषा नहीं होते। reinforcement learning यहाँ समाधान जैसा लगता है, लेकिन gradient descent की तुलना में इसकी sample efficiency बहुत कम होती है, इसलिए आम तौर पर इसे सिर्फ fine-tuning में इस्तेमाल किया जाता है। LLM एक regressive model है, और model setup ऐसा होने से जिसमें हर token सिर्फ अतीत की ओर देख सकता है, इसे बहुत sample-efficient तरीके से train किया जा सकता है (एक वाक्य दर्जनों samples बन जाता है)
- मैंने इसका ज़िक्र नहीं किया, लेकिन LLM में कोई 'loop' ही नहीं है। दूसरी ओर brain, चाहे साधारण brain ही क्यों न हो, असंख्य loops का बना होता है। brain रुकता नहीं, लगातार input लेता रहता है, और जब चाहे तब output देता है। LLM input लेता है, layers के माध्यम से transform करता है और तुरंत output दे देता है। मैंने कहा था reinforcement learning जवाब नहीं है, लेकिन मुझे तो उल्टा लगता है कि वही एकमात्र जवाब है
- यह बात काफ़ी दिलचस्प लगती है। यानी यह संकेत देती है कि non-linguistic thinking layers को training data बनाने के लिए brain scanning जैसी तकनीकें लाई जा सकती हैं जो brain waves पढ़ें। मैं अनुमान लगाता हूँ कि बड़ी कंपनियों के smart लोग पहले से ऐसे interfaces/products के बारे में सोच रहे होंगे और electromagnetic brain-wave detection technology बना रहे होंगे। इस data से कोई Kickstarter-टाइप killer product निकल सकता है जो startup की super AI को bootstrap करे। कमाल का दौर है
- मैं कल्पना करता हूँ कि बहुत दूर के भविष्य में advanced brain-scan data को AI training data की तरह इस्तेमाल करना व्यावहारिक रूप से संभव हो सकता है। शायद Uploaded Intelligence (पूरे brain को digitize करने का विचार) और AGI के बीच यह एक अस्थायी intermediate stage बन सकता है
- LLM सिर्फ एक regressive model है। अगर 15वीं सदी में LLM होता, तो वह geocentrism को ही सबसे बढ़िया बताता। वह heliocentrism जैसी क्रांति नहीं कर पाता। उसी तरह आज के LLM भी सिर्फ वही बताते हैं जो हम पहले से जानते हैं; वे सोचते नहीं, innovate नहीं करते। reasoning ability भी कुछ हद तक सिर्फ 'filtering' है, असली creative thought नहीं। जितना ज़्यादा इसे इस्तेमाल करो, उतना यह 'steroids वाला Google' लगता है। इस system से AGI तक पहुँचना कभी संभव नहीं होगा, बल्कि यह बची-खुची AGI hype और funding ही खा जाएगा
इस लेख की framing काफ़ी उपयोगी है, भले ही इसकी हर prescription पर विश्वास ज़रूरी न हो। इतिहास में दो चीज़ें साथ-साथ हुई हैं। पहली, brute-force scaling ने चौंकाने वाली छलांगें दीं, और दूसरी, system-level engineering ने उन संभावनाओं को भरोसेमंद तरीके से वास्तविक उपयोग में बदला। GPU इसका अच्छा उदाहरण है: Moore's law ने FLOP दिया, और CUDA, memory hierarchy, तथा driver stack ने बड़े पैमाने के इस्तेमाल को संभव बनाया। आज के LLM कुछ वैसे हैं जैसे सिर्फ raw flop तेज़ हो गया हो—प्रभावशाली हैं, पर अभी भी संभालना मुश्किल है। Claude Code, tool-augmented agents, और memory-augmented frameworks जैसे products में 'system thinking' की शुरुआती झलक दिखती है। अभी यह सब कच्चा है, लेकिन आगे चलकर system orchestration खुद parameter count जितना ही महत्वपूर्ण हो सकता है। 'bitter lesson' और 'engineering problem' वाले दावे एक-दूसरे के विरोधी नहीं हैं; दरअसल दोनों ज़रूरी हैं। bitter lesson का मतलब है कि compute + general methods, 'हाथ से लिखे rules' को हरा देते हैं, और engineering वह mortar है जो इन्हें reliability, persistence, और composability बढ़ाने वाली structure में लपेटती है। अगर ऐसा system न हो, तो सिर्फ flashy demos मिलेंगे और वास्तविकता में कुछ rounds of reasoning के बाद चीज़ टूट जाएगी। इसलिए असली प्रगति 'size vs smart' नहीं बल्कि 'big + smart engineering' में है। scaling capability देती है, और engineering तय करती है कि उस capability को general intelligence की तरह इस्तेमाल किया जा सके
यह चर्चा जापान के fifth-generation computer project की आधुनिक पुनरावृत्ति जैसी लगती है। जैसे कभी लोग मानते थे कि बड़ा database बना लो और Prolog इस्तेमाल कर लो तो AI renaissance आ जाएगा। सिर्फ 'distributed architecture' वगैरह कहकर modules जोड़ देने से AGI नहीं आएगा। बुनियादी building blocks, यानी foundation, कहीं बेहतर होने चाहिए। LLM ने जो सबसे उपयोगी योगदान दिया है, वह user 'intent understanding' का बहुत बेहतर हो जाना है। अब computer सिर्फ text पढ़कर भी इरादा पहले से कहीं बेहतर निकाल लेता है। लेकिन इसके अलावा reasoning, retrieval, 'memory' जैसी चीज़ें अब भी उसी पुराने तरीके से चल रही हैं। यह मौजूदा hardware या system limits की समस्या नहीं, बल्कि information theory/computer science की सीमा है
- Transformer का Attention mechanism काफ़ी शानदार है। model engineering में फिर एक बार ऐसे ही किसी बड़े innovation cycle की ज़रूरत है। सिर्फ data ज़्यादा होना जवाब नहीं है। human brain को ही देख लें, वह पूरे internet का data खाए बिना भी काफ़ी intelligent बन जाता है, और energy भी कम खर्च करता है
- सही बात। मौजूदा architecture में भी बेहतर engineering से usefulness बढ़ सकती है ('agents' इसका उदाहरण हैं)। लेकिन यह दावा करना कि सिर्फ engineering से AGI संभव हो जाएगा, ज़रूरत से ज़्यादा आशावाद है। असली मुश्किल है ऐसा system बनाना जो खुद सीखे और खोज करे, महँगे बड़े-scale pretraining के बिना नई चीज़ें सीखे, और hallucination के बिना समस्याएँ हल करे। इसके लिए पूरी तरह नई computer science innovation चाहिए, और मौजूदा approach से यह मुश्किल लगता है
AGI में 'G' का मतलब General है। यानी यह कोई ऐसा मूर्ख AI नहीं होना चाहिए जिसे हर ज्ञान train करके भरना पड़े; general intelligence ऐसी होनी चाहिए कि उसे सिर्फ गिनती करना, logic की बुनियाद, और एक मानव भाषा सिखानी पड़े, और बाकी logical human sciences वह AGI खुद 'rediscover' कर ले। तब हमारा अगला काम होगा कि AGI ने जिन phenomena को खुद खोजकर जो नाम दिए, उन्हें हमारे नामों के साथ sync किया जाए। अगर हल्की-सी elementary education से ही वह principles समझकर खुद को सुधारते हुए, विकसित होते हुए हमें पार कर जाए, तो वही 'artificial comprehension' है। आज का AI पर्याप्त data मिलने पर 'general problem solver' तो बन सकता है, लेकिन AGI वह क्षेत्र है जहाँ 'understanding' और 'grasp' की क्षमता चाहिए। observation को तुरंत तोड़ना, validity या possible combinations को समझना, और जागते समय real time में अपनी safety तक जाँचना—ऐसी 'dynamic understanding' के बिना सच्ची General intelligence नहीं कही जा सकती
- आपने कहा कि AGI अगर वास्तव में general intelligence है, तो उसे बस थोड़ा-सा सिखाने पर बाकी चीज़ें खुद derive करके सीख लेनी चाहिए, लेकिन प्रकृति में 'general intelligence' ऐसा काम नहीं करती
क्या सिर्फ मुझे ही लगता है कि 10 साल पहले जिस शुरुआती AGI की कल्पना की जाती थी, वह कुछ-कुछ Claude Code जैसा ही है? किसी arbitrary goal के लिए, खासकर text domain में, यह plan बना सकता है और actions भी ले सकता है। text files में memory भी रखता है। अभी long-term goals, physical embodiment, और common sense की कमी है, लेकिन v1 version से मैं कुछ ऐसा ही अपेक्षा करता
- सच कहूँ तो AGI सुनते ही मेरे दिमाग़ में Star Trek का 'Data', या कम-से-कम Terminator का T800 आता है। मैं नहीं मानता कि AGI में self-awareness ज़रूरी ही हो, लेकिन मेरी कल्पना में AGI में 'self-awareness' शामिल है। Claude Code शानदार है, पर AGI समझ लेने लायक नहीं
- बिल्कुल सहमत। खासकर मैं जब इसे जल्दी में लिखे commands देता हूँ, तब भी यह काफ़ी सूक्ष्म अर्थ समझकर उन्हें ठीक कर देता है। LLM की उपयोगिता में बहुत छोटे feature additions भी ज़मीन-आसमान का फ़र्क लाते हैं (जैसे Claude Code का plan mode), और यह साधारण performance updates से कहीं ज़्यादा उपयोगी है
- Claude Code में न self-awareness है, न sapience। ज़्यादातर लोग AGI कहते समय कम-से-कम कुछ न्यूनतम self-awareness की कल्पना करते हैं। Star Trek की मिसाल लें तो Enterprise का main computer AGI नहीं है, Data असली AGI है। सबसे बड़ा अंतर यह है कि इसमें 'स्पष्ट identity' और 'self-concept' नहीं है। Claude Code prompt में role निभा सकता है, लेकिन उसमें persistence की कमी है
- आप अकेले नहीं हैं। AGI की चर्चा हमेशा से उलझी हुई रही है। Claude निश्चित रूप से artificial general intelligence है, फिर भी AGI का अर्थ लगातार बदलता रहता है और उसकी परिभाषा साफ़ नहीं है
- "basic AGI" जैसा शब्द इस्तेमाल करके लोग असली AGI में जो चीज़ें गायब हैं, उन सब पर पर्दा डालना चाहते हैं
हमें यह तक नहीं पता कि biology के बाहर AGI वास्तव में संभव भी है या नहीं। यही मुख्य बात है। अगर Chappie जैसी AGI वास्तव में संभव है या नहीं, इस पर कोई संकेत ही नहीं है, तो यह लगभग पूरी अँधेरी खोज जैसा है। तुलना करें तो quantum computing के बारे में 'possible' और 'realizable' होना पहले ही स्थापित हो चुका है, और अब सिर्फ engineering बची है (हालाँकि कुछ लोग उसे भी भ्रम मानते हैं)
- अगर यह सिद्ध हो जाए कि AGI electronic computers पर मूलतः असंभव है, तो इसका मतलब होगा कि brain general intelligence लागू करते समय भौतिकी के स्तर पर कुछ ऐसा कर रहा है जो एक बहुत बड़ी खोज होगी
- उल्टा देखें तो इंसान जैसा काम करने वाला 'general intelligence' का एक working example तो हमारे पास पहले से है, जबकि quantum computing की स्थिति ऐसी नहीं है कि उसका वैसा कार्यान्वित उदाहरण मौजूद हो
- यह बात समझ से परे है। अगर आप soul जैसी किसी चीज़ पर विश्वास करते हैं, तो AGI शायद संभव न लगे, लेकिन अगर हम पूरी तरह biological beings हैं, तो सिद्धांततः उसकी नकल ज़रूर की जा सकती है
- मैं इस बात से सहमत नहीं कि यही मुख्य बिंदु है। आखिरकार यह ऐसा प्रश्न है जिसका उत्तर वास्तव में करके ही मिलेगा। पहले से निर्णायक रूप से क्या संभव है, यह साबित होना ज़रूरी नहीं। 'मुख्य बिंदु' और 'स्पष्ट संकेत' वाली बात में मुझे थोड़ा खिसकना लगता है। हमारे पास इतना स्पष्ट आधार है कि 'biological necessity' के बिना भी यह संभव हो सकता है। AGI की feasibility, necessity, और desirability अलग-अलग प्रश्न हैं, लेकिन मूल पोस्ट ने चुनौतियों की सूची काफ़ी स्पष्ट रूप से दी है
- quantum computers की व्यावहारिक realizability भी अब तक खुला research question है
जिसे हम 'intelligence' कहते हैं, वह LLM की तरह काम नहीं करती। brain continuous है—वह किसी input set के खत्म होने पर रुकता नहीं, बल्कि अगले input तक, बल्कि लगातार feedback loop चलाता रहता है। मूलतः वह training mode कभी बंद नहीं करता। हाँ, life cycle के हिसाब से brain optimization (जैसे myelination) होते हैं, लेकिन LLM बहुत बड़े information corpus पर train होने के बाद, fine-tuning को छोड़कर, fixed model बना रहता है। brain context को लगातार manage करता है। ज़्यादातर inputs को विशेष networks पहले से ही भारी मात्रा में filter कर देते हैं। मैं मानता हूँ कि AGI का एक हिस्सा systemic approach माँगता है, लेकिन सच्चे AGI के लिए architectural change भी चाहिए होगा
मुझे समझ नहीं आता कि जो लोग लिखते हैं कि LLM अब विकास की अंतिम सीमा पर पहुँच गया है, वे इतने निश्चित क्यों हैं। अभी तो एक साल भी ठीक से नहीं बीता, और LLM-आधारित AI अब भी लगातार improve हो रहा है
- भले ही सुधार की गुंजाइश बाकी हो, यह बात बनी रहती है कि उसकी सीमा अंततः सीमित है। individual tasks में यह लगातार बेहतर हो सकता है, लेकिन 'overall' improvement अब उतना साफ़ दिखाई नहीं देता
- मैं जानना चाहता हूँ कि ऐसा दावा करने वाले लोग क्या इस बात से सहमत हैं कि LLM वास्तव में बेहतर हो रहे हैं
यह लेख मुझे ऐसा लगता है जैसे कह रहा हो, "अगर सारे कठिन सवाल हल कर दिए जाएँ, तो सब संभव है।" मतलब... हाँ, ठीक है, लेकिन फिर?
- हाल की LLM प्रगति बहुत conservative रही है, और architectural innovation के बिना सिर्फ scale बढ़ाने की दिशा में गई है, इसलिए यह चर्चा सार्थक है
- लेख कठिन समस्याओं पर सीधे बात ही नहीं करता। high-tech industry के लोगों में कभी-कभी यह मानसिकता होती है कि engineering हो तो कोई भी समस्या हल हो जाएगी
- मूल पोस्ट साफ़-साफ़ बताती है कि कौन-सी समस्याएँ हैं और LLM उन्हें कैसे हल नहीं कर पा रहे हैं

2025-08-27

[यह टिप्पणी छिपाई गई है.]

kongchu2 2025-08-27

उम्मीद है कि आप guidelines पढ़कर विषय के मुताबिक टिप्पणी करेंगे।

AGI मॉडल ट्रेनिंग की नहीं, इंजीनियरिंग की समस्या है

परिचय: AGI एक इंजीनियरिंग समस्या है

वास्तविक सीमाएँ: LLM की दीवार

AGI के लिए system-level approach

1. Context management infrastructure

2. Service के रूप में memory

3. Deterministic workflows और probabilistic components का संयोजन

4. Specialized models का modularization

AGI की engineering चुनौतियाँ

आगे हमें क्या बनाना चाहिए

Phase 1: बुनियादी layer

Phase 2: capability layer

Phase 3: emergent layer

AGI की ओर रास्ता

संबंधित पढ़ाई

6 टिप्पणियां

Hacker News राय