- Anthropic के मॉडल Claude Opus 4.6 ने Donald Knuth द्वारा कई हफ्तों से अध्ययन किए जा रहे directed Hamiltonian cycle decomposition problem को हल कर दिया
- समस्या (m^3) vertices वाले directed graph को तीन Hamiltonian cycles में decomposition करने की है, और Claude ने इसे odd m के लिए पूरी तरह हल किया
- Claude ने "fiber decomposition", 3D serpentine pattern, depth-first search (DFS), simulated annealing जैसी कई exploration strategies को चरणबद्ध तरीके से अपनाया
- अंततः इसने Python program के रूप में एक general solution निकाला, और Filip Stappers ने m=3 से 101 तक के odd m पर इसे verify करके complete decomposition की पुष्टि की
- Knuth ने इस परिणाम को automated reasoning और creative problem solving में एक breakthrough बताया, और स्पष्ट किया कि even m के मामले अब भी unsolved हैं
समस्या की पृष्ठभूमि और परिभाषा
- यह शोध विषय directed Hamiltonian cycles से संबंधित है, और Knuth की पुस्तक The Art of Computer Programming के आगामी खंड में शामिल किया जाना तय है
- graph (m^3) vertices (ijk) से बना है, और हर vertex से तीन edges निकलती हैं: (i+jk), (ij+k), (ijk+)
- लक्ष्य सभी (m>2) के लिए इन edges को तीन directed (m^3)-cycles में decompose करने का एक general solution खोजना है
Claude की exploration process
- Claude Opus 4.6, Anthropic का hybrid reasoning मॉडल है; Filip Stappers ने इसे यह समस्या दी और प्रगति प्रक्रिया को document करने का निर्देश दिया
- शुरुआती चरण में Claude ने समस्या को functional graph और permutation assignment problem के रूप में फिर से परिभाषित किया, और linear तथा quadratic functional approaches आज़माए, लेकिन वे असफल रहे
- इसके बाद इसने DFS search, 2D serpentine pattern analysis, 3D Gray code आधारित patterns आदि को क्रमशः परखा
- फिर fiber decomposition approach अपनाई गई, जिसमें (s = (i+j+k) \mod m) के आधार पर layered structure का analysis किया गया, और simulated annealing (SA) के जरिए partial solutions मिले
समाधान की खोज और verification
- exploration के 31वें चरण में Claude ने fiber-wise single-coordinate dependent rules का उपयोग करने वाला एक Python program तैयार किया
- इस program ने m=3,5,7,9,11 पर पूरी तीन Hamiltonian cycles उत्पन्न कीं
- Filip Stappers ने इसे m=3~101 के सभी odd m पर test किया और complete decomposition की पुष्टि की
- Knuth ने इसे C code में सरल बनाकर प्रस्तुत किया, और गणितीय रूप से सिद्ध किया कि हर cycle की लंबाई वास्तव में (m^3) है
generalization और mathematical analysis
- यह पाया गया कि (m=3) की कुछ Hamiltonian cycles को सभी odd m के लिए generalize किया जा सकता है
- (m=3) पर 11,502 cycles में से 1,012 को (m=5) तक generalize किया जा सकता है, और 996 को (m=7) तक
- ये 996 सभी odd m>1 के लिए generalize की जा सकती हैं
- Claude-like decomposition को ऐसे सरल rules से परिभाषित किया गया है जो केवल i, j, s के boundary values (0 या m−1) पर निर्भर करते हैं
- प्रमेय: यदि Claude-like decomposition सभी odd m>1 पर मान्य हो, तो m=3 की तीनों cycles ऐसी generalizable Hamiltonian cycles होनी चाहिए
- computation के अनुसार, 760 Claude-like decompositions सभी odd m पर valid हैं
even m की अनसुलझी स्थिति और निष्कर्ष
- even m का मामला अब भी open है
- (m=2) असंभव है, यह पहले के शोध में सिद्ध किया जा चुका है
- Claude ने (m=4,6,8) पर partial solutions पाए, लेकिन generalization में असफल रहा
- even m की exploration के दौरान Claude ने errors और abnormal behavior दिखाया, जिसके कारण खोज रोक दी गई
- Knuth ने इसे AI-आधारित automated reasoning की ऐतिहासिक उपलब्धि कहा, और टिप्पणी की कि यह Claude Shannon के नाम के अनुरूप प्रगति है
परिशिष्ट: अन्य दो cycles के rules
- दूसरी cycle (c=1):
- (s=0) हो तो j बढ़ता है, (0<s<m−1) हो तो i बढ़ता है, और (s=m−1) पर i>0 हो तो k बढ़ता है, i=0 हो तो j बढ़ता है
- तीसरी cycle (c=2):
- (s=0) पर j<m−1 हो तो i बढ़ता है, j=m−1 हो तो k बढ़ता है
- (0<s<m−1) पर i<m−1 हो तो k बढ़ता है, i=m−1 हो तो j बढ़ता है
- (s=m−1) हो तो i बढ़ता है
- हर cycle में s=0 पर vertices का क्रम स्पष्ट रूप से दिया गया है, और इसके जरिए पूरे cycle की संरचना सिद्ध की जा सकती है
1 टिप्पणियां
Hacker News की राय
यह सोचना दिलचस्प है कि RL scalability किन-किन समस्या क्षेत्रों पर लागू हो सकती है
पहले जिन चीज़ों के लिए मानव cognition पर निर्भर रहना पड़ता था, अब वे पैटर्न probability distribution के भीतर समा गए हैं, इसलिए अब कोई भी उन तक पहुँच सकता है
लेकिन जब विज्ञान की सीमाएँ लगातार फैलती रहती हैं, तब क्या मॉडल उसके साथ कदम मिला पाएँगे, यह सवाल बना रहता है
2030 में Anthropic को Claude को up-to-date रखना है तो या तो (a) fixed model में continuous learning चाहिए होगा या (b) continuous training, और दोनों ही आसान नहीं हैं
knowledge cutoff के बाद वे हमेशा उसी समय पर अटके रह जाते हैं
यह भी सोचा जा सकता है कि researchers को free inference दिया जाए और बदले में उनके thought traces को training data की तरह इस्तेमाल किया जाए
Qwen3-next, Qwen3.5, Nemotron 3 Nano जैसे models hybrid attention के ज़रिए memory cost घटाते हुए million-token window को support करते हैं
human verification, code execution, और search के माध्यम से मिलने वाला real-time feedback loop model training signal की तरह काम करता है
आधा मज़ाक है, लेकिन पूरी तरह नामुमकिन भी नहीं
इससे पहले हुई Wolfram और Knuth की GPT-4 बातचीत याद आ गई
Knuth उस समय skeptical थे, लेकिन हाल के Opus 4.6 जैसे models को देखकर लगता है कि उनका रुख कुछ नरम हुआ है
नए सबूत के आधार पर अपना विचार बदलना वाकई काबिले-तारीफ़ है
संबंधित बातचीत यहाँ देखी जा सकती है
यही वैज्ञानिक सोच का मूल भी है
मुझे लगा कि Knuth की लिखावट की शुरुआत कुछ हद तक misleading है
ऐसा लगता है जैसे Claude ने समस्या सीधे हल कर दी, जबकि वास्तव में Claude ने उदाहरण बनाए और Knuth ने उन्हें generalize करके proof में बदला
LLM दिशा तय करने में कमज़ोर होता है, लेकिन एक बार दिशा मिल जाए तो deep exploration बहुत अच्छी तरह करता है
उसे अकेला छोड़ दें तो वह भटक सकता है, लेकिन इंसान lead करे तो वह शानदार partner बन जाता है
Claude ने समस्या के core में सीधे प्रवेश करने वाली भूमिका निभाई, और इंसान ने बस उसे तराशा
proof को व्यवस्थित करना तो secondary work भर है
Claude के even case पर रुक जाने वाली बात दिलचस्प लगी
शायद उन्होंने claude.ai या claude code में से कुछ इस्तेमाल किया होगा, और वह context overflow (dumb zone) में चला गया होगा
जैसे Copilot में context usage graph दिखता है, वैसा कुछ users को दिखाई दे तो काफ़ी उपयोगी होगा
Arthur C. Clarke द्वारा प्रसिद्ध किया गया pentomino puzzle मैंने Claude से हल करवाने की कोशिश की
उसने board और pieces को 64-bit integers के रूप में व्यक्त करके एक C# program बनाया और जल्दी हल भी कर लिया, लेकिन 20x3 case में गलत mapping के कारण गलत जवाब दे दिया
यह दिलचस्प है, क्योंकि यह वैसी गलती है जैसी इंसान भी कर सकता है
संक्षेप में, Knuth ने समस्या दी और उनके एक दोस्त ने Claude के साथ लगभग 30 बार exploration किया
Claude ने odd case को हल करने वाला Python program बनाया, और Knuth ने उस approach का proof दिया
even case अब भी unsolved problem बना हुआ है
असल में Claude अक्सर रुक जाता था या गलती करता था, और इंसान का काम बस कभी-कभी उसे remind करना भर था
मूल idea किससे आया, यह अब भी साफ़ नहीं है
आजकल unsolved problems पर काम करना सचमुच बड़ा रोमांचक समय लगता है
मन करता है कि 10 साल पहले की research को फिर से Claude के साथ explore करूँ
LLM की ताकत मुझे तीन चीज़ों में दिखती है: विशाल knowledge, connections बनाने की क्षमता, और बिना थके trial and error
ये तीनों मिल जाएँ तो कभी-कभी चौंकाने वाले नतीजे निकलते हैं
शायद P≠NP का proof भी किसी ऐसे धुंधले connection में छिपा हो जिसे इंसान ने अभी तक नहीं देखा
LLM तो बस उस loop का एक घटक है
बाकी सब समान हो तो यही निर्णायक अंतर बन सकता है
पूरी तरह नए connections बनाना अभी भी मुश्किल लगता है
यह बात सही है या नहीं, इस पर संदेह है कि “LLM तो बस अगला शब्द predict करने वाली मशीन है”
अगर ऐसा है, तो इस तरह की problem solving को कैसे समझाया जाए? क्या यह ‘सोचना’ है?
“सबसे अधिक probable word” कहना हद से ज़्यादा simplified explanation है
आखिरकार “आगे क्या होगा, इसका अच्छा अनुमान लगाने की क्षमता” ही शायद intelligence की परिभाषा हो सकती है
RLHF की वजह से उसे सिर्फ़ prediction नहीं, बल्कि useful answers देने पर reward मिलता है
इसी कारण “delve” जैसे expressions ज़रूरत से ज़्यादा बार दिखाई देते हैं
संबंधित जानकारी के लिए AI SIGNS दस्तावेज़ देखें
LLM उसी distribution को सीख रहा है
इसे बस सरलीकृत करके खारिज करना तकनीक के असली स्वरूप को नज़रअंदाज़ करना है
यह दिलचस्प है कि यह खुद Knuth की रिपोर्ट है
अब समय है कि इसे बिना LLM की मदद के खुद पढ़ा और समझा जाए