- A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) एक self-hosted AI system है, जो एक consumer GPU पर बड़े मॉडलों के स्तर का code generation प्रदर्शन हासिल करता है
- LiveCodeBench v5 में इसने 74.6% pass@1-v(k=3) दर्ज किया, जो Claude 4.5 Sonnet(71.4%) से आगे है, और पिछले संस्करण की तुलना में लगभग दोगुना प्रदर्शन सुधार हासिल किया
- 14B parameter model(Qwen3-14B-Q4_K_M) को freeze रखकर constraint-based generation, self-verification·repair loop, और Geometric Lens candidate selection के जरिए उच्च प्रदर्शन हासिल किया गया
- यह cloud या API call के बिना local environment में पूरी तरह autonomous execution करता है, और लागत केवल बिजली की होती है, इसलिए API-आधारित मॉडलों की तुलना में cost efficiency बहुत अधिक है
- RTX 5060 Ti 16GB GPU वातावरण में यह लगभग 2 घंटे के भीतर 599 tasks प्रोसेस करता है, और बड़े मॉडलों की code generation क्षमता को personal hardware पर पुनःनिर्मित करना संभव बनाता है
बेंचमार्क परिणाम
- LiveCodeBench v5: 74.6% pass@1-v(k=3), 599 tasks पूरे
- V3 pipeline: PlanSearch + self-verified PR-CoT repair
- GPQA Diamond: 47.0%, 198 tasks
- SciCode: 14.7%, 341 tasks
- pass@k-v(k=3) एक single-attempt result नहीं है, बल्कि 3 candidates generate करने के बाद Lens selection और failure पर iterative repair शामिल करने वाली विधि है
-
V3 चरणवार योगदान (Ablation Study)
- A: बेसलाइन (V3 लागू नहीं) → 54.9%
- B: Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67.3% (+12.4pp)
- C: Phase 1+2 (Lens routing) → 67.3% (+0.0pp)
- D: Phase 1+3 (self-verified refinement) → 74.6% (+7.3pp)
- Phase 3 में मॉडल द्वारा स्वयं बनाए गए test cases से internal verification किया जाता है; वास्तविक answer key का उपयोग नहीं होता
- PR-CoT ने Phase 3 में 42 में से 36 (85.7%) समस्याओं को recover किया
लागत और प्रदर्शन तुलना
| सिस्टम |
LCB pass@1 |
प्रति task लागत |
टिप्पणी |
| DeepSeek V3.2 Reasoning |
86.2% |
~$0.002 |
API, single attempt |
| GPT-5 (high) |
84.6% |
~$0.043 |
API, single attempt |
| ATLAS V3 |
74.6% |
~$0.004 |
केवल local power उपयोग, best-of-3 + repair |
| Claude 4.5 Sonnet |
71.4% |
~$0.066 |
API, single attempt |
| Claude 4 Sonnet |
65.5% |
~$0.066 |
API, single attempt |
- ATLAS में केवल बिजली की लागत आती है, API लागत नहीं
- 165W GPU के आधार पर 599 tasks पूरे करने में लगभग 1 घंटा 55 मिनट लगते हैं
- latency अधिक है, लेकिन cost efficiency बहुत ऊंची है
काम करने का तरीका
-
पूरा pipeline
- Phase 1: Generate
- PlanSearch: constraints निकालना और विविध plans बनाना
- Budget Forcing: token उपयोग नियंत्रण
- Verify चरण
- Geometric Lens (C(x)): 5120-dimensional self-embedding आधारित energy scoring
- Sandbox: code execution और verification
- Phase 3: Repair
- Self-Test Generation: मॉडल स्वयं input-output pairs बनाता है
- PR-CoT Repair: multi-perspective chain-of-thought आधारित code correction
- single llama-server instance K3s पर चलता है, और speculative decoding तथा self-embedding generation एक साथ करता है
- Geometric Lens candidates में से सबसे अच्छा code चुनता है (mixed-result tasks में 87.8% accuracy)
- असफल tasks Phase 3 में भेजे जाते हैं, जहां self-test generation और iterative repair किया जाता है
इंस्टॉलेशन और रन
- GitHub repository clone करने के बाद config file copy करें और installation script चलाएँ
benchmark/v3_runner.py से V3 benchmark चलाएँ
- विस्तृत installation प्रक्रिया के लिए docs/SETUP.md देखें
हार्डवेयर और पुनरुत्पादन
| संसाधन |
न्यूनतम |
टेस्ट वातावरण |
| GPU VRAM |
16 GB |
RTX 5060 Ti 16 GB |
| सिस्टम RAM |
14 GB |
16 GB |
| Python |
3.10+ |
3.11 |
| OS |
RHEL 9 / Ubuntu 24 |
RHEL 9 (Proxmox VM) |
- इसे Proxmox VM + VFIO GPU passthrough वातावरण में reproduce किया गया
- 16GB या अधिक VRAM वाले अन्य NVIDIA GPU पर भी संभव है, लेकिन driver और VRAM settings में समायोजन की आवश्यकता हो सकती है
- मुख्य tuning variables:
--parallel slots की संख्या (डिफ़ॉल्ट 2, VRAM कम होने पर 1)
- KV cache quantization(Q4_0)
- प्रति slot context length (डिफ़ॉल्ट 20480 tokens)
- CUDA 12.8 version पर परीक्षण पूरा
- V3.1 में portability सुधार की योजना है
रोडमैप
-
V3.0 (पूरा, 2026-03-05)
- Qwen3-14B-Q4_K_M आधारित, 74.6% LCB प्रदर्शन
- PlanSearch + BudgetForcing + Geometric Lens + PR-CoT pipeline पूरा
-
ज्ञात सीमाएँ
- LCB-केंद्रित optimization: GPQA, SciCode जैसे अन्य benchmarks के लिए optimization अपर्याप्त
- Phase 2 (Lens routing): dataset की कमी के कारण प्रभाव नगण्य (+0.0pp)
- G(x) metric tensor निष्क्रिय: C(x) के untrained होने से अर्थपूर्ण geometric structure अनुपस्थित
- single-threaded processing: task parallelization का समर्थन नहीं
- SandboxAdapter stdio bug: input separation feature निष्क्रिय (V3.1 में fix yojit)
-
V3.1 (प्रगति पर)
- मॉडल बदलाव: Qwen3-14B → Qwen3.5-9B (DeltaNet linear attention, 3~4x speedup)
- Lens retraining: real-time feedback आधारित C(x) recalibration
- Phase 2 redesign: G(x) को फिर से implement करना या हटाना, SandboxAdapter bug fix
- parallel processing की शुरुआत: task parallel execution से processing speed बढ़ाना
- expanded benchmark suite: coding के अलावा reasoning·knowledge evaluation शामिल
-
नियोजित V3.1 benchmarks
- Coding: LiveCodeBench v5, SciCode, अतिरिक्त contamination-resistant datasets
- Reasoning/Knowledge: GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt आदि
- Confidence Router task difficulty के अनुसार route चुनता है:
- सरल queries → RAG-आधारित तेज reasoning (~30 सेकंड)
- जटिल coding problems → पूरा pipeline (~20 मिनट)
- लक्ष्य: 80~90% LCB pass@1-v(k=3) और और तेज processing speed
लाइसेंस
- A.T.L.A.S Source Available License v1.0 लागू
अभी कोई टिप्पणी नहीं है.