A.T.L.A.S - $500 GPU ने कोडिंग बेंचमार्क में Claude Sonnet को पीछे छोड़ा

(github.com/itigges22)

12 पॉइंट द्वारा GN⁺ 2026-03-28 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) एक self-hosted AI system है, जो एक consumer GPU पर बड़े मॉडलों के स्तर का code generation प्रदर्शन हासिल करता है
LiveCodeBench v5 में इसने 74.6% pass@1-v(k=3) दर्ज किया, जो Claude 4.5 Sonnet(71.4%) से आगे है, और पिछले संस्करण की तुलना में लगभग दोगुना प्रदर्शन सुधार हासिल किया
14B parameter model(Qwen3-14B-Q4_K_M) को freeze रखकर constraint-based generation, self-verification·repair loop, और Geometric Lens candidate selection के जरिए उच्च प्रदर्शन हासिल किया गया
यह cloud या API call के बिना local environment में पूरी तरह autonomous execution करता है, और लागत केवल बिजली की होती है, इसलिए API-आधारित मॉडलों की तुलना में cost efficiency बहुत अधिक है
RTX 5060 Ti 16GB GPU वातावरण में यह लगभग 2 घंटे के भीतर 599 tasks प्रोसेस करता है, और बड़े मॉडलों की code generation क्षमता को personal hardware पर पुनःनिर्मित करना संभव बनाता है

बेंचमार्क परिणाम

LiveCodeBench v5: 74.6% pass@1-v(k=3), 599 tasks पूरे
- V3 pipeline: PlanSearch + self-verified PR-CoT repair
GPQA Diamond: 47.0%, 198 tasks
SciCode: 14.7%, 341 tasks
pass@k-v(k=3) एक single-attempt result नहीं है, बल्कि 3 candidates generate करने के बाद Lens selection और failure पर iterative repair शामिल करने वाली विधि है
V3 चरणवार योगदान (Ablation Study)
- A: बेसलाइन (V3 लागू नहीं) → 54.9%
- B: Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67.3% (+12.4pp)
- C: Phase 1+2 (Lens routing) → 67.3% (+0.0pp)
- D: Phase 1+3 (self-verified refinement) → 74.6% (+7.3pp)
- Phase 3 में मॉडल द्वारा स्वयं बनाए गए test cases से internal verification किया जाता है; वास्तविक answer key का उपयोग नहीं होता
- PR-CoT ने Phase 3 में 42 में से 36 (85.7%) समस्याओं को recover किया

लागत और प्रदर्शन तुलना

सिस्टम	LCB pass@1	प्रति task लागत	टिप्पणी
DeepSeek V3.2 Reasoning	86.2%	~$0.002	API, single attempt
GPT-5 (high)	84.6%	~$0.043	API, single attempt
ATLAS V3	74.6%	~$0.004	केवल local power उपयोग, best-of-3 + repair
Claude 4.5 Sonnet	71.4%	~$0.066	API, single attempt
Claude 4 Sonnet	65.5%	~$0.066	API, single attempt

ATLAS में केवल बिजली की लागत आती है, API लागत नहीं
165W GPU के आधार पर 599 tasks पूरे करने में लगभग 1 घंटा 55 मिनट लगते हैं
latency अधिक है, लेकिन cost efficiency बहुत ऊंची है

काम करने का तरीका

पूरा pipeline
- Phase 1: Generate
  - PlanSearch: constraints निकालना और विविध plans बनाना
  - Budget Forcing: token उपयोग नियंत्रण
- Verify चरण
  - Geometric Lens (C(x)): 5120-dimensional self-embedding आधारित energy scoring
  - Sandbox: code execution और verification
- Phase 3: Repair
  - Self-Test Generation: मॉडल स्वयं input-output pairs बनाता है
  - PR-CoT Repair: multi-perspective chain-of-thought आधारित code correction
- single llama-server instance K3s पर चलता है, और speculative decoding तथा self-embedding generation एक साथ करता है
- Geometric Lens candidates में से सबसे अच्छा code चुनता है (mixed-result tasks में 87.8% accuracy)
- असफल tasks Phase 3 में भेजे जाते हैं, जहां self-test generation और iterative repair किया जाता है

इंस्टॉलेशन और रन

GitHub repository clone करने के बाद config file copy करें और installation script चलाएँ
benchmark/v3_runner.py से V3 benchmark चलाएँ
विस्तृत installation प्रक्रिया के लिए docs/SETUP.md देखें

हार्डवेयर और पुनरुत्पादन

संसाधन	न्यूनतम	टेस्ट वातावरण
GPU VRAM	16 GB	RTX 5060 Ti 16 GB
सिस्टम RAM	14 GB	16 GB
Python	3.10+	3.11
OS	RHEL 9 / Ubuntu 24	RHEL 9 (Proxmox VM)

इसे Proxmox VM + VFIO GPU passthrough वातावरण में reproduce किया गया
16GB या अधिक VRAM वाले अन्य NVIDIA GPU पर भी संभव है, लेकिन driver और VRAM settings में समायोजन की आवश्यकता हो सकती है
मुख्य tuning variables:
- --parallel slots की संख्या (डिफ़ॉल्ट 2, VRAM कम होने पर 1)
- KV cache quantization(Q4_0)
- प्रति slot context length (डिफ़ॉल्ट 20480 tokens)
- CUDA 12.8 version पर परीक्षण पूरा
V3.1 में portability सुधार की योजना है

रोडमैप

V3.0 (पूरा, 2026-03-05)
- Qwen3-14B-Q4_K_M आधारित, 74.6% LCB प्रदर्शन
- PlanSearch + BudgetForcing + Geometric Lens + PR-CoT pipeline पूरा
ज्ञात सीमाएँ
1. LCB-केंद्रित optimization: GPQA, SciCode जैसे अन्य benchmarks के लिए optimization अपर्याप्त
2. Phase 2 (Lens routing): dataset की कमी के कारण प्रभाव नगण्य (+0.0pp)
3. G(x) metric tensor निष्क्रिय: C(x) के untrained होने से अर्थपूर्ण geometric structure अनुपस्थित
4. single-threaded processing: task parallelization का समर्थन नहीं
5. SandboxAdapter stdio bug: input separation feature निष्क्रिय (V3.1 में fix yojit)
V3.1 (प्रगति पर)
- मॉडल बदलाव: Qwen3-14B → Qwen3.5-9B (DeltaNet linear attention, 3~4x speedup)
- Lens retraining: real-time feedback आधारित C(x) recalibration
- Phase 2 redesign: G(x) को फिर से implement करना या हटाना, SandboxAdapter bug fix
- parallel processing की शुरुआत: task parallel execution से processing speed बढ़ाना
- expanded benchmark suite: coding के अलावा reasoning·knowledge evaluation शामिल
नियोजित V3.1 benchmarks
- Coding: LiveCodeBench v5, SciCode, अतिरिक्त contamination-resistant datasets
- Reasoning/Knowledge: GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt आदि
- Confidence Router task difficulty के अनुसार route चुनता है:
  - सरल queries → RAG-आधारित तेज reasoning (~30 सेकंड)
  - जटिल coding problems → पूरा pipeline (~20 मिनट)
- लक्ष्य: 80~90% LCB pass@1-v(k=3) और और तेज processing speed

लाइसेंस

A.T.L.A.S Source Available License v1.0 लागू

A.T.L.A.S - $500 GPU ने कोडिंग बेंचमार्क में Claude Sonnet को पीछे छोड़ा

बेंचमार्क परिणाम

V3 चरणवार योगदान (Ablation Study)

लागत और प्रदर्शन तुलना

काम करने का तरीका

पूरा pipeline

इंस्टॉलेशन और रन

हार्डवेयर और पुनरुत्पादन

रोडमैप

V3.0 (पूरा, 2026-03-05)

ज्ञात सीमाएँ

V3.1 (प्रगति पर)

नियोजित V3.1 benchmarks

लाइसेंस

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.